ثبت نام در مجله
مهلت ارسال مقالات

آخرین مهلت ارسال مقالات برای دوره دوم-شماره4 -پاییز 1401:

(15 آذر ماه 1401)

بانک ها و نمایه ها


civilica

56454

tpbin

magiran

jref-fa

Irindexing

Untitled

 

قوانین

قانون بین المللی کپی رایت

 این نشریه تحت قانون بین المللی کپی رایت BY: Creative Commons  می‌باشد.

قوانین کمیتۀ اخلاق در انتشار

این نشریه تابع قوانین کمیتۀ اخلاق در انتشار (COPE) است و از آیین نامه اجرایی قانون پیشگیری و مقابله با تقلب در آثار علمی پیروی می نماید.

open access
دسترسی آزاد به مقالات نشریه
 
DOAJ
 
طراحی و تولید مجموعه دادگان اخبار فارسی IHU-PersianNewsDataSet-Javadzade-et-al دانشگاه جامع امام حسین (ع)
دوره 2، شماره 3، 1401، صفحات 103 - 121
نویسندگان : حسین حسینی * 1 ، محمد قلعه‌نوئی 2 ، محمدمهدی مختاری 3 ، محمدعلی جوادزاده 4

1 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

2 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

3 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)

4 استادیار دانشگاه جامع امام حسین (ع)

چکیده :
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه می‌کند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دسته‌بندی و عدم رعایت استاندارد ذخیره‌سازی از نمونه مشکلات مجموعه دادگان موجود می‌باشد که هر‌کدام از این موارد می‌تواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایش‌ها تأثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمع‌آوری و تهیه مجموعه دادگانی باشیم که تمام این‌گونه مشکلات را پوشش و میزان خطا هنگام به‌کارگیری داده‌ها در مدل‌های مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاههای خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. دادههای متنی به کمک یکی از کتابخانه‌های مخصوص زبان فارسی در زبان برنامه‌نویسی پایتون، نرمال‌سازی شده و در دو فرمت csv و xml ذخیره‌سازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسب‌ها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بین‌الملل، اقتصادی و استان‌ها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است می‌توان به دسته‌بندی متن، استخراج متن، خلاصه‌سازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگی‌های بارز این مجموعه داده می‌توان به جامعیت، تعداد داده‌های مناسب، وجود ویژگی‌های مفید، دارا بودن ویژگی‌های منحصربه‌فرد و همچنین ذخیره‌سازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) می‌باشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپی‌رایت قابل دریافت و استفاده می‌باشد.
کلمات کلیدی :
مجموعه داده، اخبار فارسی، پردازش زبان طبیعی، مجموعه داده اخبار فارسی، یادگیری ماشین، دسته‌بندی متن، استخراج متن، خلاصه‌سازی متن، تشخیص عنوان