آخرین مهلت ارسال مقالات برای دوره ۴ -شماره ۱۲ -آذر ماه ۱۴۰۳:
(۱۵ آذر ماه ۱۴۰۳)
طراحی و تولید مجموعه دادگان اخبار فارسی IHU-PersianNewsDataSet-Javadzade-et-al دانشگاه جامع امام حسین (ع)
دوره 2، شماره 3، 1401، صفحات 103 - 121
1 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)
2 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)
3 دانشجوی کارشناسی ارشد دانشگاه جامع امام حسین (ع)
4 استادیار دانشگاه جامع امام حسین (ع)
چکیده :
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه میکند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دستهبندی و عدم رعایت استاندارد ذخیرهسازی از نمونه مشکلات مجموعه دادگان موجود میباشد که هرکدام از این موارد میتواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایشها تأثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمعآوری و تهیه مجموعه دادگانی باشیم که تمام اینگونه مشکلات را پوشش و میزان خطا هنگام بهکارگیری دادهها در مدلهای مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاههای خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. دادههای متنی به کمک یکی از کتابخانههای مخصوص زبان فارسی در زبان برنامهنویسی پایتون، نرمالسازی شده و در دو فرمت csv و xml ذخیرهسازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بینالملل، اقتصادی و استانها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دستهبندی متن، استخراج متن، خلاصهسازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد دادههای مناسب، وجود ویژگیهای مفید، دارا بودن ویژگیهای منحصربهفرد و همچنین ذخیرهسازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) میباشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده میباشد.
اگر چه کمبود داده برای تحقیقات در حوزه پردازش زبان طبیعی یکی از چالشها مهم است لیکن این چالش در خصوص زبان فارسی حادتر جلوه میکند، برای همین یافتن مجموعه دادگان باکیفیت و جامع در زبان فارسی کار دشواری است. علاوه بر آن دارا بودن برخی مشکلات از قبیل قابلیت دستهبندی و عدم رعایت استاندارد ذخیرهسازی از نمونه مشکلات مجموعه دادگان موجود میباشد که هرکدام از این موارد میتواند بر میزان یادگیری مدل، نتایج و میزان خطا در آزمایشها تأثیر بگذارد. به همین منظور تمامی این دلایل سبب شد که به دنبال جمعآوری و تهیه مجموعه دادگانی باشیم که تمام اینگونه مشکلات را پوشش و میزان خطا هنگام بهکارگیری دادهها در مدلهای مختلف را کاهش دهد. ما در این پژوهش خزشگری را در جهت جمعآوری دادگان متنی طراحی و استفاده نمودهایم که با خزش بر روی یکی از پایگاههای خبری توانسته است مجموعهای از دادگان را در پنج ستون عنوان، خلاصه، متن، برچسب و تاریخ انتشار خبر جمعآوری نماید. دادههای متنی به کمک یکی از کتابخانههای مخصوص زبان فارسی در زبان برنامهنویسی پایتون، نرمالسازی شده و در دو فرمت csv و xml ذخیرهسازی شده و در اختیار پژوهشگران همکار قرار گرفته است. برچسبها در این مجموعه داده شامل 13 برچسب اصلی ورزشی، هنر و رسانه، فرهنگ، علم و پیشرفت، سیاسی، سیاست خارجی، زندگی، خانواده، جامعه، تعلیم و تربیت، بینالملل، اقتصادی و استانها میباشد. از جمله کارهایی که بر روی این مجموعه داده قابل انجام است میتوان به دستهبندی متن، استخراج متن، خلاصهسازی متن و تشخیص عنوان اشاره کرد. همچنین از ویژگیهای بارز این مجموعه داده میتوان به جامعیت، تعداد دادههای مناسب، وجود ویژگیهای مفید، دارا بودن ویژگیهای منحصربهفرد و همچنین ذخیرهسازی در قالب استاندارد اشاره کرد. این مجموعه داده محصول گروه پردازش زبان دانشگاه جامع امام حسین (ع) میباشد و از طریق لینک مذکور در پانویس صفحه بعد و با رعایت حق کپیرایت قابل دریافت و استفاده میباشد.
کلمات کلیدی :
مجموعه داده، اخبار فارسی، پردازش زبان طبیعی، مجموعه داده اخبار فارسی، یادگیری ماشین، دستهبندی متن، استخراج متن، خلاصهسازی متن، تشخیص عنوان
مجموعه داده، اخبار فارسی، پردازش زبان طبیعی، مجموعه داده اخبار فارسی، یادگیری ماشین، دستهبندی متن، استخراج متن، خلاصهسازی متن، تشخیص عنوان
-
6,792
-
629
-
1401/05/28
-
1401/06/06
-
1401/06/25