آخرین مهلت ارسال مقالات برای دوره ۵ -شماره ۱۷ -زمستان ۱۴۰۴:
(۳۰ آذر ماه ۱۴۰۴)
طراحی و تولید مجموعهدادگان دوزبانه انگلیسی-فارسی متون پزشکی: IHU_MedicalArticlesDataSet_Javadzade-et-al
دوره 5، شماره 16، 1404، صفحات 46 - 55
1- دانشجوی کارشناسی ارشد هوش مصنوعی دانشگاه جامع امام حسین (ع)
2- دانشجوی دکتری هوش مصنوعی دانشگاه جامع امام حسین (ع)
3- استادیار دانشگاه جامع امام حسین (ع)
چکیده :
یکی از مهمترین چالشها در پردازش زبان طبیعی و یادگیری ماشین در حوزه پزشکی، کمبود مجموعهدادههای متنی جامع و استاندارد است. این کمبود بهویژه در زبانهایی مانند فارسی ملموستر است، زیرا اغلب منابع معتبر به زبان انگلیسی منتشر میشوند و دسترسی پژوهشگران فارسیزبان به دادههای ساختارمند و دوزبانه محدود است.
در این پژوهش، مجموعهدادهIHU_MedicalArticlesDataSet_Javadzade-et-al طراحی گردید و در این مقاله نسبت به معرفی آن پرداخته شده است. این مجموعه حاصل خزش از پایگاه PubMed در بازه زمانی ۲۰۰۰ تا ۲۰۲۵ است و شامل نه ویژگی اصلی است: عنوان مقاله، PMID، DOI، کلیدواژهها، دستهبندی اصلی، دستهبندی فرعی، تاریخ انتشار، چکیده انگلیسی و چکیده فارسی. چنین ویژگیهایی، مجموعهداده حاضر را به منبعی ارزشمند برای تحقیقات بینزبانی، توسعه مدلهای ترجمه تخصصی پزشکی و تحلیل روندهای علمی در حوزههایی مانند دندانپزشکی، چشم، سرطان، علوم اعصاب و ایمنی تبدیل میکند.
دادهها پس از پیشپردازش، نرمالسازی و حذف موارد تکراری، در قالب استاندارد CSV ذخیره شده و قابلیت استفاده در وظایفی همچون دستهبندی متون، بازیابی اطلاعات، خلاصهسازی خودکار و تحلیل شبکه دانش را دارند. جامعیت، کیفیت بالا و وجود لایه ترجمه فارسی از جمله ویژگیهای متمایز مجموعهداده IHU_MedicalArticlesDataSet_Javadzade-et-al به شمار میروند.