دکتر محمد دوستی زاده نشریه علمی-تخصصی دستاوردهای نوین در برق،کامپیوتر و فناوری 5 16 2025 09 16 Design and Development of English-Persian Bilingual Medical Text Datasets: IHU_MedicalArticlesDataSet_Javadzade-et-al طراحی و تولید مجموعه‌دادگان دوزبانه انگلیسی-فارسی متون پزشکی: IHU_MedicalArticlesDataSet_Javadzade-et-al 46 55 10.22051/jera.2021.31891.2698 FA علی دانشجوی کارشناسی ارشد هوش مصنوعی دانشگاه جامع امام حسین (ع) حسین دانشجوی دکتری هوش مصنوعی دانشگاه جامع امام حسین (ع) محمدعلی استادیار دانشگاه جامع امام حسین (ع) 2025 09 02 One of the major challenges in natural language processing and machine learning in the medical domain is the lack of comprehensive and standardized textual datasets, which is particularly pronounced for languages such as Persian, where most reliable sources are published in English, limiting access to structured and bilingual data for researchers. In this study, the IHU_MedicalArticlesDataSet_Javadzade-et-al was designed and is introduced, comprising data crawled from PubMed between 2000 and 2025 and including nine key features: article title, PMID, DOI, keywords, main category, subcategory, publication date, English abstract, and Persian abstract. These features make the dataset a valuable resource for cross-lingual research, developing specialized medical translation models, and analyzing scientific trends in fields such as dentistry, ophthalmology, oncology, neuroscience, and immunology. After preprocessing, normalization, and deduplication, the data were stored in a standard CSV format, making them suitable for tasks such as text classification, information retrieval, automatic summarization, and knowledge network analysis. The comprehensiveness, high quality, and inclusion of Persian translations are among the distinguishing characteristics of the IHU_MedicalArticlesDataSet_Javadzade-et-al. یکی از مهم‌ترین چالش‌ها در پردازش زبان طبیعی و یادگیری ماشین در حوزه پزشکی، کمبود مجموعه‌داده‌های متنی جامع و استاندارد است. این کمبود به‌ویژه در زبان‌هایی مانند فارسی ملموس‌تر است، زیرا اغلب منابع معتبر به زبان انگلیسی منتشر می‌شوند و دسترسی پژوهشگران فارسی‌زبان به داده‌های ساختارمند و دوزبانه محدود است. در این پژوهش، مجموعه‌دادهIHU_MedicalArticlesDataSet_Javadzade-et-al طراحی گردید و در این مقاله نسبت به معرفی آن پرداخته شده است. این مجموعه حاصل خزش از پایگاه PubMed در بازه زمانی ۲۰۰۰ تا ۲۰۲۵ است و شامل نه ویژگی اصلی است: عنوان مقاله، PMID، DOI، کلیدواژه‌ها، دسته‌بندی اصلی، دسته‌بندی فرعی، تاریخ انتشار، چکیده انگلیسی و چکیده فارسی. چنین ویژگی‌هایی، مجموعه‌داده حاضر را به منبعی ارزشمند برای تحقیقات بین‌زبانی، توسعه مدل‌های ترجمه تخصصی پزشکی و تحلیل روندهای علمی در حوزه‌هایی مانند دندان‌پزشکی، چشم، سرطان، علوم اعصاب و ایمنی تبدیل می‌کند. داده‌ها پس از پیش‌پردازش، نرمال‌سازی و حذف موارد تکراری، در قالب استاندارد CSV ذخیره شده و قابلیت استفاده در وظایفی همچون دسته‌بندی متون، بازیابی اطلاعات، خلاصه‌سازی خودکار و تحلیل شبکه دانش را دارند. جامعیت، کیفیت بالا و وجود لایه ترجمه فارسی از جمله ویژگی‌های متمایز مجموعه‌داده IHU_MedicalArticlesDataSet_Javadzade-et-al به شمار می‌روند.

/downloadfilepdf/2182916