Automated Natural Language Processing with Machine Learning for Recognizing and Classifying Arabic Proper Names by Gender
Tabarek Jamal Al-Ajrawi* - Dr. Omar Rahif El-Koussa**
تقدم هذه الدراسة تحليلًا مقارنًا لنتائج ثلاثة نماذج من نماذج التعلم الآلي (Machine learning) هي: الغابات العشوائية (Random Forest)، والتعلم الآلي اللوجستي (Logistic Regression)، والآلة الدعمة للتصنيف (Support Vector Machine) مع المعالجة الآلية للغة الطبيعية في التعرف على أسماء العلم في اللغة العربية، وتصنيفها بحسب نوع الجنس. أظهرت النتائج أن النموذج الثالث (Support Vector Machine) حقّق أداءً متفوقًا بدرجة كبيرة مقارنة بالنموذجين الآخرين. بينما جاء النموذجان الآخران بنتائج مشابهة لبعضهما البعض، وعلى الرغم من أن نموذج (Random Forest) كان يظهر أداءً جيدًا، إلا أن نموذج (Support Vector Machine) كان الأكثر دقة وفعالية في تحديد أسماء العلم. تعكس هذه النتائج أهمية استخدام تقنيات التعلم الآلي (Machine learning) المتقدمة في تعزيز فعالية التعرف على أسماء العلم في اللغة العربية، وتصنيفها بحسب نوع الجنس، مما يمكن أن يسهم في مجالات متعددة مثل: استخراج المعلومات، والتصنيف الآلي.
تم استخدام مجموعة البيانات "arabic_names" في هذه الدراسة التي تحتوي على أسماء عربية مع الكيانات المتعلقة بها، وتشير إلى الجنس. تمثّل الأسماء في مجموعة البيانات هذه، أسماء العلم التي يتم تعريفها وتمييزها باستخدام التعلم الالي (Machine learning).
- الكلمات المفتاحية: الكيانات المسماة في اللغة العربية؛ التعلم الآلي؛ المعالجة الآلية للغة الطبيعية؛ الغابات العشوائية؛ أسماء العلم العربية
***
- Abstract: This study presents a comparative analysis of the results of three machine learning models—Random Forest, Logistic Regression, and Support Vector Machine—with automated natural language processing for recognizing and classifying Arabic proper nouns by gender. The current results show that the third model, the Support Vector Machine, achieved significantly superior performance compared to the other two models. While the other two models achieved similar results, although the Random Forest model performed well, the Support Vector Machine was the most accurate and effective at identifying proper nouns. These results reflect the importance of using advanced machine learning techniques to enhance the effectiveness of recognizing and classifying Arabic proper nouns by gender, which can contribute to multiple fields such as information extraction and automated classification. The "arabic_names" dataset, which contains Arabic nouns and their associated entities that indicate gender, was used in this study. The names in this dataset represent proper nouns that are identified and labeled using machine learning.
- Keywords: Named entities in Arabic; machine learning; natural language processing; Random Forest; Logistic Regression; Support Vector Machine
***
* تبارك جمال العجرواي: باحثة عراقية حاصلة على درجة الماجستير في علوم الحاسوب من جامعة الآداب والعلوم والتكنولوجيا في لبنان (AUL) – كلية العلوم، وتعمل حاليًا في الجامعة التقنية الوسطى- العراق.
** الدكتور عمر رهيف الكوسا: باحث لبناني. مشرف ومشارك. أستاذ جامعي يعمل في عدة مؤسسات أكاديمية، منها: الجامعة اللبنانية – طرابلس: كلية العلوم (الفرع الثالث)، وكلية الآداب والعلوم الإنسانية (الفرع الثالث)، وجامعة الآداب والعلوم والتكنولوجيا في لبنان (AUL) – كلية العلوم، وجامعة طرابلس – كلية إدارة الأعمال.
* Tabarek Jamal Al-Ajrawi: An Iraqi researcher holding a Master's degree in Computer Science from the Arts, Sciences and Technology University in Lebanon (AUL) – Faculty of Science. She currently works at the Middle Technical University, Iraq.
** Dr. Omar Rahif El-Koussa: Supervisor and participant. Affiliated with multiple academic institutions: Lebanese University – Lebanon / Tripoli: Faculty of Science (Branch 3), Faculty of Literature and Humanities (Branch 3), Arts, Sciences and Technology University in Lebanon (AUL) – Faculty of Science, & University of Tripoli – Faculty of Business Administration
المصادر والمراجع
- العربية:
1- الزبيبي، أكرم عبد الله. (2021). أسماء علم الكلام: دراسة تحليلية نقدية. مجلة جامعة دمشق للعلوم الاقتصادية والسياسية، مج 37، ع 1.
2- معوّض، نجلاء محمود عبد؛ وعباس، نجلاء محمد. (2022). العلاقة الدلالية الكلامية بين الأسماء والصفات. المجلة العلمية لكلية أصول الدين والدعوة بالزقازيق، مج 34، ع 4، ص ص 683–732.
- الاجنبية:
1. (No author). Arabic Ontology Extraction from Unstructured Text. (Please verify and complete this reference.)
2. Abdelkader Saadi and Houari Belhadef. (2020). Deep neural networks for Arabic information extraction. Smart and Sustainable Built Environment, 9(4), 467–482. https://doi.org/10.1108/SASBE-03-2019-0031
3. András Kornai. (1996). Extended finite state models of language. Natural Language Engineering, 2(4), 287–290.
4. Ashutosh Reshamwala, Deepak Mishra, and Pooja Pawar. (2013). Review on natural language processing. IRACST Engineering Science and Technology: An International Journal, 3(1), 113–116.
5. Idir Guellil, Hafida Saâdane, Faiçal Azouaou, Brahim Gueni, and David Nouvel. (2021). Arabic natural language processing: An overview. Journal of King Saud University - Computer and Information Sciences, 33(5), 497–507. https://doi.org/10.1016/j.jksuci.2019.02.006
6. Kamalraj Chowdhary and Kamalraj R. Chowdhary. (2020). Natural language processing. In Fundamentals of Artificial Intelligence, 603–649.
7. Kamalraj R. Chowdhary. (2020). Fundamentals of Artificial Intelligence. https://doi.org/10.1007/978-81-322-3972-7
8. Maud Ehrmann, Abdelhamid Hamdi, Eduardo L. Pontes, Matteo Romanello, and Antoine Doucet. (2023). Named Entity Recognition and Classification in Historical Documents: A Survey. ACM Computing Surveys. https://doi.org/10.1145/3604931
9. Mohammad A. Al-Hamly and Mahmoud Farghal. (2015). The translation of proper nouns into Arabic: English fiction as an example. Babel, 61(4), 511–526.
10. Mohammad Hudhud, Hossam Abdelhaq, and Fady Mohsen. (2021). ArabiaNer: A system to extract named entities from Arabic content. In Proceedings of the 13th International Conference on Agents and Artificial Intelligence (ICAART), 1, 489–497. https://doi.org/10.5220/0010382404890497
11. Noun, T., Study, C., Names, Q., and Through, L. (2022). A. from Summer at the University of Damascus – Spain. pp. 34–48. (Note: This reference appears to be incorrect or placeholder text. Please verify the original source.)
12. Rachid Agliz. (2016). Arab World English Journal (AWEJ) Special Issue on Translation No. 5, May, 5–20.
13. Rania Elbarougy, Ghada Behery, and Ahmed El Khatib. (2020). Extractive Arabic text summarization using modified PageRank algorithm. Egyptian Informatics Journal, 21(2), 73–81.
14. Ronan Collobert and Jason Weston. (2008). A unified architecture for natural language processing: Deep neural networks with multitask learning. In Proceedings of the 25th International Conference on Machine Learning, 160–167.
15. Sameh AbdelRahman, Mohamed Elarnaoty, Mohamed Magdy, and Ahmed Fahmy. (2010). Integrated machine learning techniques for Arabic named entity recognition. IJCSI, 7(4), 27–36.
الحداثة (Al Hadatha)
صيف 2025 Summer
العدد: 236 ISSUE
مجلد: 32 .Vol
ISSN: 2790-1785
ليست هناك تعليقات:
إرسال تعليق