Arabic Part of Speech Tagging by Using the Stanford System: Prepositions as a Case Study


Article info

2019-02-21
2019-07-09
743 - 768

Keywords

  • Syntactic Category
  • Natural Language Processing (NLP)
  • Part Of Speech
  • Prepositions
  • Holy Quran Data Set.
  • Tagging
  • Arabic

Abstract

This paper discusses part of speech (PoS) tagging for Arabic prepositions. Arabic has a number of predefined sets of particles such as particles of Nasb, particles of Jazm, particles of Jarr (also called prepositions), etc. Each set has a particular role in the context in which it appears. In general, PoS is the process of assigning a tag for each word (e.g. name, verb, particle, etc.) based on the context. In fact, PoS is a beneficial tool for many natural language processing (NLP) toolkits. For instance, it is used in syntactic parsing to validate the grammar of the sentence in question. It is also beneficial to understand the required meaning via textual analysis for further processing in search engines. Many other language processing applications utilize PoS such as machine translation, speech synthesis, speech recognition, diacritization, etc. Hence, the performance quality of many NLP applications depends on the accuracy of outputs of the used tagging system. Hence, this study examines the Stanford tagger to explore its tag set in the text under examination and its performance for tagging Arabic prepositions. This study also discusses the weaknesses of the Stanford tagger, as it does not handle the merging case when a preposition joins with an adjacent word to form one single word. Another concern of the Stanford tagger is that it gives a unique tag for different particles such as Jarr and Jazm in terms of linguistic functions. Through our inductive study of prepositions in terms of linguistic functions such as Jazm and Istifham (interrogation), we did not note differences in tagging prepositions like “to” ( (إلىand “in” ((في. Other prepositions are also difficult to distinguish unless they are contextualized; these include “until” ((حتى and “except” ((عدا. This shows that this tagging system is inaccurate and the need for keeping up with tagging-related systems is vital, hence is the significance of our research. In this work, we used the Holy Quran to identify the performance of the Stanford System in tagging prepositions in the Quran. This work encourages more research on tagging other Arabic prepositions to explore the compatibility of tagging symbols employed in the Stanford System and prepositions used in the Arabic language, in general.

These articles may interest you also

وسم كلمات اللغة العربية باستخدام نظام ستانفورد: حروف الجر نموذجاً


معلومات المقال

2019-02-21
2019-07-09
743 - 768

الكلمات الإفتتاحية

  • Syntactic Category
  • Natural Language Processing (NLP)
  • Part Of Speech
  • Prepositions
  • Holy Quran Data Set.
  • Tagging
  • Arabic

الملخص

تتناول هذه الدراسة مسألة وسم الكلمات (تحديداً حروف الجر) في النصوص العربية المكتوبة وهو ما يعرف بـ (Arabic part of speech tagging). تحتوي اللغة العربية على عدد محدد من مجموعات الحروف (particles)، مثل: حروف الجر، وحروف الجزم، وحروف النصب، الخ. وتؤدي كل مجموعة دوراً معيناً في السياق الذي ترد فيه. بشكل عام، فإن الوسم هو عملية تحديد الصيغة الصرفية لكل كلمة سواء كانت اسماً، أو فعلاً، أو حرفاً بأنواعها المختلفة وذلك بالاعتماد على السياق الذي ترد فيه. يفيد وسم النصوص في كثير من تطبيقات معالجة اللغات الطبيعية، اذ يستخدم بشكل رئيسي في تحليل النصوص (syntactic parsing) للتحقق من صحة الجملة وتوافقها مع قواعد اللغة، وكذلك يستخدم لتحليل النص لفهم المعنى المطلوب لاستخدامه في محركات البحث (search engines). تشمل تطبيقات معالجة اللغات ايضاً الترجمة الآلية (machine translation)، تأليف الكلام (speech synthesis)، التعرف على الكلام (speech recognition)، التشكيل الآلي (diacritization) وغيرها. وبذلك فإن جودة الأداء في كثير من التطبيقات اللغوية تعتمد على دقة مخرجات نظام الوسم المستخدم، فكانت هذه الدراسة التي تشير إلى نظام ستانفورد (Stanford tagger) لوسم النصوص العربية وذلك بهدف تحديد أقسام الكلام المستخدمة في النص موضع الفحص (مجموعة الصيغ الصرفية) وكذلك تهدف الدراسة الى التعرف على أداء نظام ستانفورد عند وسم حروف الجر في اللغة العربية. تناقش هذه الدراسة كذلك جوانب الضعف في نظام ستانفورد؛ فقد توصل الباحثان إلى أن هذا النظام لا يعالج مسألة الاقتران كأن يقترن حرف الجر بالكلمة، مثل (بـِ) و (لـِ)، وكذلك فإنه يعطي وسماً مشتركاً لحروف مختلفة من حيث الوظائف اللغوية كالجزم والاستفهام، فعبر دراستنا الاستقرائية لحروف الجر لم نلحظ خلافاً في وسمها، مثل: إلى، في. ويصعب تمييز الحروف الأخرى إلا عبر السياق مثل: حتى، عدا؛ مما يشير إلى عدم الدقة في هذا الوسم والحاجة إلى تطويره لمواكبة الأنظمة المرتبطة بعملية الوسم؛ وهنا تأتي أهمية هذا البحث. تم استخدام مدونة القرآن الكريم للتعرف على أداء نظام ستانفورد عند وسم حروف الجر الواردة في القرآن الكريم. وبشكل عام فإن نتائج هذه الدراسة تدعو إلى مزيد من البحث والتمحيص في مسألة وسم الحروف الأخرى في العربية بهدف دراسة مدى توافق رموز الوسم المستخدمة في نظام ستانفورد مع الحروف المستخدمة في اللغة بشكل عام.

These articles may interest you also

An-Najah National University
Nablus, Palestine
P.O. Box
7, 707
Fax
(970)(9)2345982
Tel.
(970)(9)2345560
(970)(9)2345113/5/6/7-Ext. 2378
E-mail
[email protected]
Dean
Prof. Waleed Sweileh