fso
nlp-oujda
ump
Home / برامج / تَجْزِيئ الْكَلَام – TreeTagger

تقديم:


العديد من الطرق الإحصائية اُسْتُخْدِمت في عملية تجزيئ أقسام الكلام من أبرزها تلك التي اعتمدت على نماذج ماركوف المخفية، إلا أن هذه الخوارزمية تواجه  بعض صعوبات في تقدير احتمالات الانتقال بدقة لاسيما إن كانت بيانات التدريب محدودة. ونتيجة لذلك فقد ظهرت طريقة جديدة لتجاوز هذه المشاكل عبر استخدام الرسم الشجري. بناء على هذه الخوارزمية تم تطوير برنامج قياسي تجزيئ الكلام مستقل عن أي لغة بعينها وتتم تهيئته لمعالجة لغة معينة عبر إنشاء ملف إعداد خاص بتلك اللغة. الورقة البحثية أسفله تشرح طريقة إعداد البرنامج لإستعماله لتوسيم النصوص العربية مع عرض النتائج المحصل عليها وكذا تجدون في المرفقات ملفات الإعداد النهائية لكل من النصوص القرآنية و النصوص الحديثة.

التوسيمات المستخدمة :

Tags التوسيمات

Tag Symbols

الاختصار

Tag in Arabic

الوسم

Example

مثال

1.      Verbs (all tenses and modes)

2.      Nouns

3.      Proper nouns

4.      Pronouns

5.      Adjectives

6.      Adverbs

7.      Utilities words (particles, conjunctions…)

8.      Disconnected letters (Quranic Initials)

9.      Speech-specific sounds

10.   Other: foreign words, typos, abbreviations…

11.   Punctuation marks

VERB

NOUN

PN

PRON

ADJ

ADV

PRT

DISL

Uh

X

SENT

فعل

اسم

اسم علم

ضمير

صفة

ظرف

أداة

حروف مقطعة

حرف صوت

أخرى

علامة ترقيم

كَتَبَ” (kataba “to Write”)

مَدْرَسَة” (madrasap “School”)

مُحَمَّد” (muHam~ad “Mohamed”)

هِيَ” (hiya “She”)

جَمِيل” (jamyl “Beautiful”)

بَعْدَ، فَوْقَ” (baEda, fawoqa “After, Above”)

إلى، ذلك، الذي” (<ilY, *lk, Al*y “To, That, who”)

الم، طه، كهيعص” (Alm, Th, khyES)

آه، هيهات” (|h, hayhAt)

أوبك، مانشستر” (>wbk, mAn$str “OPEC, Manchester”)

.

لمزيد من التفاصيل المرجو الإطلاع على الورقة التالية :

Imad Zeroual and Abdelhak Lakhouaja, “Adapting a decision tree based tagger for Arabic,” in 2016 International Conference on Information Technology for Organizations Development (IT4OD), 2016, pp. 1–6., (DOI) 10.1109/IT4OD.2016.7479306.

 لتحميل ملفات الإعدادات :

تجدر الإشارة إلى أن البرنامج لا يتعامل مباشرة مع الحروف العربية لذلك يجب تحويلها للكتابة اللاتينية باستخدام جدول Buckwalter encoding UTF8

Leave a Reply

Your email address will not be published. Required fields are marked *

*

ăn dặm kiểu NhậtResponsive WordPress Themenhà cấp 4 nông thônthời trang trẻ emgiày cao gótshop giày nữdownload wordpress pluginsmẫu biệt thự đẹpepichouseáo sơ mi nữhouse beautiful