جامعة بيرزيت الفلسطينية تنجز أضخم قاعدة بيانات للغة العربية

مصطفى جرار يدعو إلى ضخ المزيد من النتاجات المعرفية والعقلية والفكرية والعلمية المتعلقة باللغة العربية في الحاسوب.
الأربعاء 2020/03/11
العربية تدخل عصرا جديدا (لوحة للفنان ساسان نصرانيا)

فرضت الشبكة العنكبوتية تحديات كبيرة على جميع مناحي الحياة، ومنها تطوير آليات جديدة لتعامل اللغات معها بما يسهل استخدامها، ويكرس اللغة الأم مرجعا للقرّاء والباحثين والكتّاب. وهو ما تبدو اللغة العربية متأخرة فيه، ومن الضروري الالتفات إليه بمشاريع جريئة وطموحة.

أكد العديد من اللغويين العرب، منذ سنوات، حاجة اللغة العربية إلى الحوسبة عبر مشروعات ضخمة ومظلات كبيرة تطورها، وتعيد لها مكانتها من جديد، فهي، مقارنةً باللغات الأخرى، غير مخدومة حاسوبيا، ولا تزال المادة العربية في قواعد البيانات والقواعد الحاسوبية ضعيفة.

وحول هذا الموضوع الحيوي استضاف منتدى عبدالحميد شومان الثقافي في عمّان، يوم 9 مارس الجاري، الدكتور مصطفى جرار، أستاذ الذكاء الاصطناعي وحوسبة اللغة في جامعة بيرزيت الفلسطينية، لتقديم محاضرة بعنوان “تجربة بناء أضخم قاعدة بيانات لغوية في تاريخ اللغة العربية”. 

بيّن جرار في محاضرته، التي أدارها أمين عام مجمع اللغة العربية الأردني الدكتور محمد السعودي، أن حوسبة اللغة العربية بات أمرا ضروريا، ودعا إلى ضخ المزيد من النتاجات المعرفية والعقلية والفكرية والعلمية المتعلقة باللغة العربية في الحاسوب لتوفير فضاء معرفي حقيقي متاح للجميع، واستعرض الجهود المبذولة في جامعة بيرزيت من أجل حوسبة اللغة العربية، وإثراء محتواها الرقمي عبر شبكة الإنترنت.

وحسب جرار، فإن الجامعة تستخدم محركات “البحث المعجمي”، و”الأنطولوجيا العربية”، و”كراس للهجة العامية الفلسطينية”، وهي متاحة جميعها لاستخدام الباحثين والجمهور مجانا عبر موقع الجامعة الإلكتروني.

وأوضح جرار أن “محرك البحث المعجمي” لجامعة بيرزيت الأول من نوعه في العالم، ليس فقط على مستوى اللغة العربية، بل على مستوى جميع اللغات المستخدمة عبر شبكة الإنترنت، حيث تتضمن قاعدة بيانات المحرك حوسبة 150 معجما عربيا مختلفا، سواء المعاجم اللغوية العامّة التراثية والحديثة، أو المعاجم العلمية المتخصصة في مختلف مجالات العلوم التطبيقية والإنسانية. 

ويوفر المحرك ترجمة دقيقة بالعربية للمصطلحات والألفاظ الأجنبية، وبما يتجاوز الأخطاء والمغالطات الكثيرة التي تعتري ترجمات محركات البحث شائعة الاستخدام مثل محرّك “مترجم غوغل”، حيث تعتمد المحركات على غراره ما يسمى “الترجمة الإحصائية” لمعاني المفردات والكلمات، وليس الترجمة “المعجمية” المنضبطة، كما في محرك جامعة بيرزيت.

أضخم قاعدة بيانات لغوية في تاريخ العربية تمثل شبكة شاملة تحتوي على جميع المستويات المرتبطة باللغة

وسلّط جرار، الفائز بجائزة عبدالحميد شومان للباحثين العرب لدورة العام 2019، حقل العلوم التكنولوجية والزراعية (حوسبة اللغة العربية)، الضوء على منهجيات جديدة لتوصيف اللغة العربية من أجل النهوض بها لمواكبة عصر المعرفة والذكاء الاصطناعي.

واستعرض، أيضا، أضخم قاعدة بيانات لغوية في تاريخ اللغة العربية، وهي شبكة لغوية شاملة تحتوي على جميع المستويات التصريفية، والاشتقاقية والدلالية والأنطولوجيا، والعامية، بشكل مترابط، إضافةً لربطها بشبكات لغوية أجنبية.

ولفت جرار إلى أن زيادة الاهتمام بالمصادر اللغوية كـمعاجم (مكانز، مسارد، وأنطولوجيات) تأتي بهدف بناء تطبيقات حاسوبية مثل الترجمة الآلية، استرجاع البيانات بأكثر من لغة، فهم وتحليل النصوص المكتوبة والمنطوقة، والتحدث مع الآلة. إلا أن عدم دعم التطبيقات الحديثة للغة العربية، يعود إلى شح المصادر اللغوية العربية المحوسبة، إذ لا توجد قائمة بجميع المدخلات العربية، كما لا توجد مصادر لغوية حديثة.

وأوضح المحاضر أن جامعة بيرزيت أسهمت في جمع المصادر اللغوية ورقمنتها وتنقيحها ودمجها وتوحيدها، وإتاحتها للجمهور العربي والباحثين ومتعلمي اللغة العربية، ومطوري التطبيقات عبر واجهات برمجية (APIs).

وبشأن محرك “الأنطولوجيا العربية” بيّن جرار أنه يهدف إلى ضبط فوضى التعريفات والدلالات والمفاهيم في اللغة العربية، والتي تعتري حتى النقاشات العلمية والأكاديمية المتخصصة، فيما يستعير المحرك ذاته مفهوم “الأنطولوجيا” من الفلسفة، والذي يعني “علم الوجود”، أو علم “ماهية الأشياء”، كما تشير إليه المصادر التراثية العربية. لكن محرك “كراس”، يأتي استجابة لحقيقة واقعية مفادها أن نسبة كبيرة من المحتوى العربي عبر شبكة الإنترنت مكتوب باللهجات العامية، وعدم قدرة محركات البحث وأجهزة الحاسوب على التعرّف على هذه اللهجات.

وتابع جرار قائلا إن قاعدة البيانات المعجمية هي أضخم قاعدة بيانات للغة العربية ومتعددة اللغات تحتوي على أنواع كثيرة من المصادر اللغوية، مثل معاجم لغوية، ومعاجم ثنائية/ ثلاثية اللغة، وقواعد بيانات تصريفية، ومسارد، ومكانز، وفروق لغوية، والأنطولوجيا العربية، وغيرها، في حين تغطي مجالات عديدة كالعلوم والهندسة والصحة والطب والفلسفة والإنسانيات والفنون.

من جهته، أكد الدكتور محمد السعودي أهمية حوسبة اللغة العربية من خلال مشروعات ضخمة تعيد لها مكانها من جديد عبر حوسبتها، وإيجاد مرجعية متخصصة لمأسسة آليات عمل مراكز تعليم اللغة العربية لغير الناطقين بها ومراقبتها. واعتبر أن المحاضرة قدمت لمحة عامة ومهمة عن توجهات علمية جديدة في تعريف وتوصيف دلالة الكلمة، وهي ما يعرف بالأنطولوجيا اللغوية والتي تُعد البنية التحتية الأساسية لبناء تطبيقات ذكية في المستقبل.

16