الرئيسية الذكاء الاصطناعي اللغة العربية والذكاء الاصطناعي: صراع الهوية في العصر الرقمي

اللغة العربية والذكاء الاصطناعي: صراع الهوية في العصر الرقمي

بين ندرة البيانات وتحديّات اللّهجات، مستقبل اللّغة العربيّة يتطلّب إرادة جماعيّة واستثمارات عابرة للحدود

بواسطة فريق عربية.Inc
images header

يبدي المهندس إسلام كمالٌ، مدير مشروعاتٍ سابقٌ في مايكروسوفت ومديرٌ هندسيٌّ حاليّاً في شركة ميتا، تفاؤلاً بمستقبل معالجة اللّغة العربيّة باستخدام الذّكاء الاصطناعيّ، لكنّ في الوقت ذاته يصف الطّريق بالطّويل الّذي يحتاج إلى تضافر جهودٍ مشتركةٍ وعظيمةٍ بين الجامعات والدّول والأفراد، للوصول إلى نتائج حقيقيّةٍ ملموسةٍ.

يقول المهندس كمالٌ لـ"عربية .Inc"، إنّ هناك عملاً حقيقيّاً في هذا الخصوص، إلّا أنّه ما يزال بطيئاً وغير كافٍ، مشيراً إلى وجود قواعد بياناتٍ عربيّةٍ بدأت بالظّهور خلال السّنوات الأخيرة، كمثالٍ على ذلك ازدياد أعداد الأبحاث العلميّة الّتي تخرج من الجامعات العربيّة، وتركّز على اللّغة.

يؤكّد كمالٌ أنّهم يلمسون الأمر كذلك في برامج الذّكاء الاصطناعيّ الّتي ظهرت مؤخّراً، والّتي تستطيع التّعامل مع اللّغة العربيّة مثل "شات جي بي تي 4" (ChatGPT4)، و"جوجل جيميني" (Google Gemini)، إضافةً إلى "مايكروسوفت كوبايلوت" (Microsoft Copilot) وغيرها، ويضيف أنّ تلك البرامج تستطيع التّعامل مع اللّغة العربيّة، وتستطيع استيعاب بعض لهجاتها. واعتبر أنّ هذا نتاج العمل المشترك سواءً من جهة الاهتمام باللّغة العربيّة، أو من جهة التّطوّر في بناء الذّكاء الاصطناعيّ نفسه، الّذي يتمّ العمل عليه ليكون أكثر قابليّةً للتّعامل مع اللّغات المتعدّدة.

ويتّفق معه الدّكتور أشرف النّجّار، نائب عميد كلّيّة الحوسبة والمعلوماتيّة بجامعة الشّارقة، الّذي قال إنّ تطوير نماذج ذكاء اصطناعيٍّ متقدّمةٍ أمرٌ من شأنه المساعدة في تحسين أدوات معالجة اللّغة، ممّا يؤدّي إلى ترجمةٍ أفضل وزيادة دمج اللّغة العربيّة في العالم الرّقميّ. ويسعى النّجّار خلال عمله مع طلّابٍ وباحثين إلى بناء نماذج جديدةٍ توسّع المعرفة باستخدام العربيّة في الذّكاء الاصطناعيّ. [1]

ندرة الموارد والبيانات.. أبرز التّحدّيات

على الرّغم من أنّ التّعدّديّة اللّغويّة واللّهجات تعدّ من أبرز المشاكل الأساسيّة في معالجة اللّغة العربيّة بالذّكاء الصّناعيّ، إلّا أنّ المدير الهندسيّ في "ميتا" يرى أنّها المشكلة الثّانية، وليست الأولىٰ أو الأساسيّة.

المشكلة الحقيقيّة، حسب كمالٍ، هي ندرة الموارد والبيانات المتوفّرة على الإنترنت باللّغة العربيّة؛ فـ"شات جي بي تي" ليعمل بشكلٍ جيّدٍ يحتاج إلىٰ بياناتٍ واسعةٍ وضخمةٍ، سواءً كانت مصنّفةً أم غير مصنّفةٍ، وللأسف النّوعان ليسا متوافرين بكثافةٍ باللّغة العربيّة.

ويقول كمالٌ إنّ البيانات المتاحة باللّغة الإنكليزيّة واللّغات الأوروبّيّة أكبر بكثيرٍ مقارنةً بمثلها باللّغة العربيّة، مشيراً إلىٰ أنّ تلك الدّول تعمل علىٰ تمويل الأبحاث العلميّة وإنشاء قواعد بياناتٍ ضخمةٍ بتصنيفاتها المختلفة، بحيث يستطيع الذّكاء الصّناعيّ العمل عليها، وهٰذا ليس متاحاً بكمّيّاتٍ كافيةٍ باللّغة العربيّة.

يختصر كمالٌ المشكلة بالقول إنّ المحتوى العربيّ علىٰ الإنترنت أقلّ، كذٰلك التّمويل لإعداد قواعد بياناتٍ دقيقةٍ بالعربيّة أقلّ بكثيرٍ مقارنةً مع الدّول الغربيّة.

ورغم أهمّيّة الشّركات في تمويل تلك الأبحاث، إلّا أنّ معظمها يحجم عن ذٰلك، بسبب رؤيتها للسّوق العربيّ الّذي يعتبر من وجهة نظرها ضعيفاً لناحية كمّيّة الأموال المتاحة فيه، فلا تجد تلك الشّركات فيه أيّ حافزٍ لتستثمر بالبيانات العربيّة الّتي تصنّف درجةً ثانيةً من حيث كمّيّة الدّخل الّذي يعود علىٰ تلك الشّركات في حال استثمرت فيه.

ولا يشكّل المحتوى العربيّ علىٰ الإنترنت سوىٰ 3%، مقارنةً بباقي اللّغات العالميّة الأخرىٰ، حسب تقريرٍ أصدره الاتّحاد الدّوليّ للاتّصالات، في حين يشكّل المحتوى باللّغة الإنكليزيّة 80%، مستحوذاً علىٰ معظم المساحة الرّقميّة للّغات العالميّة.

والمشكلة الحقيقيّة أنّ العديد من العرب يلجؤون إلىٰ تعلّم اللّغة الإنكليزيّة لضمان دخولهم سوق العمل والحصول علىٰ رواتب مرتفعةٍ، وهٰذا في حدّ ذاته يشكّل تحدّياً كبيراً يحتاج إلىٰ حلٍّ عبر دعم كتّاب المحتوى والأبحاث باللّغة العربيّة وتشجيعهم علىٰ المضيّ قدماً في زيادة المحتوى العربيّ.

كما أنّ ردم الفجوة بين اللّغة العربيّة والذّكاء الصّناعيّ يتطلّب جهوداً مشتركةً بين مطوّري الذّكاء الصّناعيّ واللّغويّين وخبراء المجال. فقط من خلال التّعاون بين الأوساط الأكاديميّة وصناعة التّكنولوجيا وأصحاب المصلحة في المجتمع، يمكن ضمان توفير محتوًى منتجٍ عبر الذّكاء الصّناعيّ بجودةٍ تضاهي ما يحصل عليه النّاطقون باللّغة الإنكليزيّة.

باختصارٍ، على النّاطقين باللّغة العربيّة المساهمة بالشّكل الكافي لتشكيل هٰذه التّكنولوجيا والاستفادة منها، إذا أرادوا الحفاظ على لغتهم وضمان استمرارها.

تعدّد اللّهجات.. التّحدّي الأبرز الثّاني

على الرّغم من أنّ كثيرين لا يرون أنّ كتابة اللّغة العربيّة بدون تشكيلٍ تشكّل أيّ مشكلةٍ، إلّا أنّ المهندس كمال يرى فيها مشكلةً كبيرةً. وضرب مثالاً في حديثه أنّ نتخيّل كتابة الكلمات الإنكليزيّة بدون الأحرف المتحرّكة، ممّا سيجعل الكلمات أقلّ وضوحاً، وسنكون مضطرّين إلى قراءة سياق الجملة لفهم المعنى. وقال إنّ غياب التّشكيل في اللّغة العربيّة يعادل غياب الأحرف المتحرّكة في الإنكليزيّة.

كذٰلك، يشير كمال إلى أنّ الاشتقاق والصّرف والسّوابق واللّواحق في اللّغة العربيّة كثيرةٌ جدّاً، ولا يوجد ما يقابلها في باقي اللّغات سوى اللّغة الفنلنديّة.

ومع ذٰلك، لا يرى كمال أنّ هٰذه مشكلةٌ جذريّةٌ، فمشاكل صعوبة اللّغة باستخدام الذّكاء الصّناعيّ ليست خاصّةً بالعربيّة فقط. ولٰكن هٰذا يفرض واقعاً تبرز فيه الحاجة إلى مزيدٍ من البيانات لتلافي تلك الثّغرات.

هنا، يعود كمال إلى المشكلة الأساسيّة الّتي تعاني منها اللّغة العربيّة، وهي ندرة وجود البيانات على الإنترنت.

يختصر المهندس المصريّ المشاكل المرتبطة بمعالجة اللّغة العربيّة باستخدام الذّكاء الصّناعيّ في ثلاث مشكلاتٍ رئيسيّةٍ: كمّيّة البيانات، واللّهجات الّتي تتسبّب في تفتّت البيانات، إضافةً إلى صعوباتٍ خاصّةٍ باللّغة العربيّة نفسها، والّتي، وإن كانت موجودةً في لغاتٍ أخرى، إلّا أنّ مشكلة ندرة البيانات تساهم في تعظيم المشكلة في اللّغة العربيّة.

وتعتبر اللّغة العربيّة السّادسة عالميّاً من حيث عدد المتحدّثين بها، وتمتاز بتنوّعٍ واسعٍ في اللّهجاتها، ممّا يجعل تدريب نماذج الذّكاء الصّناعيّ عليها أكثر تعقيداً.

بالمقابل، فإنّ اللّهجات المحلّيّة هي الأكثر شيوعاً على المدوّنات ووسائل التّواصل الاجتماعيّ.

ويمكن القول إنّ تطبيق "جيس" للذّكاء الصّناعيّ، الّذي أطلقته الإمارات العام الماضي، يعمل بشكلٍ جيّدٍ على حلّ هٰذه المشكلة، ولٰكن ما يزال هناك حاجةٌ للتّحسين ولتطبيقاتٍ أخرى مشابهةٍ.

التّغلّب على التّحدّيات

من الصّعب التّغلّب على التّحدّيات بين ليلةٍ وضحاها، فالأمر يحتاج إلى جهودٍ كبيرةٍ وإرادةٍ حقيقيّةٍ لدى الحكومات والدّول والأفراد. ويقول المهندس كمال إنّ ما يمكن القيام به هو زيادة المحتوى العربيّ ذي الجودة العالية على الإنترنت، وذٰلك من خلال الفهرسة والتّدقيق وتزويده بمعلوماتٍ إضافيّةٍ، ثمّ تحويل هٰذا المحتوى إلى قواعد بياناتٍ يمكن للذّكاء الصّناعيّ استخدامها مباشرةً.

ليس الباحثون في مجال علوم الحاسوب وحدهم معنيّين بالمساعدة في حلّ المشكلة، فالبحث العلميّ في الآداب وجميع التّخصّصات الأخرى يمكن أن يكون عاملاً حاسماً. وحسب كمالٍ، فإنّ الباحثين من مختلف الاختصاصات في الدّول الأوروبّيّة وأميركا أعدّوا أبحاثاً علميّةً ضخمةً خارج علوم الحاسوب، ممّا ساهم في توفّر قواعد بياناتٍ عالية الجودة باللّغات الإنكليزيّة والأوروبّيّة.

نحتاج عملاً جماعيّاً

يؤمن المهندس كمال بوجود عملٍ حقيقيٍّ جارٍ لحلّ المشكلات المتعلّقة باستخدام اللّغة العربيّة في الذّكاء الصّناعيّ. وفي الوقت نفسه، يشير إلى أنّ أكبر المشكلات حاليّاً هي الطّابع الفرديّ لهٰذا العمل، ممّا يبرز الحاجة إلى جهودٍ جماعيّةٍ حقيقيّةٍ على مستوى الحكومات والدّول والجامعات وكلّ الهيئات المعنيّة.

وينصح كمال المستخدم العربيّ باستخدام اللّغة العربيّة الفصحى إذا أراد الحصول على أفضل النّتائج مع الذّكاء الاصطناعيّ، لأنّ البيانات المكتوبة بالفصحى والمتوفّرة على الإنترنت تعتبر الأكثر جودةً. ومع ذٰلك، يوضّح أنّ هٰذا ليس الحلّ الوحيد أو نهاية المطاف، ولٰكنّ استخدام الفصحى حاليّاً يؤدّي إلى نتائج أفضل للمستخدم.

وعلى الرّغم من أهمّيّة نصيحة كمالٍ وعمليّتها للمستخدمين العرب، فإنّ تقصير الذّكاء الاصطناعيّ على اللّغة الفصحى قد يحدث فجوةً في تلبية احتياجات المستخدمين. وفي هٰذا السّياق، يشير محمّد منيب خالدٍ، الباحث في مجال الذّكاء الاصطناعيّ في الإمارات، إلى أنّ الكثير من أصحاب الأعمال في العالم العربيّ يفضّلون نماذج ذكاء اصطناعيٍّ تدعم اللّهجات المحلّيّة بدل الفصحى، لأنّ اللّهجات تستخدم بشكلٍ أكبر في التّعامل مع العملاء.

ويضيف خالدٌ: "العملاء يفضّلون التّحدّث بلغتهم اليوميّة، ممّا يجعل من الضّروريّ تطوير نماذج قادرةٍ على التّعامل مع هٰذا التّنوّع، وهٰذا ما نسعى إليه أنا وزملائي الباحثون". [1]

ويحمل حديث خالدٍ بعض الأمل، بأنّنا قادرون على الوصول إلى مستوىً جديدٍ أكثر تقدّماً، يمكّننا من استخدام لغتنا الأمّ بسلاسةٍ وبدون أيّ أخطاء، ممّا يساعدنا على ردم الفجوة الرّقميّة الّتي بدأت بالتّوسّع بين المستخدم النّاطق بالعربيّة وبين الذّكاء الاصطناعيّ.

إنّ تحدّيات دمج اللّغة العربيّة في تطبيقات الذّكاء الاصطناعيّ ليست مجرّد عقباتٍ تقنيّةٍ، بل هي دعوةٌ للعمل المشترك لصون الهويّة اللّغويّة والثّقافيّة. وعلى الرّغم من التّقدّم الملاحظ في هٰذا المجال، تبقى الحاجة إلى إرادةٍ حقيقيّةٍ واستثماراتٍ مستدامةٍ أمراً أساسيّاً لضمان حصول النّاطقين بالعربيّة على تجربةٍ تقنيّةٍ متكاملةٍ.

بمزيدٍ من التّعاون بين المطوّرين، الباحثين، وصنّاع القرار، يمكن للّغة العربيّة أن تحتلّ مكانتها المستحقّة في المشهد الرّقميّ العالميّ. ولٰكنّ هٰذا يعتمد على العمل المستمرّ والإرادة الحقيقيّة، لضمان أن تبقى لغتنا الأمّ جزءاً أساسيّاً من العصر الرّقميّ، تحمل معها قيمتها وإرثها الثّقافيّ إلى أفقٍ جديدٍ.

تابعونا على قناتنا على واتس آب لآخر أخبار الستارت أب والأعمال
آخر تحديث:
تاريخ النشر: