Jais 30B ترتقي بمعايير النماذج اللغوية الكبيرة بالعربية
النسخة الأحدث من نموذج جيس من Core42 تُعزز الأداء في مختلف مجالات توليد وتلخيص المحتوى والترجمة بين اللغتين العربية والإنجليزية
أعلنت شركة Core42، إحدى شركات مجموعة G42، عن إطلاق "جايس 30 بي" (Jais 30B)، نموذج اللغة الكبير ثنائي اللغة (LLM) الذي يمتلك القدرة على تحسين الإسهاب باللغة العربية بنسبة 160٪ وباللغة الإنجليزية بنسبة 233٪، حسب ما ذكرت الشركة المتخذة من الإمارات مقراً لها في بيانٍ صحفي. [1]
مع 30 مليار معامل، مقارنةً بسلفه الذي تم إطلاقه في أغسطس من هذا العام والذي يحوي 13 مليار معامل، يُسهّل "جايس 30 بي" التلخيص، الترجمة والأسئلة والأجوبة.
والنماذج اللغوية الكبيرة (LLMs) هي نوعٌ من الذّكاء الاصطناعي التّوليدي الذي يستخدم التعلّم الآلي لفهم النص وإنتاجه. وهي مبنيّةٌ على مليارات المعاملات. للـ LLM تطبيقات محتملة في مجالات الاتصالات، الطاقة، التعليم، الرعاية الصحية، والاتصالات التسويقية.
يهدف النموذج الثنائي اللغة المفتوح المصدر "جايس 30 بي" إلى خدمة أكثر من 400 مليون ناطقٍ باللغة العربية حول العالم، دعماً للمنصات الرقمية الإماراتية وإطاراتها وكأداة للناطقين بالعربية في منطقة الشرق الأوسط وشمال أفريقيا. أظهرت الاختبارات تحسّناَ في الخلاصة بنسبة 53٪ باللغة العربية و85٪ باللغة الإنجليزية. كما أحرز تحسنًا في التنسيق بنسبة 130٪ باللغة العربية و134٪ باللغة الإنجليزية، ما يجعله معادلاً للنماذج الأحادية اللغة بالإنجليزية.
تم تدريب "جايس 30 بي" على مجموعة بيانات تضم 126 مليار رمز باللغة العربية، و251 مليار رمز باللغة الإنجليزية، و50 مليار رمز برمجي، وتم تدريبه على الحواسيب الخارقة للذكاء الصناعي Condor Galaxy 1 من Cerebras.
شركة Core42 الحديثة النشأة، والتي تعد جزءا من مجموعة شركات G42، هي الممكّن الوطني للإمارات في مجالات الحوسبة السحابية والذكاء الصناعي التوليدي. "جايس" هو تعاون بين Core42 وInception (الذي تم دمجه لاحقًا في Core42 كوحدتها للبحث التطبيقي في مجال الذكاء الصناعي)، وجامعة محمد بن زايد للذكاء الصناعي (MBZUAI)، وشركة Cerebras Systems المتخصصة في تصنيع الرقائق ومقرها كاليفورنيا.
في عام 2018، أطلقت الإمارات الاستراتيجية الوطنية للذكاء الصناعي 2031، التي تهدف إلى وضع الدولة في طليعة الذكاء الصناعي عالميًا. وتقدر تقارير من شركة PwC أن الذكاء الصناعي سيساهم بـ 320 مليار دولار في اقتصادات الشرق الأوسط بحلول عام 2030، مع توقع مساهمة الإمارات بنسبة تقارب 14٪ من إجمالي ناتجها المحلي - ما يعادل 96 مليار دولار - تولدها الذكاء الصناعي بحلول عام 2030.
وجاءت هذه الخطوة لتؤكّد التزام كور 42 بتوفير تجربةٍ لغويةٍ غنيّةٍ في الذّكاء الاصطناعي التّوليدي، تتمحور حول الجانب الثّقافي لأكثر من 400 مليون متحدّثٍ باللّغة العربيّة حول العالم.
هذا ويمثّل نموذج جيس ثمرة التّعاون بين إنسبشن، مركز الذّكاء الاصطناعي التابع لمجموعة جي 42؛ وجامعة محمد بن زايد للذكاء الاصطناعي، أوّل مؤسسةٍ بحثيةٍ للدراسات العليا مخصّصةٌ للذّكاء الاصطناعي في العالم؛ و"سيريبراس سيستمز" (Cerebras Systems)، حيث نجح بمجرّد إطلاقه في إرساء معايير جديدةٍ في مشهد النّماذج اللّغوية الكبيرة للّغة العربيّة.
شاهد أيضاً: شراكة تكنولوجية واعدة بين مكتب الذكاء الاصطناعي و"كور 42"
كما تمّ تدريب النّموذج باستخدام كوندور غالاكسي-1، أحد أسرع الحواسيب الفائقة المدعومة بالذّكاء الاصطناعي حول العالم، بقدرةٍ تصل إلى 4 إكسافلوبس (مليون تريليون عمليةٍ حسابيةٍ في الثّانية)، ومعالجٍ يضمّ 54 مليون نواةٍ و64 عقدةٍ، إذ تمّ تطويره بالشراكة بين مجموعة جي 42 وسيريبراس سيستمز.
وانتقل جيس 13 بي من مرحلة المفهوم النّظري ليُصبح النّموذج مفتوح المصدر الأبرز والأكثر دقّةً في أقلّ من أربعة أشهرٍ. ووجب التّنويه إلى أنّ مرحلة تدريب نموذج جيس 13 بي على الإنتاج استغرقت 21 يوماً باستخدام حاسوب كوندور غالاكسي-1 الفائق.
والجدير بالذّكر أنّ التّحسينات على نموذج جيس 30 بي خضعت للاختبارات والتحقّق باستخدام مجموعةٍ من وسائل الاستدلال، والمقارنة بين النّماذج والتّقييمات البشرية، التي أظهرت تفوّق الاستجابات من حيث الوقت للنّسخة المحدثة من النّموذج على تلك التي سجّلها نموذج جيس 13 بي بنسبة 96% للغة العربية و97% للغة الإنجليزية.
مؤكّداً على الالتزام بممارسات الذّكاء الاصطناعي المسؤولة والآمنة، وأضاف فريق المطوّرين تحسيناتٍ أخرى على عمليات النّموذج وسياساته، بهدف حمايته من حالات التّحيّز وإنتاج المحتوى المؤذي والمتّسم بالكراهية، علماً أنّ هذه الوظيفة أصبحت أكثر سهولةً مع الإصدار مفتوح المصدر.
وأبدت مرونة جيس وإمكانياته الفريدة في مجال اللّغة العربية نتائج واعدةً عن طريق مجموعةٍ من التّطبيقات في مختلف القطاعات، بما فيها الاتصالات، والطّاقة، والتّعليم والرّعاية الصّحيّة، وغيرها من الحلول المبتكرة في قطّاع اتصالاتِ التّسويق.
وتعليقاً على هذا الموضوع، قال الدكتور أندرو جاكسون، نائب الرّئيس التّنفيذي والمدير التنفيذي للذّكاء الاصطناعيّ في شركة كور 42:
"يُمثّل إطلاق جيس 30 بي إنجازاً جديداً لشركة كور 42 ونقلةً نوعيةً في أوساط المتحدّثين باللّغة العربية، لا سيّما من حيث قدرتهم على الاستفادة من قدرات الذّكاء الاصطناعي التّوليدي. ويُسلّط الإصدار الجديد الضوء على مدى التّرابط بين الرّيادة التكنولوجية لمجموعة جي 42 ومنظومتنا الواسعة من شركاء، والتزامنا المشترك بالارتقاء بمستوى الإنجاز في مجال الذّكاء الاصطناعي. وأتطلّع لما سيحمله التّعاون الوثيق مع شركائنا وعملائنا من فرصٍ لاستكشاف التّطبيقات الجديدة، ومواصلة تطوير قدرات النّموذج، بينما نكثّف مساعينا لابتكار النّماذج اللّغوية الكبيرة عالية الجودة لمختلف اللّغات".
ومن ناحيته، قال السيد أندرو فيلدمان، الرّئيس التّنفيذيّ والمؤسّس المشارك لشركة سيريبراس سيستمز:
"نجح فريق كور 42 وسيريبراس سيستمز، بعد أقلّ من ثمانية أسابيعٍ من إصدار جيس 13 بي لمجتمع المتحدّثين باللّغة العربية حول العالم، في إطلاق نموذجٍ جديدٍ ومتطورٍ أكبر من سابقه بمقدار الضّعف. ويستند نموذج جيس 30 بي على حاسوب كوندور غالاكسي -1 الفائق ليُسجّل رقماً قياسياً جديداً في الأداء ثنائي اللّغة وإنجازاً مبهراً من حيث الوقت اللّازم للّتدريب".