تكنولوجيا

دراسة حديثة تكشف أن نماذج الذكاء الاصطناعي تواجه صعوبة في فهم المستندات الطويلة

كشفت دراسة حديثة أجراها باحثون من جامعة لودفيغ ماكسيميليان في ميونخ (LMU Munich)، ومركز ميونخ للتعلم الآلي (Munich Center for Machine Learning)، وأدوبي للأبحاث (Adobe Research)، عن ضعف غير مُتوقع في نماذج الذكاء الاصطناعي اللغوية؛ إذ تواجه هذه النماذج صعوبة في استيعاب المستندات الطويلة بنحو كامل، خاصة عند غياب التطابق الحرفي بين الكلمات.

تفاصيل الدراسة:

عند قراءة ورقة بحثية طويلة، يعتمد الإنسان غالبًا على ربط الأفكار بين الأقسام المختلفة لاستيعاب المحتوى. وأما النماذج اللغوية فلا تعمل بهذه الطريقة، بل تعتمد بنحو أساسي على مطابقة الكلمات حرفيًا.

تعتمد النماذج الحالية على آلية تُعرف باسم ” آلية الانتباه” (Attention Mechanism) لمتابعة وفهم العلاقات بين الكلمات. وتعمل هذه الآلية جيدًا مع النصوص القصيرة، لكنها تفقد كفاءتها عند التعامل مع النصوص الطويلة، خصوصًا عندما لا تجد تطابقًا حرفيًا بين الكلمات.

ولتقييم هذه المشكلة، طوّر الباحثون معيارًا جديدًا أطلقوا عليه اسم NOLIMA (No Literal Matching) لاختبار قدرة النماذج على الفهم دون الاعتماد على التطابق الحرفي للكلمات. 

أظهرت النتائج أن الأداء ينخفض كثيرًا مع زيادة طول النصوص، فعندما يتجاوز طول النص 2000 كلمة، تبدأ كفاءة النموذج بالتراجع، وعند الوصول إلى 32,000 كلمة – ما يعادل حجم كتاب قصير – يتراجع الأداء إلى النصف تقريبًا.

شملت الاختبارات نماذج بارزة مثل: GPT-4o و Gemini 1.5 Pro و Llama 3 70B، وتمكن نموذج GPT-4o من الحفاظ على أدائه الجيد حتى 8000 رمز (ما يقارب 6000 كلمة) لكن كفاءته بدأت تقل بعد هذا الحد. وأما نماذج Gemini 1.5 Pro وLlama 3 70B فقد انخفض أداؤها بعد 2000 رمز فقط.

إلى ماذا تشير النتائج؟

أظهر اختبار NOLIMA أن النماذج اللغوية تواجه صعوبة في:

  • ربط المفاهيم المختلفة عند استخدام مصطلحات متنوعة.
  • تنفيذ سلاسل التفكير المتعددة الخطوات بنحو صحيح.
  • تجاهل التشابهات المضللة الناتجة عن كلمات متطابقة لكنها غير مرتبطة بالسياق.

وتشير هذه النتائج إلى أن الإعلانات التسويقية التي تتحدث عن قدرة النماذج في التعامل مع النصوص الطويلة قد تكون مضللة؛ إذ يتراجع الأداء الفعلي للنموذج قبل بلوغ الحدود النظرية التي تعلنها الشركات.

كما تعكس هذه النتائج تحديات عملية خطيرة؛ إذ يمكن أن يؤدي هذا الضعف في فهم المستندات الطويلة إلى مشكلات كبيرة في التطبيقات الحساسة مثل تحليل السجلات الطبية أو مراجعة المستندات القانونية، فقد تفشل نماذج الذكاء الاصطناعي في العثور على سوابق قانونية مهمة إذا كانت مكتوبة بصيغة مختلفة عن الاستعلام، حتى وإن كانت مرتبطة جوهريًا بالقضية.

وللتغلب على هذه المشكلة، ينصح الباحثون المستخدمين باتباع النصائح التالية:

  1. تقسيم المستندات الطويلة إلى أجزاء صغيرة.
  2. كتابة مطالبات واضحة عند الاستفسار عن محتوى معين.
  3. مراجعة المحتوى الذي يقدمه النموذج لضمان الدقة، خاصةً في المهام الحساسة.

الخلاصة

تُسلط الدراسة الضوء على الحاجة إلى إعادة التفكير في آلية تحليل النصوص التي تعتمد عليها نماذج الذكاء الاصطناعي حاليًا، والتي تركز بنحو أساسي على تطابق الكلمات حرفيًا، وكلما زاد طول النص، أصبح من الصعب على النموذج تتبع الأفكار التي يناقشها النص وربطها ببعضها، تمامًا كما يجد الإنسان صعوبة في تذكر النقاط الرئيسية عند إجراء محادثة طويلة.

وتؤكد الدراسة أهمية التعامل بحذر مع هذه النماذج في المهام التي تتطلب تحليلًا عميقًا للمستندات المعقدة، وتدعو إلى استمرار الرقابة البشرية لضمان الدقة والموثوقية.

ومع أن شركات التكنولوجيا تعمل على تحسين آليات الفهم لدى نماذج الذكاء الاصطناعي باستمرار، فإن الإنسان سيظل الأفضل في استيعاب المعاني وربط الأفكار عند التعامل مع النصوص الطويلة.