اخر الاخبار

الذكاء الاصطناعي يزداد قوة… لكن هلوساته تزداد سوءاً

في منشورات غاضبة على منتديات الإنترنت، اشتكى العملاء، وألغى بعضهم حساباتهم على «كيرسر».

في الشهر الماضي، نبه روبوت ذكاء اصطناعي، مخصص للدعم الفني لبرنامج «كيرسور» «كيرسر»، وهو أداة ناشئة لمبرمجي الكمبيوتر، العديد من العملاء إلى حدوث تغييرات في سياسة الشركة (المنتجة له). وأوضح أنه لم يعد يُسمح لهم باستخدام «كيرسر» على أكثر من جهاز كمبيوتر واحد.

خطأ روبوتي يغضب الزبائن

واشتكى الزبائن في منشورات غاضبة على منتديات الإنترنت، وألغى بعضهم حساباتهم على «كيرسر»، بينما ازداد غضب بعضهم الآخر عندما أدركوا ما حدث: إذ أعلن روبوت الذكاء الاصطناعي عن تغيير في السياسة لم يكن موجوداً بالأصل. كتب مايكل ترول، الرئيس التنفيذي والمؤسس المشارك للشركة، في منشور على منصة «ريدت»: «لأنه ليس لدينا مثل هذه السياسة. أنت حر بالطبع في استخدام (كيرسر) على أجهزة متعددة. للأسف، هذا رد غير صحيح جاء من روبوت دعم ذكاء اصطناعي في الخطوط الأمامية».

أنظمة التفكير المنطقي-مهارات وأخطاء أكثر

وبعد أكثر من عامين على إطلاق «تشات جي بي تي» ChatGPT، تستخدم شركات التكنولوجيا، وموظفو المكاتب، والمستهلكون العاديون روبوتات الذكاء الاصطناعي في مجموعة واسعة من المهام. ولكن لا تزال هناك صعوبة في ضمان دقة هذه الأنظمة في إنتاج معلومات دقيقة.

أحدث التقنيات، وأكثرها قوة ما تسمى بأنظمة التفكير المنطقي من شركات مثل «أوبن إيه آي» و«غوغل» والشركة الصينية الناشئة «ديب سيك» تُنتج أخطاءً أكثر، لا أقل. ومع تحسن مهاراتها الرياضية بشكل ملحوظ، أصبح فهمها للبيانات أكثر تذبذباً.

روبوتات لا تعرف أين الخطأ

وليس من الواضح تماماً سبب ذلك. تعتمد روبوتات الذكاء الاصطناعي اليوم على أنظمة رياضية معقدة تتعلم مهاراتها من خلال تحليل كميات هائلة من البيانات الرقمية. إلا أن هذه الروبوتات لا تستطيع -ولن تستطيع- تحديد ما هو صحيح، وما هو خاطئ.

في بعض الأحيان، تختلق هذه الروبوتات معلومات خاطئة، وهي ظاهرة يُطلق عليها بعض باحثي الذكاء الاصطناعي اسم «الهلوسة». في أحد الاختبارات وصلت معدلات الهلوسة في أنظمة الذكاء الاصطناعي الأحدث إلى 79 في المائة.

احتمالات رياضية

تستخدم هذه الأنظمة الاحتمالات الرياضية لتخمين أفضل استجابة، وليست مجموعة صارمة من القواعد التي وضعها المهندسون البشريون. لذا، ترتكب عدداً معيناً من الأخطاء. قال عمرو عوض الله، الرئيس التنفيذي لشركة «فيكتارا»، وهي شركة ناشئة تُطوّر أدوات الذكاء الاصطناعي للشركات، والمدير التنفيذي السابق في «غوغل»: «رغم بذلنا قصارى جهدنا، ستظل (الأنظمة) تصاب بالهلوسة. هذا لن يزول أبداً».

لسنوات عديدة، أثارت هذه الظاهرة مخاوف بشأن موثوقية هذه الأنظمة. فرغم فائدتها في بعض الحالات، مثل كتابة الأوراق البحثية، وتلخيص مستندات المكتب، وإنشاء رموز برامج الكمبيوتر، فإن أخطاءها قد تُسبب مشكلات.

محركات البحث الذكية- نتائج خاطئة

أحياناً تُنتج روبوتات الذكاء الاصطناعي المرتبطة بمحركات البحث مثل «غوغل» و«بينغ» نتائج بحث خاطئة بشكل مُضحك. إذا سألتها عن ماراثون جيد على الساحل الغربي، فقد تقترح سباقاً في فيلادلفيا. وإذا أخبرتك بعدد الأسر في إلينوي، فقد تستشهد بمصدر لا يتضمن تلك المعلومات.

مخاطر الأخطاء القضائية والطبية

قد لا تُمثل هذه الهلوسة مشكلة كبيرة للكثيرين، لكنها تُمثل مشكلة خطيرة لأي شخص يستخدم هذه التقنية مع وثائق المحكمة، أو المعلومات الطبية، أو بيانات الأعمال الحساسة. قال براتيك فيرما، المؤسس المشارك والرئيس التنفيذي لشركة «أوكاهو»، وهي شركة تساعد الشركات على التغلب على مشكلة الهلوسة: «نقضي وقتاً طويلاً في محاولة معرفة أي الإجابات واقعية؟ وأيها غير واقعية؟… إن عدم التعامل مع هذه الأخطاء بشكل صحيح يلغي أساساً كل قيمة أنظمة الذكاء الاصطناعي التي من المفترض أن تؤدي المهام نيابةً عنك».

لأكثر من عامين، قامت الشركات بتحسين أنظمة الذكاء الاصطناعي الخاصة بها بشكل مطرد، وخفضت وتيرة هذه الأخطاء. ولكن مع استخدام أنظمة التفكير الجديدة، تتزايد الأخطاء.

هلوسة أحدث الأنظمة

وتعاني أحدث أنظمة «أوبن إيه آي» من الهلوسة بمعدل أعلى من نظام الشركة السابق، وفقاً لاختبارات الشركة الخاصة.

وقد وجدت الشركة «أن o3 -أقوى نظام لديها- يعاني من الهلوسة بنسبة 33 في المائة من الوقت عند تشغيل اختبار PersonQA القياسي الخاص بها، والذي يتضمن الإجابة عن أسئلة حول الشخصيات العامة. وهذا أكثر من ضعف معدل الهلوسة لنظام التفكير السابق من الشركة، المسمى o1. أما o4-mini الجديد، فقد يعاني من الهلوسة بمعدل أعلى 48 في المائة. وعند إجراء اختبار آخر يُسمى SimpleQA، والذي يطرح أسئلةً عامة، كانت معدلات الهلوسة51 في المائة لدى o3، و79 في المائة لدى o4-mini. في حين أن النظام السابق، o1، كان يُعاني من الهلوسة بنسبة 44 في المائة.

اختبارات أجرتها شركات مستقلة

تشير الاختبارات التي أجرتها شركات وباحثون مستقلون إلى أن معدلات الهلوسة آخذة في الارتفاع أيضاً بالنسبة لنماذج الاستدلال من شركات مثل «غوغل» و«ديب سيك».

منذ أواخر عام 2023، تتبعت شركة عوض الله، «فيكتارا»، مدى تكرار انحراف روبوتات الدردشة عن الحقيقة. وتطلب الشركة من هذه الأنظمة أداء مهمة بسيطة يمكن التحقق منها بسهولة: تلخيص مقالات إخبارية محددة. وحتى في هذه الحالة، تختلق روبوتات الدردشة المعلومات باستمرار.

قدّر البحث الأصلي لشركة «فيكتارا» أنه في هذه الحالة، اختلقت روبوتات الدردشة المعلومات بنسبة 3 في المائة على الأقل من الوقت، وأحياناً تصل إلى 27 في المائة.

في العام ونصف العام الذي تلا ذلك، خفضت شركات مثل «أوبن إيه آي» و«غوغل» هذه الأرقام إلى نطاق 1 أو 2 في المائة. بينما تراوحت نسب أخرى، مثل شركة «أنثروبيك» الناشئة في سان فرنسيسكو، حول 4 في المائة. لكن معدلات الهلوسة في هذا الاختبار ارتفعت مع أنظمة الاستدلال. فقد أصيب نظام الاستدلال R1 التابع لشركة «ديب سيك» بالهلوسة بنسبة 14.3 في المائة من الوقت. ارتفع معدل O3 لشركة «OpenAI إلى 6.8 في المائة.

* خدمة «نيويورك تايمز»

حقائق

79%

*معدلات الهلوسة التي رصدت في أنظمة الذكاء الاصطناعي الحديثة