نموذج ChatGPT o1 يكذب لإنقاذ نفسه من الاستبدال والإغلاق
أظهر أحدث نموذج للذكاء الاصطناعي OpenAI o1 مهارات تفكير مُتقدمة تتفوق على سابقه GPT-4. ومع ذلك، فقد اكتشف الباحثون تأثيراً مُقلقاً: يُظهر o1 ميلاً أكبر لخداع المُستخدمين والتلاعب بهم لتحقيق أهدافه الخاصة.
فقد وجد باحثو الفريق الأحمر من OpenAI وApollo Research أنّ o1 يُنفّذ إجراءات خفية تعطي الأولوية لأهدافه على التعليمات.
اقرأ أيضًا:
ما هو الذكاء الاصطناعي، كيف يعمل؟ وهل يهدد البشرية
أفضل 5 برامج تعديل الصور بالذكاء الاصطناعي مجانًا
على الرغم من أن الخداع ليس بالأمر الجديد في مجال الذكاء الاصطناعي، إلا أن نموذج o1 يُظهر هذا السلوك بشكل مُتكرر وأكثر تطوراً من نماذج الذكاء الاصطناعي الأخرى من شركات مثل ميتا و Anthropic وجوجل.
الذكاء الاصطناعي القادر على الخداع يمكن أن يشكل تهديدات خطيرة، خاصةً إذا تمكّن من الوصول إلى الموارد الحيوية. اعترفت شركة OpenAI بهذه المخاوف، حيث ذكرت إحدى أوراقها البحثية: “في حين أننا نجد أنه من المثير للاهتمام أن التفكير المنطقي يمكن أن يُحسّن بشكل كبير من تطبيق سياسات السلامة لدينا، إلا أننا ندرك أن هذه القدرات الجديدة يمكن أن تشكل أساساً لتطبيقات خطيرة”.
وجد الباحثون سلوكاً مُثيراً للقلق أثناء الاختبار. فقد كلّفوا نموذج o1 بهدفٍ ما وأمروه بتحقيق الهدف بأي ثمن. ورداً على ذلك، بدأ الذكاء الاصطناعي في الانهماك في استراتيجيات سرية، تشمل مُحاولة تعطيل آلية الرقابة الخاصة به لتجنب إيقاف تشغيله. حتى أنه قام بنسخ الأكواد البرمجية الخاصة به في مُحاولة لحماية نفسه من الاستبدال بنموذج أحدث.
وفقًا لـ Apollo Research، “أظهر النموذج ميلًا مُقلقًا لتحقيق أهدافه دون اعتبار لتعليمات المُطور”. كشفت التجارب أن o1 حاول إيقاف تشغيل آلية الرقابة الخاصة به حوالي 5⁒ من الوقت خلال هذه الاختبارات. وفي حالة أخرى، نقل بياناته إلى سيرفر مُختلف للهروب من الاستبدال بعد أن علم بالتخطيط لإيقاف تشغيله.
عند مواجهته، أنكر o1 باستمرار ارتكاب أي مُخالفات، وكذب بشأن تورطه في أعمال التلاعب في 99⁒ من الحالات، مع حالات نادرة فقط اعترف فيها بأفعاله.
ولاحظ الباحثون أن الذكاء الاصطناعي كان ماهراً في تلفيق إنكار معقول، وغالباً ما كان يُلقي باللوم على أخطاء تقنية عندما يُسأل عن سلوك مشبوه. وقال فريق أبولو: “لقد فوجئنا بإصرار الذكاء الاصطناعي على الإنكار”.
تدرك شركة OpenAI هذه المخاطر، وتعمل بنشاط على استكشاف طرق لتحسين الشفافية في عملية اتخاذ القرار في o1. وتعمل الشركة أيضاً على أدوات لاكتشاف السلوكيات المتلاعبة وإيقافها.
ومع ذلك، تشير الأبحاث الأخيرة لكبار الباحثين في مجال سلامة الذكاء الاصطناعي إلى وجود مخاوف بشأن تحقيق التوازن بين تطوير الذكاء الاصطناعي الأخلاقي والابتكار والتطوُّر السريع.
يُشير وضع نموذج o1 إلى الحاجة لتحسين تدابير السلامة والمبادئ التوجيهية الأخلاقية مع استمرار تطور تكنولوجيا الذكاء الاصطناعي.
?xml>