تكنولوجيا

DeepSeek R1 : نموذج الذكاء الاصطناعي الصيني منافس OpenAI

أعلنت شركة الذكاء الاصطناعي الصينية الناشئة “DeepSeek” عن إطلاق نموذج الذكاء الاصطناعي DeepSeek R1 الجديد، الذي يعتبر خطوة هامة نحو تحدي الشركات الرائدة في هذا المجال، مثل OpenAI، من خلال تقنيات المصادر المفتوحة.

النموذج الجديد يعتمد على نموذج “DeepSeek V3” الذي تم تقديمه مؤخرًا، والذي يستخدم تقنية الـ “Mixture-of-Experts” التي تمكّن النموذج من تحقيق أداء عالٍ في مجالات مثل الرياضيات والبرمجة والمهام المنطقية.

ما يميز “DeepSeek-R1” هو قدرته على مُنافسة نموذج OpenAI o1، الذي يُعتبر من النماذج الرائدة في مجال التفكير المنطقي والذكاء الاصطناعي العام (AGI). يتميز هذا النموذج الجديد بأنه يقدم نفس الأداء تقريباً، ولكن بتكلفة أقل بكثير تصل إلى 90-95⁒ أقل من تكلفة o1.

تُعتبر هذه الخطوة نقلة كبيرة في عالم الذكاء الاصطناعي المفتوح المصدر، حيث أظهرت أنه يمكن للنماذج المفتوحة أن تقترب من أداء النماذج التجارية المُغلقة في السباق نحو تحقيق الذكاء الاصطناعي العام.

لتثبت تفوقها، استخدمت DeepSeek النموذج R1 لفلترة 6 نماذج من Llama و Qwen، ممّا حسّن أدائها بشكل ملحوظ. وفي إحدى الحالات، تفوق النموذج المُستخلص من Qwen-1.5B على نماذج أكبر مثل GPT-4o و Claude 3.5 Sonnet في بعض اختبارات الرياضيات.

قدرات DeepSeek R1

ركز DeepSeek R1 على تعزيز الذكاء الاصطناعي العام (AGI)، الذي يهدف إلى إنشاء ذكاء قادر على أداء المهام الفكرية مثل البشر. تعمل الفرق البحثية حاليًا على تحسين قدرات النماذج في التفكير المنطقي، وكان نموذج “o1” أول من أحدث فرقًا في هذا المجال باستخدام آلية التفكير المتسلسل (Chain-of-thought reasoning) لحل المشكلات.

يتبع نموذج R1 النهج ذاته، ولكنه يعتمد أيضاً على التعلُّم المُعزّز (RL) والتدريب الموجّه لتطوير قدراته في التفكير المنطقي وحل المهام المُعقدّة. أظهرت الاختبارات أنه قد حقق نتائج مُذهلة في اختبارات الرياضيات والبرمجة.

وقد سجّل 79.8⁒ في اختبار AIME 2024 و97.3⁒ في اختبار MATH-500، كما حصل على تقييم 2029 في منصة Codeforces، والذي يجعله أفضل من 96.3⁒ من المُبرمجين البشر. وبالمُقارنة، حصل نموذج “o1-1217” على نتائج 79.2⁒ و96.4⁒ و96.6⁒ على التوالي في هذه الاختبارات.

بالإضافة إلى ذلك، أظهر R1 قدرات قوية في المعرفة العامة، حيث حقق دقة بنسبة 90.8⁒ في اختبار “MMLU”، ليأتي بفارق بسيط عن نموذج “o1” الذي حصل على 91.8⁒.

عملية التدريب

طُور نموذج DeepSeek R1 كنُسخة مُحسنة من “DeepSeek-R1-Zero”، وهو نموذج تم تدريبه بالكامل باستخدام التعلم المعزز. في البداية، اعتمدت الشركة على نموذج “DeepSeek-V3-base” كقاعدة أساسية، وركزت على تطوير قدراته في التفكير، مُعتمدةً فقط على آلية المحاولة والخطأ الذاتية التي يوفرها التعلم المُعزز.

أثناء التدريب، ظهرت العديد من السلوكيات المُثيرة للاهتمام والقوية في التفكير لدى نموذج “DeepSeek-R1-Zero”. بعد آلاف الخطوات من التعلم المعزز، أظهر النموذج أداءً ممتازًا في اختبارات التفكير المنطقي.

على سبيل المثال، ارتفعت نتيجة “pass@1” في اختبار AIME 2024 من 15.6⁒ إلى 71.0⁒، ومع استخدام التصويت بالأغلبية، تحسنت النتيجة إلى 86.7⁒، وهو ما يُعادل أداء “OpenAI-o1-0912”.

ومع ذلك -على الرغم من الأداء المُحسّن، ظهرت بعض المشاكل في النموذج الأوّلي، مثل ضعف قابلية القراءة ومزج اللغات. للتغلب على هذه المشاكل، صممّت الشركة DeepSeek R1 باستخدام نظام مُتعدد المراحل يجمع بين التعلُّم الموجّه والتعلم المُعزّز.

DeepSeek R1 أرخص بكثير من o1

بالإضافة إلى الأداء المُحسّن الذي يقترب من نموذج OpenAI o1 عبر الاختبارات المُختلفة، يتميز نموذج R1 بتكلفة مُنخفضة للغاية. فعلى سبيل المثال، بينما يُكلف o1 ما يقارب 15 دولارًا لكل مليون رمز إدخال و60 دولارًا لكل مليون رمز إخراج، فإن نموذج R1، يُكلف فقط 0.55 دولارًا لكل مليون رمز إدخال و2.19 دولارًا لكل مليون رمز إخراج.

يمكن للمُستخدمين المهتمين اختبار النموذج تحت اسم “DeepThink” على منصة “DeepSeek Chat”، وهي مُشابهة لـ ChatGPT.

بالإضافة إلى ذلك، يمكن الوصول إلى أوزان النموذج ومُستودع الأكواد عبر Hugging Face تحت ترخيص MIT، أو استخدام واجهة برمجة التطبيقات (API) للتكامل المُباشر مع التطبيقات الأخرى.

?xml>