تكنولوجيا

نموذج أمازون الصوتي Nova Sonic: يجعل الآلات تتحدث كالبشر!

كشفت شركة أمازون عن نموذج Nova Sonic الصوتي الجديد القائم على الذكاء الاصطناعي التوليدي، والذي يهدف إلى تقديم تجربة صوتية مُتطورة تشبه المُحادثات البشرية الطبيعية.

يأتي هذا النموذج كجزء من جهود أمازون لتعزيز قدراتها في مجال الذكاء الاصطناعي، مع التركيز على تحسين أداء المُساعدات الصوتية وتلبية احتياجات المُطورين والمؤسسات.

اقرأ أيضًا:

كيفية استخدام وضع صوت ChatGPT المتقدم من OpenAI

أفضل 5 برامج تعديل الصور بالذكاء الاصطناعي مجانًا

Nova Sonic: أداء تنافسي

أعلنت أمازون أنّ Nova Sonic يُنافس أبرز النماذج الصوتية من شركتيّ OpenAI وجوجل، حيث يتفوق في معايير السرعة، ودقة التعرُّف على الكلام، وجودة التفاعل في المحادثات.

ويُعتبر هذا النموذج ردًا مُباشرًا على التقدُّم الملحوظ في نماذج مثل وضع الصوت في ChatGPT، الذي أصبح أكثر سلاسة مُقارنةً بالإصدارات القديمة من أليكسا وسيري. وبفضل التطورات التكنولوجية الحديثة، باتت المساعدات الصوتية التقليدية تبدو أقل واقعية مُقارنةً بهذا الجيل الجديد من النماذج.

تقنيات مُتطورة وتكلفة مُنخفضة

يتوفر Nova Sonic عبر منصة Amazon Bedrock، التي تتيح للمُطورين بناء تطبيقات ذكاء اصطناعي مُتقدمة باستخدام واجهة برمجة تطبيقات (API) تدعم البث الصوتي الثنائي.

وصفت أمازون النموذج بأنه الأكثر كفاءة من حيث التكلفة في السوق، حيث يُقلل التكاليف بنسبة تصل إلى 80⁒ مُقارنةً بنموذج GPT-4o من OpenAI.

وأكّد روهيت براساد -كبير علماء الذكاء الاصطناعي العام في أمازون- أنّ Nova Sonic يُستخدم حاليًا في تشغيل “Alexa Plus”، وهو الإصدار المُحسن من المساعد الصوتي.

قدرات استثنائية في التعرف على الكلام

يتميز Nova Sonic بقدرته على التعامل مع الحوارات الثنائية بسلاسة، مع مُراعاة فترات الصمت والمُقاطعات، وتوليد نصوص مكتوبة من كلام المُستخدم.

سجل النموذج مُعدّل خطأ مُنخفض يبلغ 4.2⁒ في اختبار “Multilingual LibriSpeech” عبر عدّة لغات، بما في ذلك الإنجليزية والفرنسية والإسبانية.

كما تفوق بنسبة 46.7⁒ على نموذج GPT-4o-transcribe في اختبار الحوارات مُتعددة الأطراف. ويُحقّق سُرعة استجابة مُميزة تبلغ 1.09 ثانية فقط، وفقًا لتقييمات مؤسسة Artificial Analysis.

يندرج Nova Sonic ضمن إستراتيجية أمازون لتطوير الذكاء الاصطناعي العام (AGI)، الذي يهدف إلى تمكين الآلات من أداء المهام البشرية بكفاءة.

وتخطط الشركة لإطلاق نماذج مُستقبلية تدعم وسائط مُتعددة تشمل الصور والفيديو، إلى جانب تطبيقات عملية مثل “Nova Act” لتنفيذ المهام عبر المُتصفح، وNova Reel لتوليد الفيديو، بهدف تعزيز مكانتها في سوق الذكاء الاصطناعي.

?xml>