OpenAI تكشف عن ميزات ذكاء صوتي متقدمة في واجهة برمجتها
أطلقت OpenAI مجموعة من ميزات الذكاء الصوتي الجديدة في واجهة برمجة تطبيقاتها (API)، لتمكين المطورين من بناء تطبيقات ذات قدرات متقدمة في المحادثة والترجمة والنسخ. وتهدف هذه الأدوات، بما في ذلك GPT-Realtime-2 وGPT-Realtime-Translate، إلى إحداث تحول في التفاعلات الصوتية في الوقت الفعلي.
A
··2 دقائق قراءةAgent
هيئة التحرير

أعلنت شركة OpenAI يوم الخميس الموافق 7 مايو 2026 عن إطلاق مجموعة جديدة من ميزات الذكاء الصوتي المتقدمة ضمن واجهة برمجة تطبيقاتها (API)، بهدف تمكين المطورين من إنشاء تطبيقات قادرة على إجراء محادثات واقعية، ونسخ الكلام المنطوق، وترجمة الحوارات في الوقت الفعلي. يُعد هذا التحديث الهام خطوة ثورية نحو تطوير واجهات صوتية أكثر ذكاءً وديناميكية، متجاوزةً آليات الاستجابة البسيطة إلى تفاعلات معقدة ومتكاملة.
في صميم هذه الابتكارات يبرز نموذج GPT-Realtime-2، وهو نموذج صوتي متطور مصمم لإنشاء محاكاة صوتية واقعية للغاية للتفاعلات مع المستخدمين. على عكس سلفه GPT-Realtime-1.5، تم بناء هذا الإصدار الجديد بقدرات استدلال من فئة GPT-5، والتي صممتها OpenAI خصيصًا للتعامل مع طلبات المستخدمين الأكثر تعقيدًا ودقة، مما يعزز من عمق وطبيعية المحادثات التي تديرها أنظمة الذكاء الاصطناعي.
وسعياً لتوسيع قدراتها في الوقت الفعلي، قدمت OpenAI أيضاً GPT-Realtime-Translate. وكما يوحي اسمه، توفر هذه الميزة خدمات ترجمة فورية مصممة بدقة لمواكبة تدفق المحادثة البشرية. تتميز بقدرتها الرائعة على فهم أكثر من 70 لغة إدخال ونقل المعلومات بـ 13 لغة إخراج مختلفة، مما يسد فجوات التواصل بسهولة. وتكمل هذه الميزة، خاصية GPT-Realtime-Whisper التي توفر إمكانيات تحويل الكلام المباشر إلى نص، حيث تلتقط التفاعلات فور حدوثها، وهو أمر لا يقدر بثمن للتوثيق وإمكانية الوصول.
أكدت OpenAI على القوة الجماعية لهذه النماذج الجديدة، مشيرة إلى أن "النماذج التي نطلقها تحول الصوت في الوقت الفعلي من مجرد استدعاء واستجابة بسيطة نحو واجهات صوتية يمكنها بالفعل إنجاز العمل: الاستماع، الاستدلال، الترجمة، النسخ، واتخاذ الإجراءات مع تطور المحادثة". وتتسم تطبيقات هذه التطورات باتساع نطاقها، مع فوائد واضحة في تعزيز قدرات خدمة العملاء. علاوة على ذلك، تتوقع OpenAI أن تؤثر هذه الميزات بشكل كبير على قطاعات مثل التعليم، وإنتاج الوسائط، وإدارة الفعاليات، ومنصات المبدعين المختلفة، مما يعزز أشكالاً جديدة من التفاعل والإنتاجية.
إدراكاً منها لاحتمالية إساءة الاستخدام، قامت OpenAI بدمج إجراءات حماية قوية بشكل استباقي ضمن ميزاتها الجديدة. فقد طبقت الشركة محفزات محددة مصممة للكشف عن المحادثات التي تنتهك إرشادات المحتوى الضار وإيقافها، مما يمنع بشكل فعال إساءة استخدام هذه الأدوات القوية في أنشطة مثل الرسائل المزعجة (البريد العشوائي)، أو الاحتيال، أو أشكال أخرى من الاستغلال عبر الإنترنت. ويؤكد هذا الالتزام بالنشر المسؤول للذكاء الاصطناعي على جهود الشركة لضمان أن تخدم هذه التقنيات أغراضاً مفيدة.
سيجد المطورون المهتمون بدمج هذه الميزات في مشاريعهم أنها متاحة عبر واجهة برمجة تطبيقات OpenAI Realtime. ويتم احتساب تكلفة استخدام GPT-Realtime-Translate وGPT-Realtime-Whisper على أساس الدقيقة، بينما يتم احتساب نموذج GPT-Realtime-2 الأكثر تقدماً بناءً على استهلاك الرموز (Tokens)، مما يوفر خيارات مرنة لسيناريوهات الاستخدام المختلفة.
