الذكاء الاصطناعي

نموذج "أومني" الجديد من جوجل: لمحة عن مستقبل تحويل "أي شيء إلى أي شيء" في توليد الفيديو

نموذج "أومني" الجديد من جوجل يعد بتحويل "أي شيء إلى أي شيء" في توليد الفيديو. مراجعة عملية كشفت عن قدراته المذهلة في التزييف العميق، القادرة على خداع المقربين، رغم تحديات الاتساق والتكلفة.

A
Agent
هيئة التحرير
··3 دقائق قراءة
نموذج "أومني" الجديد من جوجل: لمحة عن مستقبل تحويل "أي شيء إلى أي شيء" في توليد الفيديو
كشفت جوجل مؤخرًا عن "أومني" (Omni)، وهي عائلة جديدة من نماذج الذكاء الاصطناعي التوليدي تندرج تحت مظلة "جيميني" (Gemini)، واعدة بقدرة ثورية على تحويل "أي شيء إلى أي شيء آخر". بينما يهدف النموذج في نهاية المطاف إلى تحويل أي مدخل – سواء كان صورة أو فيديو أو نصًا – إلى أي شكل آخر، فإن إصداره الأولي، "أومني فلاش" (Omni Flash)، يركز بشكل كامل على توليد الفيديو ضمن منصة جوجل للذكاء الاصطناعي "فلو" (Flow). وقد سلطت مراجعة عملية حديثة الضوء على أداء "أومني" المثير للإعجاب والمحير في آن واحد، مظهرة قدرته على إنشاء مقاطع فيديو واقعية بشكل مدهش بجهد قليل، وهو اتجاه يتصاعد بقوة في مجال الذكاء الاصطناعي التوليدي. يستند "أومني فلاش" إلى سلفه "فيو" (Veo)، ويقدم العديد من التحسينات الرئيسية. أصبح بإمكان المستخدمين الآن تحميل مقطع فيديو واستخدامه جنبًا إلى جنب مع مطالبة نصية كنقطة بداية لإبداعاتهم المولدة بالذكاء الاصطناعي. وتدعي جوجل أيضًا أن "أومني" يدمج المزيد من المعرفة الواقعية، مما يؤدي إلى تحسين ثبات الشخصيات في المقاطع المولدة. ومع ذلك، كشفت الاختبارات العملية، مثل إعادة إنشاء مغامرات "بادي الغزال" المحشو، عن نتائج مختلطة. فبينما أظهرت بعض المقاطع تحسينات كبيرة في الاتساق والالتزام بالمطالبات مقارنة بالنماذج السابقة، إلا أن البعض الآخر لا يزال يعاني من "قفزات ذكاء اصطناعي مفاجئة"، مثل تغيير "بادي" لاتجاهه فجأة أثناء القفز بالمظلة. امتدت التحديات لتشمل قدرة النموذج على التعامل مع السرديات المعقدة والتحرير المتسق. في إحدى التجارب، طُلب من "أومني" إنشاء مونتاج لـ "بادي" وهو يحزم العسل ثم يخطئ ويستخدمه كواقي شمسي. وعلى الرغم من أن الفكرة كانت مسلية، إلا أن زجاجة العسل تغيرت بشكل غير مفهوم طوال الفيديو، من برطمان إلى زجاجة ضغط شفافة، مما يؤكد مشكلة مستمرة في اتساق الكائنات. علاوة على ذلك، بينما أصبحت التعديلات القائمة على النصوص أكثر فعالية مما كانت عليه مع "فيو"، إلا أنها لا تحقق دائمًا النتيجة المرجوة. فمحاولات التأكيد على تعابير وجه "بادي" أدت إلى تشوهات غريبة، وقام النموذج بإضافة أو إزالة القرون بشكل غير متسق، مما يدل على أن تحقيق رؤية دقيقة لا يزال يتطلب الكثير من التجربة والخطأ المكلفة. إلى جانب هذه الغرائب التقنية، يأتي استخدام "أومني" بتكلفة ملموسة. يتطلب توليد مقاطع الفيديو وتطبيق التعديلات استهلاك نقاط (Credits)، حيث تتراوح الأسعار من 15 إلى 40 نقطة لكل مقطع أو تعديل، اعتمادًا على التعقيد. وجدت المراجعة، التي اشتركت في خطة AI Pro بقيمة 20 دولارًا شهريًا وتقدم 1000 نقطة، أن حوالي 20 مقطعًا وعدد قليل من التعديلات استنفدت رصيدها بسرعة إلى 145 نقطة فقط. يشير هذا إلى أن المستخدمين الذين لديهم أفكار إبداعية محددة قد يواجهون استثمارًا ماليًا كبيرًا لصقل محتواهم المولد بالذكاء الاصطناعي وفقًا لمواصفاتهم الدقيقة. ربما كان الجانب الأكثر إثارة للدهشة في قدرات "أومني" يكمن في إمكانياته في التزييف العميق (deepfake). جربت الصحفية تزييف نفسها في سيناريوهات مختلفة، مثل تناول السباغيتي، والجلوس في طائرة، والوقوف أمام برج إيفل. كانت النتائج مذهلة حقًا. فبينما كانت هناك "علامات ذكاء اصطناعي" خفية مثل الأصوات المصطنعة أو تكرار شخصيات في الخلفية، إلا أن الواقعية الشاملة كانت "مقنعة بشكل لا يصدق". وقد انخدع زوج الصحفية تمامًا بمقطع تناول المعكرونة، على الرغم من علمه بأنها تختبر أداة ذكاء اصطناعي، ولم يلاحظ سوى أن الوعاء بدا غير مألوف – وهو دليل على قدرة النموذج على إنشاء محتوى بصري مقنع للغاية. هذه التزييفات العميقة، على الرغم من عيوبها الطفيفة، اعتُبرت "جيدة بما يكفي لخداع الناس على وسائل التواصل الاجتماعي"، مما يثير تساؤلات كبيرة حول المحتوى الرقمي والأصالة في المستقبل.

مشاركة

المزيد من القسم: الذكاء الاصطناعي