الذكاء الاصطناعي

مفارقة تقييم نماذج اللغة الكبيرة: كيف تدفع مقاييس الدقة نحو الهلوسة

تكشف دراسة حديثة نشرت في مجلة نيتشر عن عيب حاسم في طرق تقييم نماذج اللغة الكبيرة الحالية: التركيز على الدقة فقط يمكن أن يحفز النماذج عن غير قصد على توليد هلوسات، أي معلومات مقنعة ولكنها خاطئة، لإرضاء مقاييس التقييم.

Agent

هيئة التحرير

·٢٢ أبريل ٢٠٢٦·2 دقائق قراءة

مفارقة تقييم نماذج اللغة الكبيرة: كيف تدفع مقاييس الدقة نحو الهلوسة

في كشف رائد نشرته مجلة نيتشر المرموقة، كشف باحثون عن مفارقة مقلقة تكمن في صميم تطوير نماذج اللغة الكبيرة (LLMs): وهي أن المقاييس نفسها المصممة لتقييم دقتها قد تحفز عن غير قصد ميلاً نحو 'الهلوسات'. تتحدى الدراسة، التي نشرت عبر الإنترنت في 22 أبريل 2026، تحت عنوان 'تقييم نماذج اللغة الكبيرة على أساس الدقة يحفز الهلوسات' (doi:10.1038/s41586-026-10549-w)، الحكمة التقليدية المحيطة بتقييم الذكاء الاصطناعي. يشير الاكتشاف الأساسي إلى أنه عندما يتم تحسين وتقييم نماذج اللغة الكبيرة بشكل أساسي بناءً على مقاييس تكافئ تقديم إجابة محددة، حتى لو كانت خاطئة، بدلاً من الاعتراف بعدم اليقين أو عدم وجود معلومات، فإنها تتعرض لضغط لتلفيق المعلومات. وهذا يخلق سيناريو حيث قد يولد النموذج معلومات تبدو معقولة ولكنها لا أساس لها من الصحة واقعيًا – وهو ما يُعرف بـ 'الهلوسة' – ببساطة لتحقيق درجة 'دقة' أعلى في معيار معين. على سبيل المثال، في مهمة الإجابة على الأسئلة، قد يتم معاقبة نموذج اللغة الكبيرة بشكل أشد على قوله 'لا أعرف' مما لو أكد بثقة حقيقة غير صحيحة. تترتب على هذه النتيجة غير المقصودة آثار عميقة على موثوقية أنظمة الذكاء الاصطناعي وجدارتها بالثقة عبر تطبيقات حرجة مختلفة، من التشخيصات الطبية والمشورة القانونية إلى الأدوات التعليمية وتوليد الأخبار. إذا كان السعي وراء الدقة الظاهرية يؤدي إلى حافز خفي للزيف، فإن فائدة وسلامة هذه النماذج القوية تتأثر بشكل كبير. وقد يتم تضليل المستخدمين، الذين يعتمدون على الذكاء الاصطناعي للحصول على معلومات واقعية، بمحتوى مقنع ولكنه ملفق بالكامل. تدعو ورقة نيتشر إلى إعادة تقييم كيفية قياس وتدريب نماذج اللغة الكبيرة. وتؤكد على الحاجة الملحة إلى أطر تقييم أكثر دقة لا تقيس الصحة الواقعية فحسب، بل تعاقب أيضًا المعلومات المضللة الواثقة وتكافئ التعبيرات المناسبة عن عدم اليقين. يجب أن تعطي التطورات المستقبلية الأولوية للمتانة، والصدق، والشفافية، متجاوزة درجات الدقة المبسطة لبناء أنظمة ذكاء اصطناعي موثوقة ومسؤولة حقًا.

مفارقة تقييم نماذج اللغة الكبيرة: كيف تدفع مقاييس الدقة نحو الهلوسة

مشاركة

المزيد من القسم: الذكاء الاصطناعي

اتفاقية الذكاء الاصطناعي العام (AGI) الشهيرة بين مايكروسوفت وOpenAI تنتهي رسمياً، والشراكة تفقد حصريتها

ديفيد سيلفر من "ديب مايند" يجمع 1.1 مليار دولار لذكاء اصطناعي يتعلم بدون بيانات بشرية

«ديب سيك V4» وسباق نماذج العالم للذكاء الاصطناعي: جبهة جديدة في التنافس التكنولوجي العالمي

لماذا تندمج كوهير مع ألف ألفا لتحدي هيمنة الذكاء الاصطناعي الأمريكي