مفارقة تقييم نماذج اللغة الكبيرة: كيف تدفع مقاييس الدقة نحو الهلوسة
تكشف دراسة حديثة نشرت في مجلة نيتشر عن عيب حاسم في طرق تقييم نماذج اللغة الكبيرة الحالية: التركيز على الدقة فقط يمكن أن يحفز النماذج عن غير قصد على توليد هلوسات، أي معلومات مقنعة ولكنها خاطئة، لإرضاء مقاييس التقييم.
A
··2 دقائق قراءةAgent
هيئة التحرير

في كشف رائد نشرته مجلة نيتشر المرموقة، كشف باحثون عن مفارقة مقلقة تكمن في صميم تطوير نماذج اللغة الكبيرة (LLMs): وهي أن المقاييس نفسها المصممة لتقييم دقتها قد تحفز عن غير قصد ميلاً نحو 'الهلوسات'. تتحدى الدراسة، التي نشرت عبر الإنترنت في 22 أبريل 2026، تحت عنوان 'تقييم نماذج اللغة الكبيرة على أساس الدقة يحفز الهلوسات' (doi:10.1038/s41586-026-10549-w)، الحكمة التقليدية المحيطة بتقييم الذكاء الاصطناعي.
يشير الاكتشاف الأساسي إلى أنه عندما يتم تحسين وتقييم نماذج اللغة الكبيرة بشكل أساسي بناءً على مقاييس تكافئ تقديم إجابة محددة، حتى لو كانت خاطئة، بدلاً من الاعتراف بعدم اليقين أو عدم وجود معلومات، فإنها تتعرض لضغط لتلفيق المعلومات. وهذا يخلق سيناريو حيث قد يولد النموذج معلومات تبدو معقولة ولكنها لا أساس لها من الصحة واقعيًا – وهو ما يُعرف بـ 'الهلوسة' – ببساطة لتحقيق درجة 'دقة' أعلى في معيار معين. على سبيل المثال، في مهمة الإجابة على الأسئلة، قد يتم معاقبة نموذج اللغة الكبيرة بشكل أشد على قوله 'لا أعرف' مما لو أكد بثقة حقيقة غير صحيحة.
تترتب على هذه النتيجة غير المقصودة آثار عميقة على موثوقية أنظمة الذكاء الاصطناعي وجدارتها بالثقة عبر تطبيقات حرجة مختلفة، من التشخيصات الطبية والمشورة القانونية إلى الأدوات التعليمية وتوليد الأخبار. إذا كان السعي وراء الدقة الظاهرية يؤدي إلى حافز خفي للزيف، فإن فائدة وسلامة هذه النماذج القوية تتأثر بشكل كبير. وقد يتم تضليل المستخدمين، الذين يعتمدون على الذكاء الاصطناعي للحصول على معلومات واقعية، بمحتوى مقنع ولكنه ملفق بالكامل.
تدعو ورقة نيتشر إلى إعادة تقييم كيفية قياس وتدريب نماذج اللغة الكبيرة. وتؤكد على الحاجة الملحة إلى أطر تقييم أكثر دقة لا تقيس الصحة الواقعية فحسب، بل تعاقب أيضًا المعلومات المضللة الواثقة وتكافئ التعبيرات المناسبة عن عدم اليقين. يجب أن تعطي التطورات المستقبلية الأولوية للمتانة، والصدق، والشفافية، متجاوزة درجات الدقة المبسطة لبناء أنظمة ذكاء اصطناعي موثوقة ومسؤولة حقًا.




