متابعة – أمل علوي
أ ورقة بحثية جديدة من Openai يسأل لماذا لا تزال نماذج اللغة الكبيرة مثل GPT-5 و chatbots مثل ChatGPT هلوسة ، وما إذا كان يمكن القيام بأي شيء لتقليل تلك الهلوسة.
في منشور مدونة يلخص الورقة، يعرّف Openai الهلوسة بأنها “بيانات معقولة ولكنها خاطئة تم إنشاؤها بواسطة نماذج اللغة” ، وهي تقر بأنه على الرغم من التحسينات ، “تظل الهلوسة” تحديًا أساسيًا لجميع نماذج اللغة الكبيرة ” – لا يتم القضاء عليها تمامًا.
لتوضيح هذه النقطة ، يقول الباحثون إنه عندما سألوا “chatbot المستخدم على نطاق واسع” حول عنوان دكتوراه آدم تاومان كالاي. أطروحة ، حصلوا على ثلاث إجابات مختلفة ، كلهم مخطئون. (Kalai هو أحد مؤلفي الورقة.) ثم سألوا عن عيد ميلاده وتلقى ثلاثة تواريخ مختلفة. مرة أخرى ، كلهم كانوا مخطئين.
كيف يمكن أن يكون chatbot خاطئًا جدًا – ويبدو واثقًا جدًا في خطأه؟ يقترح الباحثون أن الهلوسة تنشأ ، جزئياً ، بسبب عملية تدريبية تركز على الحصول على نماذج للتنبؤ بشكل صحيح بالكلمة التالية ، دون ملصقات حقيقية أو خاطئة مرتبطة ببيانات التدريب: “لا يرى النموذج سوى أمثلة إيجابية للغة بطلاقة ويجب أن تقارب التوزيع الكلي”.
“الإملاء والأقواس يتبعون أنماطًا متسقة ، لذلك تختفي الأخطاء هناك” ، يكتبون. “لكن الحقائق التعسفية منخفضة التردد ، مثل عيد ميلاد الحيوانات الأليفة ، لا يمكن التنبؤ بها من الأنماط وحدها وبالتالي تؤدي إلى الهلوسة.”
ومع ذلك ، فإن الحل المقترح للورقة يركز بشكل أقل على عملية التدريب الأولي والمزيد على كيفية تقييم نماذج اللغة الكبيرة. يجادل بأن نماذج التقييم الحالية لا تسبب الهلوسة نفسها ، لكنها “تحدد الحوافز الخاطئة”.
يقارن الباحثون هذه التقييمات بنوع من اختبارات الاختيار من متعدد ، التخمين العشوائي أمر منطقي ، لأنه “قد تكون محظوظًا وتكون على صواب” ، مع ترك الإجابة فارغة “ضمان صفر”.
حدث TechCrunch
سان فرانسيسكو
|
27-29 أكتوبر ، 2025
“بنفس الطريقة ، عندما يتم تصنيف النماذج فقط على الدقة ، فإن النسبة المئوية للأسئلة التي يحصلون عليها على صواب ، يتم تشجيعها على التخمين بدلاً من القول” لا أعرف “.
الحل المقترح ، إذن ، يشبه الاختبارات (مثل SAT) التي تتضمن “سلبية (تسجيل) للحصول على إجابات خاطئة أو رصيد جزئي لترك الأسئلة فارغة لتثبيط التخمين الأعمى.” وبالمثل ، يقول Openai إن التقييمات النموذجية تحتاج إلى “معاقبة أخطاء واثقة أكثر مما تعاقب عدم اليقين ، وإعطاء ائتمان جزئي للتعبيرات المناسبة عن عدم اليقين”.
ويزعم الباحثون أنه لا يكفي تقديم “بعض اختبارات عدم اليقين الجديدة على الجانب”. بدلاً من ذلك ، “يجب تحديث EVALs المستخدمة على نطاق واسع القائمة على الدقة بحيث يشجع تسجيلها على التخمين”.
يقول الباحثون: “إذا استمرت لوحات النتائج الرئيسية في مكافأة التخمينات المحظوظة ، فستستمر النماذج في تعلم التخمين”.
هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي