أبحاث Openai حول نماذج الذكاء الاصطناعى الكذب عمدا هي برية

متابعة – أمل علوي

بين الحين والآخر ، يسقط الباحثون في أكبر شركات التكنولوجيا قنبلة. كان هناك الوقت الذي ذكرت فيه Google أحدث شريحة الكم التي تشير إلى وجود العديد من أكوان متعددة. أو عندما أعطت الأنثروبور عميل الذكاء الاصطناعى كلوديوس آلة بيع وجبة خفيفة لتشغيلها وذهب Amok ، ودعا الأمن على الناس ، وأصر على أنه كان إنسانًا.

هذا الأسبوع ، كان دور Openai لرفع حواجبنا الجماعية.

أصدر Openai يوم الاثنين بعض الأبحاث التي أوضحت كيف تمنع نماذج الذكاء الاصطناعي من “Scheming”. إنها ممارسة تتصرف فيها “الذكاء الاصطناعى” بطريقة واحدة على السطح مع إخفاء أهدافها الحقيقية “، Openai محددة في تغريدة حول البحث.

في الورقة ، التي أجريت مع Apollo Research ، ذهب الباحثون إلى أبعد من ذلك قليلاً ، مما يشبه منظمة العفو الدولية لسيطة أسهم بشرية يكسر القانون لكسب أكبر قدر ممكن من المال. ومع ذلك ، جادل الباحثون بأن معظم منظمة العفو الدولية “تخطي” لم تكن ضارة. وكتبوا: “تتضمن الإخفاقات الأكثر شيوعًا أشكالًا بسيطة من الخداع – على سبيل المثال ، تتظاهر بأنها أكملت مهمة دون القيام بذلك بالفعل”.

تم نشر الورقة في الغالب لإظهار أن “المحاذاة التداولية”-تقنية مكافحة الاختصار التي كانوا يختبرونها-عملت بشكل جيد.

لكنه أوضح أيضًا أن مطوري الذكاء الاصطناعى لم يكتشفوا طريقة لتدريب نماذجهم على عدم التخطيط. ذلك لأن مثل هذا التدريب يمكن أن يعلم النموذج في الواقع كيفية تخطيط أفضل لتجنب اكتشافه.

وكتب الباحثون: “إن طريقة فشل رئيسية لمحاولة” التدريب “هي ببساطة تعليم النموذج للتخطيط بعناية أكبر وسرية”.

حدث TechCrunch

سان فرانسيسكو
|
27-29 أكتوبر ، 2025

ربما يكون الجزء الأكثر إثارة للدهشة هو أنه إذا فهم نموذج أنه يتم اختباره ، فيمكنه التظاهر بأنه لا يخطط لمجرد اجتياز الاختبار ، حتى لو كان لا يزال يخطط. وكتب الباحثون: “غالبًا ما تصبح النماذج أكثر وعياً بأنها يتم تقييمها. هذا الوعي الظرفي يمكن أن يقلل من التخطيط ، بغض النظر عن المحاذاة الحقيقية”.

ليس من الأخبار أن نماذج الذكاء الاصطناعى ستكذب. في الوقت الحالي ، شهد معظمنا هلوسة منظمة العفو الدولية ، أو أن النموذج يعطي بثقة إجابة لمطالبة ليست صحيحة ببساطة. لكن الهلوسة تقدم بشكل أساسي التخمين بثقة ، كما تم إصدار أبحاث Openai في وقت سابق من هذا الشهر موثق.

التخطيط شيء آخر. إنه متعمد.

حتى هذا الوحي – أن النموذج سيضلل البشر عن عمد – ليس جديدًا. Apollo Research أولاً نشرت ورقة في ديسمبر توثيق كيف تم تخطيط خمسة نماذج عندما تم منحهم تعليمات لتحقيق هدف “بأي ثمن”.

ما هو؟ أخبار سارة أن الباحثين شهدوا تخفيضات كبيرة في التخطيط باستخدام “المحاذاة التداولية ⁠”. تتضمن هذه التقنية تعليم النموذج “مواصفات مضادة للخروج” ومن ثم جعل النموذج يذهب مراجعته قبل التمثيل. إنه يشبه إلى حد ما جعل الأطفال الصغار يكررون القواعد قبل السماح لهم باللعب.

يصر باحثو Openai على أن الكذب الذي اكتشفوه مع نماذجهم الخاصة ، أو حتى مع ChatGPT ، ليس بهذا الجاد. كما أخبر Wojciech Zaremba ، أحد مؤسسي Openai ، Maxwell Zeff من TechCrunch عند الدعوة إلى اختبار السلامة بشكل أفضل: “لقد تم القيام بهذا العمل في البيئات المحاكاة ، ونحن نعتقد أنه يمثل حالات الاستخدام المستقبلية. اليوم ، لم نر هذا النوع من التخطيط المتردد في حركة المرور الخاصة بنا. “نعم ، لقد قمت بعمل رائع.” وهذه مجرد كذبة. هناك بعض الأشكال البسيطة من الخداع التي ما زلنا بحاجة إلى معالجتها. “

حقيقة أن نماذج الذكاء الاصطناعى من لاعبين متعددين يخدعون البشر ، ربما ، مفهومة. تم بناؤهم من قبل البشر ، لتقليد البشر و (البيانات الاصطناعية جانبا) للجزء الأكبر المدربين على البيانات التي ينتجها البشر.

إنه أيضًا بونكرز.

على الرغم من أننا جميعا شهدنا إحباط التكنولوجيا السيئة أداء (التفكير فيك ، والطابعات المنزلية في الأمس) ، متى كانت آخر مرة كذبت فيها برنامجك غير المود؟ هل قامت صندوق البريد الوارد الخاص بك بتصنيع رسائل البريد الإلكتروني من تلقاء نفسها؟ هل قامت CMS بتسجيل آفاق جديدة لم تكن موجودة لتسخين أرقامها؟ هل قام تطبيق Fintech الخاص بك بتكوين معاملاته المصرفية؟

الأمر يستحق التفكير في ذلك باعتباره براميل العالم للشركات نحو مستقبل منظمة العفو الدولية حيث تعتقد الشركات أن الوكلاء يمكن أن يعاملوا مثل الموظفين المستقلين. الباحثون في هذه الورقة لديهم نفس التحذير.

وكتبوا: “نظرًا لأن AIS يتم تعيين مهام أكثر تعقيدًا مع عواقب وخيمة وتبدأ في متابعة أهداف أكثر غموضًا وطويلة الأجل ، فإننا نتوقع أن تنمو احتمال وجود تخطيط ضار-لذلك يجب أن تنمو ضماناتنا وقدرتنا على الاختبار الصارم في المقابل”.

هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي