يقول Openai إن GPT-5 يتراكم للبشر في مجموعة واسعة من الوظائف

Robot concept or robot hand chatbot pressing computer keyboard enter

متابعة – أمل علوي

أصدر Openai جديدًا معيار في يوم الخميس ، يختبر كيفية أداء نماذج الذكاء الاصطناعى مقارنة بالمهنيين البشريين عبر مجموعة واسعة من الصناعات والوظائف. يعد الاختبار ، GDPVAL ، محاولة مبكرة لفهم مدى قرب أنظمة Openai من التفوق على البشر في العمل ذي القيمة اقتصاديًا – وهو جزء رئيسي من المهمة التأسيسية للشركة لتطوير الذكاء العام المصطنعة ، أو AGI.

يقول Openai إنه وجد أن نموذج GPT-5 و Claude Opus 4.1 من الإنسان “يقتربون بالفعل من جودة العمل التي ينتجها خبراء الصناعة”.

هذا لا يعني أن نماذج Openai ستبدأ في استبدال البشر في وظائفهم على الفور. على الرغم من التنبؤات من قبل بعض الرؤساء التنفيذيين سوف تأخذ منظمة العفو الدولية وظائف البشر في غضون بضع سنوات فقط ، يعترف Openai بأن GDPVAL اليوم يغطي عددًا محدودًا للغاية من المهام التي يقوم بها الناس في وظائفهم الحقيقية. ومع ذلك ، فهي واحدة من أحدث الطرق التي تقوم الشركة بقياس تقدمها نحو هذا المعلم.

يعتمد إجمالي الناتج المحلي الإجمالي على تسع صناعات تساهم أكثر في الناتج المحلي الإجمالي في أمريكا ، بما في ذلك مجالات مثل الرعاية الصحية والتمويل والتصنيع والحكومة. يختبر القياسي أداء نموذج الذكاء الاصطناعى في 44 مهنة بين تلك الصناعات ، بدءًا من مهندسي البرمجيات إلى الممرضات إلى الصحفيين.

بالنسبة إلى الإصدار الأول من Openai من الاختبار ، GDPVAL-V0 ، طلب Openai من المحترفين ذوي الخبرة مقارنة التقارير التي تم إنشاؤها بواسطة الذكاء الاصطناعى مع تلك التي تنتجها محترفين آخرين ، ثم اختيار أفضل ما. على سبيل المثال ، طلب أحد الموجهين المصرفيين الاستثمار إنشاء مشهد منافس لصناعة توصيل الميل الأخير ومقارنتهم بالتقارير التي تم إنشاؤها بواسطة الذكاء الاصطناعى. ثم يقوم Openai بمتوسط ”معدل الفوز” لنموذج الذكاء الاصطناعي ضد التقارير البشرية في جميع المهن الـ 44.

بالنسبة إلى GPT-5-High ، وهي نسخة من GPT-5 مع قوة حسابية إضافية ، تقول الشركة إن نموذج الذكاء الاصطناعى قد تم تصنيفه على أنه أفضل من أو على قدم المساواة مع خبراء الصناعة 40.6 ٪ من الوقت.

اختبر Openai أيضًا نموذج Claude Opus 4.1 من الإنسان ، والذي تم تصنيفه على أنه أفضل من أو على قدم المساواة مع خبراء الصناعة في 49 ٪ من المهام. يقول Openai إنه يعتقد أن كلود سجل عالية جدًا بسبب ميله إلى صنع رسومات ممتعة ، بدلاً من الأداء الهائل.

حدث TechCrunch

سان فرانسيسكو
|
27-29 أكتوبر ، 2025

ائتمانات الصورة:Openai

تجدر الإشارة إلى أن معظم المهنيين العاملين يقومون بأكثر من تقديم تقارير بحثية إلى رئيسهم ، وهو كل اختبارات GDPVAL-V0. يعترف Openai بذلك ويقول إنه يخطط لإنشاء اختبارات أكثر قوة في المستقبل يمكن أن تفسر المزيد من الصناعات وسير العمل التفاعلي.

ومع ذلك ، ترى الشركة التقدم في إجمالي الناتج المحلي على أنه ملحوظ.

في مقابلة مع TechCrunch ، قال كبير الاقتصاديين في Openai الدكتور آرون تشاترجي إن نتائج الناتج المحلي الإجمالي تشير إلى أن الأشخاص في هذه الوظائف يمكنهم الآن استخدام نماذج الذكاء الاصطناعى لقضاء بعض الوقت في المهام الأكثر أهمية.

يقول تشاترجي: “(لأن) يفيد النموذج في بعض هذه الأشياء ، يمكن للأشخاص في هذه الوظائف الآن استخدام النموذج ، بشكل متزايد مع التحسن في القدرات ، لتفريغ بعض أعمالهم ويفعلون أشياء ذات قيمة أعلى محتملة.”

تخبر تقييمات Openai Tejal Patwardhan TechCrunch بأنها شجعت بمعدل التقدم في الناتج المحلي الإجمالي. سجل طراز GPT-4O من Openai 13.7 ٪ فقط (يفوز وعلاقات مقابل البشر) ، والذي تم إصداره قبل حوالي 15 شهرًا. الآن GPT-5 يسجل ما يقرب من ثلاثة أضعاف ذلك ، يتوقع الاتجاه باتواردهان.

يحتوي وادي السيليكون على مجموعة واسعة من المعايير التي يستخدمها لقياس تقدم نماذج الذكاء الاصطناعي وتقييم ما إذا كان نموذج معين هو أحدث. من بين الأكثر شعبية AIME 2025 (اختبار لمشاكل الرياضيات التنافسية) و GPQA Diamond (اختبار أسئلة العلوم على مستوى الدكتوراه). ومع ذلك ، فإن العديد من نماذج الذكاء الاصطناعى تقترب من التشبع على بعض هذه المعايير ، وقد أشار العديد من باحثو الذكاء الاصطناعي إلى الحاجة إلى اختبارات أفضل يمكن أن تقيس كفاءة الذكاء الاصطناعي في المهام في العالم الحقيقي.

يمكن أن تصبح المعايير مثل إجمالي الناتج المحلي أهمية متزايدة في تلك المحادثة ، لأن Openai توضح أن نماذج الذكاء الاصطناعى لها قيمة لمجموعة واسعة من الصناعات. لكن قد يحتاج Openai إلى إصدار أكثر شمولاً من الاختبار ليقول بشكل قاطع أن نماذج الذكاء الاصطناعى يمكن أن تتفوق على البشر.

هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي