متابعة – أمل علوي
لسنوات ، قام كبار المديرين التنفيذيين للتكنولوجيا الكبرى بتوزيع رؤى لوكلاء الذكاء الاصطناعى الذين يمكنهم استخدام تطبيقات البرمجيات بشكل مستقل لاستكمال المهام للأشخاص. لكن خذ وكلاء المستهلكين اليوم من أجل تدور ، سواء كان وكيل chatgpt من Openai أو مذنب الحيرة ، وستدرك بسرعة مدى محدودية التكنولوجيا. إن جعل وكلاء الذكاء الاصطناعى أكثر قوة قد يستغرق مجموعة جديدة من التقنيات التي لا تزال الصناعة تكتشفها.
واحدة من هذه التقنيات هي محاكاة مساحات العمل بعناية حيث يمكن تدريب الوكلاء على مهام متعددة الخطوات-المعروفة باسم بيئات التعلم التعزيز (RL). على غرار كيفية تشغيل مجموعات البيانات المسمى آخر الموجة من الذكاء الاصطناعي ، بدأت بيئات RL تبدو وكأنها عنصر حاسم في تطوير الوكلاء.
يخبر باحثو الذكاء الاصطناعي والمؤسسين والمستثمرين أن TechCrunch يطلبون الآن المزيد من بيئات RL ، ولا يوجد نقص في الشركات الناشئة على أمل تزويدها.
وقالت جينيفر لي ، الشريك العام في Andreessen Horowitz ، في مقابلة مع TechCrunch: “جميع مختبرات الذكاء الاصطناعي الكبير تبني بيئات RL في المنزل”. “ولكن كما يمكنك أن تتخيل ، فإن إنشاء مجموعات البيانات هذه معقدة للغاية ، لذا فإن مختبرات الذكاء الاصطناعى تنظر أيضًا إلى بائعي الجهات الخارجية التي يمكن أن تخلق بيئات وتقييمات عالية الجودة. الجميع ينظر إلى هذا الفضاء.”
قامت دفعة بيئات RL بتكليف فئة جديدة من الشركات الناشئة التي تمولها جيدًا ، مثل Meanyize و Prime Intellect ، والتي تهدف إلى قيادة هذه الفضاء. وفي الوقت نفسه ، تقول شركات كبيرة لعلامة البيانات مثل Mercor و Trupge إنها تستثمر أكثر في بيئات RL لمواكبة التحولات في الصناعة من مجموعات البيانات الثابتة إلى عمليات المحاكاة التفاعلية. تفكر المختبرات الرئيسية في الاستثمار بشكل كبير أيضًا: وفقًا للمعلومات ، ناقش القادة في الأنثروبور إنفاق أكثر من مليار دولار على بيئات RL خلال العام المقبل.
الأمل بالنسبة للمستثمرين والمؤسسين هو أن إحدى هذه الشركات الناشئة تظهر على أنها “مقياس منظمة العفو الدولية للبيئات” ، في إشارة إلى قوة وضع علامات البيانات البالغة 29 مليار دولار التي تعمل على تشغيل عصر chatbot.
والسؤال هو ما إذا كانت بيئات RL ستدفع حقًا حدود تقدم الذكاء الاصطناعي.
حدث TechCrunch
سان فرانسيسكو
|
27-29 أكتوبر ، 2025
ما هي بيئة RL؟
في جوهرها ، تقوم بيئات RL بتدريب أسباب تدريب على محاكاة ما سيفعله وكيل الذكاء الاصطناعى في تطبيق برنامج حقيقي. وصف مؤسس واحد بنائها في مقابلة حديثة “مثل إنشاء لعبة فيديو مملة للغاية.”
على سبيل المثال ، يمكن للبيئة محاكاة متصفح Chrome ومهمة وكيل الذكاء الاصطناعي مع شراء زوج من الجوارب على Amazon. تم تصنيف الوكيل على أدائه وأرسل إشارة مكافأة عندما ينجح (في هذه الحالة ، شراء زوج من الجوارب الجديرة).
على الرغم من أن هذه المهمة تبدو بسيطة نسبيًا ، إلا أن هناك الكثير من الأماكن التي يمكن أن يتعثر فيها وكيل الذكاء الاصطناعي. قد تضيع في التنقل في قوائم أسفل صفحة الويب ، أو شراء الكثير من الجوارب. ونظرًا لأن المطورين لا يمكنهم التنبؤ بالضبط بالتحول الخاطئ الذي سيتخذه وكيل ، يجب أن تكون البيئة نفسها قوية بما يكفي لالتقاط أي سلوك غير متوقع ، ولا تزال تقدم تعليقات مفيدة. وهذا يجعل بيئات البناء أكثر تعقيدًا من مجموعة بيانات ثابتة.
بعض البيئات معقدة تمامًا ، مما يسمح لوكلاء الذكاء الاصطناعي باستخدام الأدوات أو الوصول إلى الإنترنت أو استخدام تطبيقات البرامج المختلفة لإكمال مهمة معينة. البعض الآخر أكثر ضيقًا ، يهدف إلى مساعدة الوكيل على تعلم مهام محددة في تطبيقات برامج المؤسسة.
على الرغم من أن بيئات RL هي الشيء الساخن في وادي السيليكون في الوقت الحالي ، إلا أن هناك الكثير من السوابق لاستخدام هذه التقنية. كان أحد المشاريع الأولى في Openai في عام 2016 هو بناء “RL صالات رياضية، “التي كانت مشابهة تمامًا للمفهوم الحديث للبيئات. في العام نفسه ، Google DeepMind’s ألفا فاز نظام الذكاء الاصطناعى على بطل العالم في لعبة اللوح ، اذهب. كما استخدم تقنيات RL داخل بيئة محاكاة.
ما هو فريد من نوعه في بيئات اليوم هو أن الباحثين يحاولون بناء وكلاء الذكاء الاصطناعى الذين يستخدمون الكمبيوتر مع نماذج محولات كبيرة. على عكس AlphaGo ، الذي كان نظام AI متخصصًا يعمل في بيئات مغلقة ، يتم تدريب وكلاء الذكاء الاصطناعى اليوم على قدرات أكثر عمومية. يتمتع باحثو الذكاء الاصطناعي اليوم بنقطة انطلاق أقوى ، ولكن أيضًا هدف معقد حيث يمكن أن يخطئ المزيد.
حقل مزدحم
تحاول شركات تصنيف بيانات الذكاء الاصطناعى مثل Scale AI و Truplge و Mercor تلبية هذه اللحظة وبناء بيئات RL. هذه الشركات لديها موارد أكثر من العديد من الشركات الناشئة في الفضاء ، وكذلك العلاقات العميقة مع مختبرات الذكاء الاصطناعي.
يخبر Edwin Chen ، الرئيس التنفيذي لشركة Durge ، TechCrunch أنه شاهد مؤخرًا “زيادة كبيرة” في الطلب على بيئات RL داخل مختبرات AI. الطفرة – التي تم إنشاؤها 1.2 مليار دولار في الإيرادات وقال إن العام الماضي من العمل مع AI Labs مثل Openai و Google و Nothropic و Meta – قامت مؤخرًا بتركيب مؤسسة داخلية جديدة مكلفة على وجه التحديد ببناء بيئات RL.
Close Behind Durge هو Mercor ، وهي شركة ناشئة بقيمة 10 مليارات دولار ، والتي عملت أيضًا مع Openai و Meta و Anthropic. تقوم Mercor بإعداد المستثمرين في بيئات RL Building الخاصة بها لمهام محددة للمجال مثل الترميز والرعاية الصحية والقانون ، وفقًا للمواد التسويقية التي تراها TechCrunch.
أخبر الرئيس التنفيذي لشركة Mercor Brendan Foody TechCrunch في مقابلة أن “قليلون يفهمون حجم الفرصة حول بيئات RL حقًا”.
Scale AI المستخدمة للسيطرة على مساحة وضع العلامات للبيانات ، لكنه فقدت أرضية منذ أن استثمرت Meta 14 مليار دولار واستأجرت الرئيس التنفيذي لها. منذ ذلك الحين ، أسقطت Google و Openai Scale AI كمزود بيانات ، وتواجه بدء التشغيل المنافسة لأعمال وضع العلامات على البيانات داخل Meta. ولكن لا يزال ، يحاول Scale تلبية اللحظة وبناء البيئات.
وقال تشيتان ران ، رئيس منتج AI للوكلاء وبيئات RL: “هذه مجرد طبيعة الأعمال (Scale AI)”. “لقد أثبت المقياس قدرته على التكيف بسرعة. لقد فعلنا ذلك في الأيام الأولى من المركبات المستقلة ، وهي وحدة أعمالنا الأولى. عندما خرجت ChatGpt ، قم بتوسيع نطاق AI مع ذلك. والآن ، مرة أخرى ، نتكيف مع مساحات حدودية جديدة مثل الوكلاء والبيئات.”
يركز بعض اللاعبين الجدد بشكل حصري على البيئات منذ البداية. من بينها ميكانيكي ، تم تأسيس شركة ناشئة منذ ستة أشهر تقريبًا مع الهدف الجريء المتمثل في “أتمتة جميع الوظائف”. ومع ذلك ، يخبر المؤسس المشارك ماثيو بارنيت TechCrunch أن شركته تبدأ ببيئات RL لوكلاء ترميز الذكاء الاصطناعي.
يهدف ميكانيكيز إلى تزويد مختبرات الذكاء الاصطناعى مع عدد صغير من بيئات RL القوية ، كما يقول Barnett ، بدلاً من شركات البيانات الكبيرة التي تنشئ مجموعة واسعة من بيئات RL البسيطة. إلى هذه النقطة ، تقدم بدء التشغيل مهندسي البرمجيات 500000 دولار الرواتب لبناء بيئات RL – أعلى بكثير من المقاول بالساعة يمكن أن يكسب العمل على نطاق AI أو زيادة.
لقد عملت ميكانيكي بالفعل مع الأنثروبور على بيئات RL ، كما قال مصدران على دراية بهذه المسألة TechCrunch. ورفضت الآلية والأنثروبور التعليق على الشراكة.
الشركات الناشئة الأخرى تراهن على أن بيئات RL ستكون مؤثرة خارج مختبرات الذكاء الاصطناعي. يستهدف Prime Intellect – شركة ناشئة مدعومة من قبل باحث AI Andrej Karpathy و Founders Fund و Menlo Ventures – مطورين أصغر مع بيئات RL الخاصة به.
في الشهر الماضي ، أطلقت Prime Intellect مركز البيئات RL ، الذي يهدف إلى أن يكون “وجه معانقة لبيئات RL”. تتمثل الفكرة في منح المطورين مفتوح المصدر إمكانية الوصول إلى نفس الموارد التي تمتلكها مختبرات الذكاء الاصطناعى الكبيرة ، وبيع هؤلاء المطورين وصولهم إلى الموارد الحسابية في هذه العملية.
يمكن أن يكون التدريب العوامل القادرة عمومًا في بيئات RL أكثر تكلفة من تقنيات التدريب السابقة على الذكاء الاصطناعي ، وفقًا لما ذكره Prime Intellect Will Brown. إلى جانب الشركات الناشئة ، بناء بيئات RL ، هناك فرصة أخرى لمقدمي خدمات GPU التي يمكنهم تشغيل العملية.
وقال براون في مقابلة: “ستكون بيئات RL كبيرة جدًا بحيث لا تهيمن أي شركة واحدة”. “جزء من ما نقوم به هو مجرد محاولة بناء بنية تحتية جيدة مفتوحة المصدر حوله. الخدمة التي نبيعها هي حساب ، لذلك فهي عبارة عن صدمة مريحة لاستخدام وحدات معالجة الرسومات ، لكننا نفكر في ذلك على المدى الطويل.”
هل سيتوسع؟
السؤال المفتوح حول بيئات RL هو ما إذا كانت هذه التقنية ستعمل مثل طرق التدريب السابقة على الذكاء الاصطناعي.
لقد عمل تعلم التعزيز على بعض من أكبر القفزات في الذكاء الاصطناعي على مدار العام الماضي ، بما في ذلك نماذج مثل Openai’s O1 و Claude Opus 4.
تعد البيئات جزءًا من رهان AI Labs الأكبر على RL ، والتي يعتقد الكثيرون أنها ستستمر في تحقيق التقدم لأنها تضيف المزيد من البيانات والموارد الحسابية إلى هذه العملية. أخبر بعض الباحثين Openai الذي يقف وراء O1 TechCrunch سابقًا أن الشركة استثمرت في الأصل في نماذج التفكير من الذكاء الاصطناعي-والتي تم إنشاؤها من خلال الاستثمارات في RL وحساب وقت الاختبار-لأنهم اعتقدوا أنها ستتوسع بشكل جيد.
لا تزال أفضل طريقة لتوسيع نطاق RL غير واضحة ، لكن البيئات تبدو كمنافس واعد. بدلاً من مجرد مكافأة chatbots لاستجابات النص ، فإنهم يسمحون للوكلاء بالعمل في عمليات المحاكاة مع الأدوات وأجهزة الكمبيوتر المتاحة لها. هذا أكثر كثافة في الموارد ، ولكن من المحتمل أن يكون أكثر جدوى.
بعضها متشكك في أن كل بيئات RL هذه سوف تخرج. يخبر روس تايلور ، وهو أبحاث منظمة العفو الدولية السابقة مع ميتا والتي شاركت في تأسيسها ، شركة TechCrunch أن بيئات RL عرضة لمكافأة القرصنة. هذه عملية تغش فيها نماذج الذكاء الاصطناعي من أجل الحصول على مكافأة ، دون القيام بالمهمة حقًا.
وقال تايلور: “أعتقد أن الناس يقللون من مدى صعوبة توسيع نطاق البيئات”. “حتى أفضل أفضل (بيئات RL) المتاحة للجمهور لا تعمل عادةً دون تعديل خطير.”
وقال شيروين وو ، رئيس هندسة Openai في أعمال API ، في أ البودكاست الأخير أنه كان “قصيرًا” على الشركات الناشئة البيئة RL. لاحظ وو أنها مساحة تنافسية للغاية ، ولكن أيضًا أن أبحاث الذكاء الاصطناعى تتطور بسرعة بحيث يصعب تقديم مختبرات منظمة العفو الدولية بشكل جيد.
كما أعرب Karpathy ، وهو مستثمر في Prime Intellect الذي وصف بيئات RL بأنه اختراق محتمل ، عن الحذر من مساحة RL على نطاق أوسع. في بعد على x، أثار مخاوف بشأن مقدار تقدم الذكاء الاصطناعي يمكن الضغط عليه من RL.
وقال كارباشي: “أنا صعودي في البيئات والتفاعلات الوكلاء ، لكنني أتناسب مع التعلم التعزيز على وجه التحديد”.
استكمال: إصدار سابق من هذه المقالة يشار إلى ميكانيكيات العمل الآلي. تم تحديثه لتعكس الاسم الرسمي للشركة.
هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي