متابعة – أمل علوي
كشفت Google Deepmind عن Genie 3 ، وهو أحدث نموذج له في عالم الأساس الذي يقول مختبر الذكاء الاصطناعى إنه يقدم حجرًا مهمًا على الطريق إلى الذكاء العام الاصطناعي ، أو الذكاء الذي يشبه الإنسان.
وقال شلوملي فروتشتر ، مدير الأبحاث في DeepMind ، خلال مؤتمر صحفي: “Genie 3 هو أول نموذج عالمي تفاعلي في الوقت الفعلي”. “إنها تتجاوز نماذج العالم الضيقة التي كانت موجودة من قبل. إنها ليست خاصة بأي بيئة معينة. يمكن أن تولد كل من عوالم واقعية وخيالية ، وكل شيء بينهما”.
يعتمد Genie 3 ، الذي لا يزال في معاينة البحث وليس متاحًا للجمهور ، على كل من سابقتها Genie 2 – والتي يمكن أن تولد بيئات جديدة للوكلاء – وأحدث نموذج توليد الفيديو في DeepMind – الذي يعرض فهمًا عميقًا للفيزياء.
من خلال موجه نص بسيط ، يمكن لـ Genie 3 توليد عدة دقائق – من 10 إلى 20 ثانية في Genie 2 – من بيئات ثلاثية الأبعاد متنوعة وتفاعلية في 24 إطارًا في الثانية بدقة 720 بكسل. يحتوي النموذج أيضًا على “أحداث عالمية قابلة للسرعة” ، أو القدرة على استخدام موجه لتغيير العالم الذي تم إنشاؤه.
ولعل الأهم من ذلك ، تظل عمليات محاكاة Genie 3 متسقة جسديًا مع مرور الوقت لأن النموذج قادر على تذكر ما تم إنشاؤه مسبقًا – وهي القدرة الناشئة التي لم يبرمها الباحثون DeepMind بشكل صريح في النموذج.
وقال Fruchter إنه على الرغم من أن Genie 3 له تأثيرات على تجارب تعليمية ووسائط توليدية جديدة مثل الألعاب أو النماذج الأولية للمفاهيم الإبداعية ، إلا أن فتحه الحقيقي سيظهر في وكلاء التدريب لمهام الأغراض العامة ، والذي قال إنه ضروري للوصول إلى AGI.
وقال جاك باركر ، وهو عالم أبحاث في فريق Deepmind في نهاية المطاف ، خلال مؤتمر صحفي: “نعتقد أن النماذج العالمية هي مفتاح الطريق إلى AGI ، وتحديداً للعوامل المجسدة ، حيث يمثل محاكاة سيناريوهات العالم الحقيقي تحديًا بشكل خاص”.
حدث TechCrunch
سان فرانسيسكو
|
27-29 أكتوبر ، 2025

تم تصميم Genie 3 لحل عنق الزجاجة. مثل Veo ، لا يعتمد على محرك الفيزياء المرمز. بدلاً من ذلك ، يعلم نفسه كيف يعمل العالم – كيف تتحرك الأشياء والسقوط والتفاعل – من خلال تذكر ما ولده والتفكير خلال آفاق زمنية طويلة.
وقال فروتشتر لـ TechCrunch في مقابلة منفصلة: “النموذج يعتبر تلقائيًا ، مما يعني أنه يولد إطارًا واحدًا في وقت واحد”. “يجب أن ننظر إلى الوراء إلى ما تم إنشاؤه من قبل لتقرير ما سيحدث بعد ذلك. هذا جزء رئيسي من الهندسة المعمارية.”
تخلق تلك الذاكرة الاتساق في عوالمها المحاكاة ، وهذا الاتساق يسمح لها بتطوير نوع من الفهم البديهي للفيزياء ، على غرار كيف يفهم البشر أن الزجاج على حافة الطاولة على وشك السقوط ، أو يجب عليهم البط لتجنب كائن يسقط.
هذه القدرة على محاكاة البيئات المتماسكة والمعقولة جسديًا مع مرور الوقت تجعل Genie 3 أكثر بكثير من نموذج توليدي. يصبح أرض تدريب مثالية لوكلاء الأغراض العامة. لا يمكن أن يولد عوالم لا نهاية لها ومتنوعة فقط ، ولكن لديها أيضًا القدرة على دفع الوكلاء إلى حدودهم – مما يجبرهم على التكيف والكفاح والتعلم من تجربتهم الخاصة بطريقة تعكس كيفية تعلم البشر في العالم الحقيقي.

حاليًا ، لا يزال نطاق الإجراءات التي يمكن أن يتخذها الوكيل محدودًا. على سبيل المثال ، تتيح الأحداث العالمية القابلة للسرعة مجموعة واسعة من التدخلات البيئية ، لكنها لا تتم بالضرورة من قبل الوكيل نفسه. وبالمثل ، لا يزال من الصعب تصميم التفاعلات المعقدة بدقة بين عوامل مستقلة متعددة في بيئة مشتركة. يمكن لـ Genie 3 أيضًا دعم بضع دقائق فقط من التفاعل المستمر ، عندما تكون ساعات العمل ضرورية للتدريب المناسب.
ومع ذلك ، يقدم Genie 3 خطوة مقنعة إلى الأمام في وكلاء التدريس لتجاوز التفاعل مع المدخلات حتى يتمكنوا من التخطيط والاستكشاف والبحث عن عدم اليقين والتحسين من خلال التجربة والخطأ-نوع التعلم المجسد ذاتيًا ، وهو أمر أساسي في التحرك نحو الذكاء العام.
وقال باركر حامل ، في إشارة إلى اللحظة الأسطورية في لعبة GO المثيرة للاشمئزاز ، “لم يكن لدينا بالفعل خطوة 37 لحظة لوكلاء مجسدين حتى الآن ، حيث يمكنهم في الواقع اتخاذ إجراءات جديدة في العالم الحقيقي” ، في إشارة إلى اللحظة الأسطورية في لعبة Go 2016 بين عميل Deepmind من AI Ai لاكتشاف Ai Beash “.
“لكن الآن ، يمكننا أن ندخل في حقبة جديدة” ، قال.
هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي