متابعة – أمل علوي
أعلنت شركة Zyphra بالتعاون مع AMD وIBM عن نجاحها في تدريب نموذج زايا1 (ZAYA1)، الذي يُعتبر أول نموذج أساسي يعتمد على بنية Mixture-of-Experts تم تطويره بالكامل على وحدات معالجة الرسوميات (GPUs) من AMD، مما يثبت إمكانية تقديم حلول بديلة لسوق الذكاء الاصطناعي التي تعتمد بشكل كبير على NVIDIA.
بنية ZAYA1
تم تدريب ZAYA1 باستخدام شرائح MI300X من AMD، وبنية الشبكة Pensando، وبرنامج ROCm، والكل على بنية تحتية من IBM Cloud. تصميم النظام كان تقليديًا، حيث تم بناء التحميل ليشبه الأنظمة المؤسسية العادية، مما يعكس قدرة Zyphra على تقديم نظام فعّال بدون الاعتماد على مكونات NVIDIA.
أداء ZAYA1
أثبت ZAYA1 أنه آداء ممتاز، حيث يُظهر أداءً معادلاً، وفي بعض النواحي أفضل من النماذج المفتوحة التقليدية في مجالات مثل الاستدلال والرياضيات والبرمجة. يُعتبر هذا النموذج خيارًا نادرًا للشركات التي تواجه قيود في الإمدادات أو ارتفاع أسعار وحدات المعالجة الرسومية.
تكلفة التدريب وموارد الذاكرة
تعتمد معظم المؤسسات على منطق مقبول عندما تخطط لميزانية التدريب: سعة الذاكرة، وسرعة الاتصال، وأوقات التكرار القابلة للتنبؤ. توفر وحدات MI300X سعة ذاكرة تبلغ 192 جيجابايت لكل وحدة معالجة، مما يمنح المهندسين حرية إجراء تجارب تدريب مبكرة دون الحاجة إلى تشغيل التوازي الثقيل على الفور.
استراتيجية التدريب
يتضمن نموذج ZAYA1 760 مليون من المعلمات من إجمالي 8.3 مليار، وتدرب على 12 تريليون من الرموز في ثلاث مراحل. تعتمد هذه البنية على الانتباه المضغوط، وهو نظام توجيه مُحسّن لضبط الرموز على الخبراء المناسبين.
تكييف ROCm مع وحدات AMD
قدم فريق Zyphra التحديات التي السبب في نقل أعمال NVIDIA الحالية إلى ROCm، حيث قضى الفريق وقتاً في قياس كيفية أداء أجهزة AMD وإعادة تشكيل أبعاد النماذج لتناسب نطاقات الأداء المفضلة لشرائح MI300X.
كيفية احتفاظ الأنظمة بالاستقرار
تدريب النماذج لفترات طويلة يمثل تحديًا كبيرًا، ولذلك قامت Zyphra بتطوير خدمة Aegis لمراقبة سجلات النظام ومؤشرات الأداء، مما يساعد في التعرف على الأعطال وإجراء تصحيحات تلقائية.
ماذا يعني إنجاز تدريب ZAYA1 للذكاء الاصطناعي
توضح الدراسة الفروق بين أنظمة NVIDIA وAMD، وهذا يشير إلى أن البنية الأساسية لشركة AMD ناضجة بما يكفي لتطوير نماذج كبيرة. لكن لا يعني ذلك أن الشركات يجب أن تتخلى عن الكلاستر الخاصة بـ NVIDIA. يمكن أن تكون الاستراتيجية الأكثر واقعية هي الاحتفاظ بـ NVIDIA للإنتاج واستخدام AMD في مراحل التدريب التي تستفيد من سعة ذاكرة MI300X.
يمكن أن تكون هذه النتائج نموذجًا مفيدًا للمنظمات التي ترغب في توسيع قدرة الذكاء الاصطناعي لديها دون الاعتماد على مورد واحد فقط، مما يوفر أمانًا أكبر للمورد ويزيد من إجمالي حجم التدريب.
تم باستخدام أدوات الذكاء الاصطناعي.








