متابعة – أمل علوي
عند بناء نماذج اللغة الكبيرة (LLMs)، يسعى الباحثون إلى تحقيق أقصى أداء ضمن ميزانية معينة من حيث الحوسبة والتمويل. نظرًا لأن تدريب نموذج يمكن أن يكلف ملايين الدولارات، يحتاج المطورون إلى اتخاذ قرارات مدروسة تؤثر على التكلفة، مثل هيكل النموذج والمحسّنات ومجموعات بيانات التدريب قبل الالتزام بنموذج معين.
قوانين التوسع كأداة للتنبؤ
للتنبؤ بجودة ودقة توقعات نموذج كبير، يلجأ الممارسون إلى قوانين التوسع، التي تستخدم نماذج أصغر وأقل تكلفة لمحاولة تقريب أداء النموذج المستهدف الأكبر. المشكلة تكمن في وجود آلاف الطرق لبناء قانون توسع.
أعمال جديدة من MIT ومختبر MIT-IBM Watson AI تعالج هذه المسألة من خلال تجميع وإصدار مجموعة من مئات النماذج والقياسات المتعلقة بالتدريب والأداء لتقريب أكثر من ألف قانون توسع. من خلال ذلك، طور الفريق تحليلاً ميتا ودليلًا لاختيار النماذج الصغيرة وتقدير قوانين التوسع لعائلات نماذج LLM المختلفة.
تحسين الأداء
تطوير نماذج LLM هو مسعى مكلف يتضمن اتخاذ قرارات بشأن عدد المعلمات والرموز، واختيار البيانات وحجمها، وتقنيات التدريب. توفر قوانين التوسع وسيلة للتنبؤ بسلوك النموذج عن طريق ربط خسارة النموذج الكبير بأداء نماذج أصغر من نفس الأسرة، مما يجنب الحاجة لتدريب كل مرشح بالكامل.
بناء مجموعة بيانات شاملة
لتحقيق ذلك، جمع الباحثون من MIT مجموعة كبيرة من البيانات تضمنت نماذج LLM من 40 عائلة نموذجية. شملت المجموعة 485 نموذجًا فريدًا مدربًا مسبقًا، مع بيانات عن نقاط تدريبها، وتكاليف الحوسبة، وقياسات الأداء. استخدم الباحثون هذه النماذج لتناسب أكثر من 1000 قانون توسع ومقارنة دقتها عبر الهياكل المختلفة.
توصيات عملية
حدد الباحثون عدة عوامل تعزز من دقة التنبؤات، مثل تضمين نقاط تدريب وسيطة. أوصى الباحثون أيضًا بتدريب نماذج أصغر عبر مجموعة من الأحجام لتحسين قوة التنبؤ لقوانين التوسع.
نتائج مفاجئة
ظهرت عدة مفاجآت خلال هذا العمل، مثل أن النماذج الصغيرة المدربة جزئيًا لا تزال ذات قدرة تنبؤية عالية. كما أظهرت النتائج أنه يمكن استخدام مراحل التدريب الوسيطة لنموذج مدرب بالكامل لتوقع أداء نموذج هدف آخر.
التوجهات المستقبلية
يخطط الباحثون لتوسيع تحليلاتهم لتشمل استنتاج النموذج. يعتقد الباحثون أن النظر في وقت الاستنتاج قد يصبح أكثر أهمية، حيث يحتاج النموذج إلى التفكير لفترة أطول لتقديم أفضل إجابة على استفسارات جديدة.
تساهم هذه الأبحاث فائق الأهمية في تحسين كفاءة تدريب نماذج الذكاء الاصطناعي، مما يجعلها أكثر دقة وموثوقية، وتساعد الباحثين على اتخاذ قرارات مستندة إلى بيانات قوية في ظل ميزانيات محدودة.
هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.