سامسونج تطلق TRUEBench: معيار جديد لقياس الإنتاجية الحقيقية للذكاء الاصطناعي في المؤسسات

متابعة – أمل علوي

أعلنت سامسونج عن تطوير معيار تقييم جديد يحمل اسم TRUEBench يهدف إلى قياس الإنتاجية الحقيقية لنماذج الذكاء الاصطناعي في البيئات المؤسسية العملية، متجاوزة بذلك قيود معايير القياس التقليدية التي لم تعد تعكس الأداء الفعلي في سيناريوهات العمل الواقعية.

فجوة الأداء بين النظري والعملي
مع تسارع اعتماد نماذج الذكاء الاصطناعي الكبيرة في المؤسسات حول العالم، برزت مشكلة رئيسية: عدم دقة معايير القياس الحالية التي تركز على الاختبارات الأكاديمية والقدرات العامة، وغالباً ما تقتصر على اللغة الإنجليزية وصيغ الأسئلة والأجوبة البسيطة. هذه الفجوة تترك الشركات دون وسيلة موثوقة لتقييم أداء النماذج الذكية في المهام التجارية المعقدة ومتعددة اللغات.

ما هو TRUEBench؟
TRUEBench (اختصاراً لـ Trustworthy Real-world Usage Evaluation Benchmark) هو نظام تقييم شامل طورته سامسونج Research لقياس أداء نماذج الذكاء الاصطناعى بناءً على سيناريوهات ومهام مباشرة من البيئات المؤسسية الحقيقية. يستفيد هذا المعيار من الخبرة الواسعة لسامسونج في الاستخدام الداخلي للذكاء الاصطناعي، مما يضمن أن معايير التقييم تعكس الاحتياجات العملية الفعلية.

مجالات التقييم الشاملة
صمم TRUEBench لتقييم الوظائف المؤسسية الشائعة مثل:

إنشاء المحتوى

تحليل البيانات

تلخيص المستندات الطويلة

الترجمة بين اللغات

تنقسم هذه الوظائف إلى 10 فئات رئيسية و46 فئة فرعية، مما يوفر رؤية دقيقة ومفصلة لقدرات النماذج الذكية على زيادة الإنتاجية.

منهجية متطورة ومتعددة اللغات
يعتمد TRUEBench على مجموعة من 2485 اختباراً تغطي 12 لغة مختلفة وتدعم السيناريوهات cross-linguistic، وهي ميزة حاسمة للشركات العالمية التي تعمل عبر حدود متعددة. تتراوح مواد الاختبار من تعليمات مختصرة (8 أحرف فقط) إلى تحليلات معقدة لمستندات تتجاوز 20,000 حرف.

فهم الاحتياجات الضمنية
تميز TRUEBench بقدرته على تقييم فهم النماذج للاحتياجات الضمنية غير المذكورة صراحة في prompts المستخدمين، مما ينتقل بالتقييم beyond مجرد قياس الدقة إلى قياس الفائدة والملاءمة في السياق العملي.

عملية تقييم فريدة
طورت سامسونج عملية تقييم تعاونية فريدة بين الخبراء البشريين والذكاء الاصطناعي:

وضع معايير التقييم الأولية بواسطة خبراء بشريين

مراجعة هذه المعايير بواسطة الذكاء الاصطناعي للكشف عن الأخطاء أو التناقضات

تنقيح المعايير بناءً على ملاحظات الذكاء الاصطناعي

تكرار هذه العملية لضمان دقة المعايير وجودتها

الشفافية والتبني الواسع
لتعزيز الشفافية وتشجيع الاعتماد الواسع، جعلت سامسونج عينات بيانات TRUEBench ولوحات المتصدرين متاحة publicly على منصة Hugging Face مفتوحة المصدر، مما يسمح للمطورين والباحثين والمؤسسات بمقارنة أداء ما يصل إلى خمسة نماذج ذكية مختلفة في وقت واحد.

قال بول كيونغوون تشون، الرئيس التقني لقطاع DX في سامسونج: “تملك سامسونج Research خبرة عملية عميقة في الذكاء الاصطناعي، ونحن نتوقع أن يضع TRUEBench معايير التقييم للإنتاجية في مجال الذكاء الاصطناعي المؤسسي.”

هذا المحتوى تم باستخدام أدوات الذكاء الاصطناعي.