متابعة – أمل علوي
في يوم الأربعاء ، أعلنت ويكيميديا دويتشلاند عن قاعدة بيانات جديدة من شأنها أن تجعل ثروة المعرفة في ويكيبيديا يمكن الوصول إليها أكثر في نماذج الذكاء الاصطناعي.
يسمى النظام ، الذي يطلق عليه مشروع تضمين Wikidata ، يطبق النظام بحثًا الدلالي القائم على المتجهات-وهي تقنية تساعد أجهزة الكمبيوتر على فهم المعنى والعلاقات بين الكلمات-إلى البيانات الموجودة على ويكيبيديا ومنصاته الشقيقة ، والتي تتكون من حوالي 120 مليون مشاركة.
بالاقتران مع الدعم الجديد لبروتوكول سياق النموذج (MCP) ، وهو معيار يساعد أنظمة الذكاء الاصطناعي على التواصل مع مصادر البيانات ، فإن المشروع يجعل البيانات أكثر سهولة لاستعلامات اللغة الطبيعية من LLMs.
تم تنفيذ المشروع من قبل الفرع الألماني في ويكيميديا بالتعاون مع شركة البحث العصبي Jina.ai و Datastax ، وهي شركة تدريب في الوقت الفعلي مملوكة لشركة IBM.
عرضت Wikidata بيانات قابلة للقراءة الآلة من خصائص Wikimedia لسنوات ، ولكن الأدوات الموجودة مسبقًا مسموح بها فقط لعمليات البحث عن الكلمات الرئيسية واستعلامات SPARQL ، وهي لغة استعلام متخصصة. سيعمل النظام الجديد بشكل أفضل من خلال أنظمة التوليد (RAG) المتمحورة للاسترجاع والتي تسمح لنماذج الذكاء الاصطناعى بسحب المعلومات الخارجية ، مما يمنح المطورين فرصة لتأسيس نماذجهم في المعرفة التي تم التحقق منها من قبل محرري ويكيبيديا.
تم تنظيم البيانات أيضًا لتوفير سياق دلالي حاسم. الاستعلام عن قاعدة البيانات كلمة “عالم” ، على سبيل المثال ، سوف تنتج قوائم العلماء النوويين البارزين وكذلك العلماء الذين عملوا في Bell Labs. هناك أيضًا ترجمات لكلمة “عالم” في لغات مختلفة ، وصورة من العلماء في ويكيميديا في العمل ، والاستقراء على المفاهيم ذات الصلة مثل “الباحث” و “الباحث”.
قاعدة البيانات هي يمكن الوصول إليه علنًا على Toolforge. ويكيداتا تستضيف أيضا ندوة عبر الإنترنت للمطورين المهتمين في 9 أكتوبر.
حدث TechCrunch
سان فرانسيسكو
|
27-29 أكتوبر ، 2025
يأتي المشروع الجديد في الوقت الذي يتدافع فيه مطورو الذكاء الاصطناعي لمصادر بيانات عالية الجودة يمكن استخدامها لضبط النماذج. أصبحت أنظمة التدريب نفسها أكثر تطوراً – غالبًا ما يتم تجميعها كبيئات تدريب معقدة بدلاً من مجموعات البيانات البسيطة – لكنها لا تزال تتطلب بيانات منسقة عن كثب لتعمل بشكل جيد. بالنسبة للنشرات التي تتطلب دقة عالية ، فإن الحاجة إلى بيانات موثوقة أمر عاجل بشكل خاص ، وعلى الرغم من أن البعض قد ينظر إلى ويكيبيديا ، فإن بياناتها موجهة نحو حقائق أكثر بكثير من مجموعات بيانات catchall مثل الزحف الشائع، وهي عبارة عن مجموعة ضخمة من صفحات الويب التي تم كشطها عبر الإنترنت.
في بعض الحالات ، يمكن أن يكون للضغط على البيانات عالية الجودة عواقب باهظة الثمن على مختبرات الذكاء الاصطناعى. في أغسطس ، عرضت الأنثروبور تسوية دعوى قضائية مع مجموعة من المؤلفين الذين استخدمت أعمالهم كمواد تدريبية ، من خلال الموافقة على دفع 1.5 مليار دولار لإنهاء أي مطالبات بالخطأ.
في بيان للصحافة ، أكد فيليب سادي ، مدير مشروع ويكيداتا AI ، استقلال مشروعه عن مختبرات AI الرئيسية أو شركات التكنولوجيا الكبيرة. “يظهر إطلاق مشروع التضمين هذا أن الذكاء الاصطناعى القوي لا يتعين السيطرة عليه من قبل حفنة من الشركات” ، قال سعدي للصحفيين. “يمكن أن تكون مفتوحة وتعاونية ومصممة لخدمة الجميع.”
هذا المحتوي تم باستخدام أدوات الذكاء الإصطناعي