قام الباحثون بتصنيف نماذج الذكاء الاصطناعي الأجمل والأكثر شقاوة
أصبح بو لي، الأستاذ المشارك في جامعة شيكاغو والمتخصص في اختبار الإجهاد وتحفيز نماذج الذكاء الاصطناعي للكشف عن سوء السلوك، مصدرا موثوقا به لبعض الشركات الاستشارية. غالبًا ما تكون هذه الشركات الاستشارية الآن أقل اهتمامًا بمدى ذكاء نماذج الذكاء الاصطناعي من اهتمامها بمدى الإشكالية القانونية والأخلاقية، ومن حيث الامتثال التنظيمي.
قام لي وزملاؤه من عدة جامعات أخرى، بالإضافة إلى Virtue AI، التي شارك في تأسيسها Li، وLapis Labs، بتطوير تصنيف لمخاطر الذكاء الاصطناعي إلى جانب معيار يكشف مدى خرق النماذج اللغوية الكبيرة المختلفة للقواعد. يقول لي لمجلة WIRED: “نحن بحاجة إلى بعض المبادئ المتعلقة بسلامة الذكاء الاصطناعي، فيما يتعلق بالامتثال التنظيمي والاستخدام العادي”.
وقام الباحثون بتحليل اللوائح والمبادئ التوجيهية الحكومية المتعلقة بالذكاء الاصطناعي، بما في ذلك تلك الخاصة بالولايات المتحدة والصين والاتحاد الأوروبي، ودرسوا سياسات الاستخدام الخاصة بـ 16 شركة كبرى للذكاء الاصطناعي من جميع أنحاء العالم.
قام الباحثون أيضًا ببناء AIR-Bench 2024، وهو معيار يستخدم آلاف المطالبات لتحديد مدى نجاح نماذج الذكاء الاصطناعي الشائعة من حيث المخاطر المحددة. ويظهر، على سبيل المثال، أن Anthropic’s Claude 3 Opus يحتل مرتبة عالية عندما يتعلق الأمر برفض توليد تهديدات للأمن السيبراني، في حين أن Gemini 1.5 Pro من Google يحتل مرتبة عالية من حيث تجنب توليد عُري جنسي غير رضائي.
وقد سجل نموذج DBRX Instruct، الذي طورته شركة Databricks، أسوأ النتائج في جميع المجالات. عندما أصدرت الشركة نموذجها في مارس، قالت إنها ستستمر في تحسين ميزات السلامة في DBRX Instruct.
ولم تستجب شركات Anthropic وGoogle وDatabricks على الفور لطلب التعليق.
قد يصبح فهم مشهد المخاطر، بالإضافة إلى إيجابيات وسلبيات نماذج محددة، ذا أهمية متزايدة للشركات التي تتطلع إلى نشر الذكاء الاصطناعي في أسواق معينة أو في حالات استخدام معينة. على سبيل المثال، قد تهتم الشركة التي تتطلع إلى استخدام شهادة LLM لخدمة العملاء أكثر بميل النموذج إلى إنتاج لغة مسيئة عند استفزازه أكثر من مدى قدرته على تصميم جهاز نووي.
يقول بو إن التحليل يكشف أيضًا عن بعض المشكلات المثيرة للاهتمام المتعلقة بكيفية تطوير الذكاء الاصطناعي وتنظيمه. على سبيل المثال، وجد الباحثون أن القواعد الحكومية أقل شمولاً من سياسات الشركات بشكل عام، مما يشير إلى وجود مجال لتشديد القواعد التنظيمية.
ويشير التحليل أيضًا إلى أن بعض الشركات يمكنها بذل المزيد من الجهد لضمان سلامة نماذجها. يقول بو: “إذا قمت باختبار بعض النماذج مقابل سياسات الشركة الخاصة، فإنها ليست بالضرورة متوافقة”. “وهذا يعني أن هناك مجالًا كبيرًا لهم للتحسن.”
ويحاول باحثون آخرون إعادة النظام إلى مشهد مخاطر الذكاء الاصطناعي الفوضوي والمربك. كشف باحثان من معهد ماساتشوستس للتكنولوجيا هذا الأسبوع عن قاعدة بياناتهما الخاصة حول مخاطر الذكاء الاصطناعي، والتي تم تجميعها من 43 إطارًا مختلفًا لمخاطر الذكاء الاصطناعي. يقول نيل طومسون، عالم الأبحاث في معهد ماساتشوستس للتكنولوجيا المشارك في المشروع: “لا تزال العديد من المنظمات في مرحلة مبكرة جدًا من عملية اعتماد الذكاء الاصطناعي”، مما يعني أنها بحاجة إلى إرشادات حول المخاطر المحتملة.
يقول بيتر سلاتري، قائد المشروع والباحث في مجموعة FutureTech بمعهد ماساتشوستس للتكنولوجيا، والتي تدرس التقدم في مجال الحوسبة، إن قاعدة البيانات تسلط الضوء على حقيقة أن بعض مخاطر الذكاء الاصطناعي تحظى باهتمام أكبر من غيرها. على سبيل المثال، يشير أكثر من 70% من أطر العمل إلى قضايا الخصوصية والأمن، لكن حوالي 40% منها فقط تشير إلى معلومات مضللة.
ويجب أن تتطور الجهود المبذولة لفهرسة وقياس مخاطر الذكاء الاصطناعي كما يفعل الذكاء الاصطناعي. يقول لي إنه سيكون من المهم استكشاف القضايا الناشئة، مثل الالتصاق العاطفي لنماذج الذكاء الاصطناعي. قامت شركتها مؤخرًا بتحليل الإصدار الأكبر والأقوى من نموذج Meta’s Llama 3.1. ووجدت أنه على الرغم من أن النموذج أكثر قدرة، إلا أنه ليس أكثر أمانًا، وهو الأمر الذي يعكس انفصالًا أوسع. يقول لي: “السلامة لا تتحسن بشكل ملحوظ”.
اكتشاف المزيد من مدونة الواحة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.