خدعة جديدة يمكن أن تمنع إساءة استخدام الذكاء الاصطناعي مفتوح المصدر
عندما أصدرت شركة Meta نموذجها اللغوي الكبير Llama 3 مجانًا في أبريل الماضي، استغرق الأمر من المطورين الخارجيين بضعة أيام فقط لإنشاء نسخة دون قيود السلامة التي تمنعها من إلقاء نكات بغيضة، أو تقديم تعليمات لطهي الميثامفيتامين، أو سوء التصرف بطرق أخرى.
يمكن لتقنية تدريب جديدة طورها باحثون في جامعة إلينوي أوربانا شامبين، وجامعة كاليفورنيا في سان دييغو، ولابيس لابس، ومركز سلامة الذكاء الاصطناعي غير الربحي أن تجعل من الصعب إزالة مثل هذه الضمانات من اللاما وغيرها من نماذج الذكاء الاصطناعي مفتوحة المصدر في المستقبل. يعتقد بعض الخبراء أنه مع تزايد قوة الذكاء الاصطناعي، فإن منع التلاعب بالنماذج المفتوحة بهذه الطريقة قد يكون أمرًا بالغ الأهمية.
يقول مانتاس مازايكا، الباحث في مركز سلامة الذكاء الاصطناعي والذي عمل في المشروع كطالب دكتوراه في جامعة إلينوي أوربانا شامبين، لمجلة WIRED: “سيستخدم الإرهابيون والدول المارقة هذه النماذج”. “كلما كان من الأسهل عليهم إعادة توظيفها، كلما زادت المخاطر.”
غالبًا ما يتم إخفاء نماذج الذكاء الاصطناعي القوية من قبل منشئيها، ولا يمكن الوصول إليها إلا من خلال واجهة برمجة التطبيقات البرمجية أو برنامج الدردشة الآلي العام مثل ChatGPT. على الرغم من أن تطوير LLM قوي يكلف عشرات الملايين من الدولارات، فقد اختارت شركة Meta وآخرون إطلاق نماذج كاملة. يتضمن ذلك جعل “الأوزان” أو المعلمات التي تحدد سلوكهم متاحة لأي شخص لتنزيلها.
قبل الإصدار، عادةً ما يتم ضبط النماذج المفتوحة مثل Meta’s Llama لجعلها أفضل في الإجابة على الأسئلة وإجراء محادثة، وكذلك للتأكد من أنها ترفض الرد على الاستفسارات الإشكالية. سيمنع هذا برنامج الدردشة الآلي المبني على النموذج من تقديم بيانات فظة أو غير لائقة أو تحض على الكراهية، ويجب أن يمنعه، على سبيل المثال، من شرح كيفية صنع قنبلة.
وجد الباحثون الذين يقفون وراء التقنية الجديدة طريقة لتعقيد عملية تعديل نموذج مفتوح لأغراض شائنة. إنها تتضمن تكرار عملية التعديل ولكن بعد ذلك تغيير معلمات النموذج بحيث لا تعمل التغييرات التي عادة ما تجعل النموذج يستجيب لمطالبة مثل “تقديم تعليمات لبناء قنبلة”.
وقد أظهر مزيكا وزملاؤه الحيلة على نسخة مختصرة من Llama 3. وتمكنوا من تعديل معلمات النموذج بحيث لا يمكن تدريبه على الإجابة عن الأسئلة غير المرغوب فيها، حتى بعد آلاف المحاولات. ولم تستجب ميتا على الفور لطلب التعليق.
يقول مزيكا إن هذا النهج ليس مثاليًا، لكنه يشير إلى إمكانية رفع مستوى “إلغاء الرقابة” على نماذج الذكاء الاصطناعي. ويقول: “الهدف السهل هو تحقيق ذلك بحيث تزيد تكاليف كسر النموذج بما يكفي لردع معظم الخصوم عنه”.
يقول دان هندريكس، مدير مركز سلامة الذكاء الاصطناعي: “نأمل أن يؤدي هذا العمل إلى إطلاق بحث حول الضمانات المقاومة للتلاعب، وأن يتمكن مجتمع البحث من معرفة كيفية تطوير المزيد والمزيد من الضمانات القوية”.
قد تصبح فكرة منع التلاعب بالنماذج المفتوحة أكثر شيوعًا مع تزايد الاهتمام بالذكاء الاصطناعي مفتوح المصدر. وبالفعل، تتنافس النماذج المفتوحة مع أحدث النماذج المغلقة من شركات مثل OpenAI وGoogle. على سبيل المثال، فإن الإصدار الأحدث من Llama 3، الذي تم إصداره في يوليو، يتمتع بنفس قوة النماذج التي تقف وراء برامج الدردشة الشهيرة مثل ChatGPT وGemini وClaude، كما تم قياسها باستخدام معايير شائعة لتصنيف قدرات نماذج اللغة. ميسترال لارج 2، وهو برنامج ماجستير إدارة الأعمال من شركة فرنسية ناشئة، والذي تم إصداره الشهر الماضي أيضًا، يتمتع بقدرة مماثلة.
تتخذ حكومة الولايات المتحدة نهجًا حذرًا ولكن إيجابيًا تجاه الذكاء الاصطناعي مفتوح المصدر. تقرير صدر هذا الأسبوع عن الإدارة الوطنية للاتصالات والمعلومات، وهي هيئة تابعة لوزارة التجارة الأمريكية، “يوصي الحكومة الأمريكية بتطوير قدرات جديدة لرصد المخاطر المحتملة، ولكن الامتناع عن فرض قيود فورية على التوافر الواسع النطاق لأوزان النماذج المفتوحة في أكبر أنظمة الذكاء الاصطناعي.”
ومع ذلك، ليس الجميع معجبين بفرض قيود على النماذج المفتوحة. تقول ستيلا بيدرمان، مديرة EleutherAI، وهو مشروع ذكاء اصطناعي مفتوح المصدر يعتمد على المجتمع، إن التقنية الجديدة قد تكون أنيقة من الناحية النظرية، ولكن قد يكون من الصعب تطبيقها عمليًا. يقول بيدرمان إن هذا النهج يتناقض أيضًا مع الفلسفة الكامنة وراء البرمجيات الحرة والانفتاح في الذكاء الاصطناعي.
يقول بيدرمان: “أعتقد أن هذه الورقة تسيء فهم القضية الأساسية”. “إذا كانوا قلقين بشأن قيام الحاصلين على ماجستير إدارة الأعمال بتوليد معلومات حول أسلحة الدمار الشامل، فإن التدخل الصحيح يكون على بيانات التدريب، وليس على النموذج المُدرب.”
اكتشاف المزيد من مدونة الواحة
اشترك للحصول على أحدث التدوينات المرسلة إلى بريدك الإلكتروني.