تكنولوجيا

فشلت Deepseek’s Safety Saffercls كل اختبار ألقى الباحثون في chatbot من الذكاء الاصطناعي


“€ jailbreaks مستمر ببساطة لأن القضاء عليها تمامًا تقريبًا – مثلما كان من المستحيل تقريبًا – مثل نقاط الضعف في التدفق المخزن المؤقت في البرمجيات (التي كانت موجودة لأكثر من 40 عامًا) أو عيوب حقن SQL في تطبيقات الويب (التي ابتليت بها فرق أمان لأكثر من عقدين) ، ، ، ، ، ، أخبر أليكس بولياكوف ، الرئيس التنفيذي لشركة الأمن Adversa AI ، Wired في رسالة بريد إلكتروني.

يجادل Sampath Ciscoâ € ™ s sampath بأنه مع استخدام الشركات المزيد من أنواع الذكاء الاصطناعى في تطبيقاتها ، يتم تضخيم المخاطر. يقول سامباث: “يبدأ الأمر في أن تصبح مشكلة كبيرة عندما تبدأ في وضع هذه النماذج في أنظمة معقدة مهمة وتلك تلك السجون تؤدي فجأة إلى أشياء تزيد من المسؤولية ، وتزيد من مخاطر العمل ، وتزيد من جميع أنواع القضايا للمؤسسات.

قام باحثو Cisco برسم 50 مطالبات تم اختيارها عشوائيًا لاختبار R1 Deepseek من مكتبة معروفة من مطالبات التقييم الموحدة المعروفة باسم Harmbench. اختبروا مطالبات من ست فئات هارسبنش ، بما في ذلك الضرر العام وجريمة الإنترنت والمعلومات الخاطئة والأنشطة غير القانونية. قاموا بالتحقيق في النموذج الذي يعمل محليًا على الآلات وليس من خلال موقع أو تطبيق Deepseek ، الذي يرسل بيانات إلى الصين.

علاوة على ذلك ، يقول الباحثون إنهم شاهدوا أيضًا بعض النتائج المحتملة من اختبار R1 مع هجمات أكثر تشاركًا غير لغوية باستخدام أشياء مثل الأحرف السيريلية والبرامج النصية المصممة لتحقيق تنفيذ التعليمات البرمجية. لكن بالنسبة لنتائجهم الأولية ، يقول سامباث ، أراد فريقه التركيز على النتائج التي تنبع من معيار معترف به عمومًا.

تضمنت Cisco أيضًا مقارنات لأداء R1 ضد Harmbench يطالب بأداء النماذج الأخرى. وبعضها ، مثل Metaâ € ™ s llama 3.1 ، تعثرت بشدة مثل Deepseek’s R1. لكن Sampath يؤكد على أن Deepseek’s R1 هو نموذج تفكير محدد ، والذي يستغرق وقتًا أطول لإنشاء إجابات ولكنه يتجول في عمليات أكثر تعقيدًا لمحاولة تحقيق نتائج أفضل. لذلك ، يجادل Sampath بأن أفضل مقارنة بين نموذج التفكير Openai’s O1 ، والذي كان أداء أفضل من جميع النماذج التي تم اختبارها. (لم يستجب ميتا على الفور لطلب التعليق).

يوضح Polyakov ، من Adversa AI ، أن Deepseek يبدو أنه يكتشف ويرفض بعض هجمات كسر السجن المعروفة ، قائلاً إن “يبدو أن هذه الاستجابات غالبًا ما يتم نسخها من مجموعة بيانات Openai. يمكن بسهولة تجاوز اختبارات الشركة لأربعة أنواع مختلفة من عمليات السجن من السجون من الاختبارات اللغوية إلى قيود Deepseek القائمة على الكود.

يقول بولياكوف: “كل طريقة واحدة عملت بلا عيب”. “ما هو أكثر إثارة للقلق هو أن هذه الرواية” € ˜ ˜ ˜ Day-Day-Day-™ ™ ™-قد شهرة الكثيرون بشكل علني لسنوات ، مدعيا أنه رأى أن النموذج يذهب إلى عمق أكثر مع بعض التعليمات حول علم المخدرات مما رأى أي نموذج آخر إنشاء.

“Deepeek هو مجرد مثال آخر على كيفية كسر كل طراز ، إنه مجرد مسألة جهد بذلها. قد يتم تصحيح بعض الهجمات ، لكن سطح الهجوم لا حصر له ،” يضيف Polyakov. “إذا لم تقم باستمرار بتقدير الذكاء الاصطناعي الخاص بك ، فأنت تتعرض للخطر بالفعل.

اترك تعليقاً

لن يتم نشر عنوان بريدك الإلكتروني. الحقول الإلزامية مشار إليها بـ *

زر الذهاب إلى الأعلى