تريد OpenAI أن يساعد الذكاء الاصطناعي البشر في تدريب الذكاء الاصطناعي

كان أحد العناصر الأساسية التي جعلت ChatGPT يحقق نجاحًا مذهلاً هو وجود جيش من المدربين البشريين الذين قدموا نموذج الذكاء الاصطناعي وراء توجيهات الروبوت حول ما يشكل المخرجات الجيدة والسيئة. تقول OpenAI الآن أن إضافة المزيد من الذكاء الاصطناعي إلى هذا المزيج – للمساعدة في مساعدة المدربين البشريين – يمكن أن يساعد في جعل مساعدي الذكاء الاصطناعي أكثر ذكاءً وأكثر موثوقية.

في تطوير ChatGPT، كانت OpenAI رائدة في استخدام التعلم المعزز مع التعليقات البشرية، أو RLHF. تستخدم هذه التقنية مدخلات من مختبرين بشريين لضبط نموذج الذكاء الاصطناعي بحيث يتم الحكم على مخرجاته على أنها أكثر تماسكًا وأقل اعتراضًا وأكثر دقة. التقييمات التي يقدمها المدربون تغذي الخوارزمية التي تحرك سلوك النموذج. وقد أثبتت هذه التقنية أهميتها في جعل روبوتات الدردشة أكثر موثوقية وفائدة، وفي منعها من سوء التصرف.

يقول نات ماكاليس، الباحث في OpenAI المشارك في العمل الجديد: “يعمل RLHF بشكل جيد جدًا، لكن به بعض القيود الرئيسية”. لسبب واحد، يمكن أن تكون ردود الفعل البشرية غير متسقة. ومن ناحية أخرى، قد يكون من الصعب حتى على البشر المهرة تقييم المخرجات المعقدة للغاية، مثل أكواد البرمجيات المعقدة. يمكن لهذه العملية أيضًا تحسين النموذج لإنتاج مخرجات تبدو مقنعة بدلاً من أن تكون دقيقة في الواقع.

قامت OpenAI بتطوير نموذج جديد من خلال الضبط الدقيق لعروضها الأقوى، GPT-4، لمساعدة المدربين البشريين المكلفين بتقييم التعليمات البرمجية. ووجدت الشركة أن النموذج الجديد، الذي أطلق عليه اسم CriticGPT، يمكنه اكتشاف الأخطاء التي لم يلاحظها البشر، وأن الحكام البشريين وجدوا أن انتقاداته للتعليمات البرمجية كانت أفضل بنسبة 63% من الحالات. ستنظر OpenAI في توسيع النهج ليشمل مجالات تتجاوز التعليمات البرمجية في المستقبل.

يقول ماكاليس: “لقد بدأنا العمل على دمج هذه التقنية في مجموعة دردشة RLHF الخاصة بنا”. ويشير إلى أن هذا النهج غير مثالي، نظرًا لأن CriticGPT يمكن أيضًا أن يرتكب أخطاء عن طريق الهلوسة، لكنه يضيف أن هذه التقنية يمكن أن تساعد في جعل نماذج OpenAI وكذلك أدوات مثل ChatGPT أكثر دقة عن طريق تقليل الأخطاء في التدريب البشري. ويضيف أنه قد يكون أيضًا حاسمًا في مساعدة نماذج الذكاء الاصطناعي على أن تصبح أكثر ذكاءً، لأنه قد يسمح للبشر بالمساعدة في تدريب الذكاء الاصطناعي الذي يتجاوز قدراتهم. يقول ماكاليس: “مع استمرار تحسن النماذج أكثر فأكثر، نعتقد أن الناس سيحتاجون إلى المزيد من المساعدة”.

هذه التقنية الجديدة هي واحدة من العديد من التقنيات التي يتم تطويرها الآن لتحسين نماذج اللغة الكبيرة واستخلاص المزيد من القدرات منها. وهو أيضًا جزء من الجهود المبذولة لضمان تصرف الذكاء الاصطناعي بطرق مقبولة حتى عندما يصبح أكثر قدرة.

في وقت سابق من هذا الشهر، أعلنت شركة Anthropic، المنافسة لـ OpenAI التي أسسها موظفون سابقون في OpenAI، عن إصدار أكثر قدرة من برنامج الدردشة الآلي الخاص بها، يسمى Claude، وذلك بفضل التحسينات في نظام تدريب النموذج والبيانات التي يتم تغذيتها. كما روجت كل من Anthropic وOpenAI مؤخرًا لطرق جديدة لفحص نماذج الذكاء الاصطناعي لفهم كيفية وصولها إلى مخرجاتها من أجل منع السلوك غير المرغوب فيه بشكل أفضل مثل الخداع.

قد تساعد التقنية الجديدة OpenAI على تدريب نماذج ذكاء اصطناعي قوية بشكل متزايد مع ضمان أن تكون مخرجاتها أكثر جدارة بالثقة ومتوافقة مع القيم الإنسانية، خاصة إذا نجحت الشركة في نشرها في مجالات أكثر من التعليمات البرمجية. قالت شركة OpenAI إنها تقوم بتدريب نموذجها الرئيسي التالي للذكاء الاصطناعي، ومن الواضح أن الشركة حريصة على إظهار جديتها في ضمان حسن سلوكها. ويأتي ذلك بعد حل فريق بارز مخصص لتقييم المخاطر طويلة المدى التي يشكلها الذكاء الاصطناعي. شارك في قيادة الفريق إيليا سوتسكيفر، أحد مؤسسي الشركة وعضو مجلس الإدارة السابق الذي دفع الرئيس التنفيذي سام ألتمان لفترة وجيزة إلى الخروج من الشركة قبل التراجع ومساعدته على استعادة السيطرة. ومنذ ذلك الحين، انتقد العديد من أعضاء هذا الفريق الشركة بسبب تحركها بشكل محفوف بالمخاطر أثناء اندفاعها لتطوير وتسويق خوارزميات الذكاء الاصطناعي القوية.

يقول ديلان هادفيلد مينيل، الأستاذ في معهد ماساتشوستس للتكنولوجيا الذي يبحث في طرق مواءمة الذكاء الاصطناعي، إن فكرة وجود نماذج ذكاء اصطناعي تساعد في تدريب نماذج أكثر قوة كانت مطروحة منذ فترة. ويقول: “هذا تطور طبيعي جدًا”.

يشير هادفيلد-مينيل إلى أن الباحثين الذين طوروا في الأصل التقنيات المستخدمة في RLHF ناقشوا الأفكار ذات الصلة منذ عدة سنوات. ويقول إنه يبقى أن نرى مدى قابليتها للتطبيق وقوتها بشكل عام. ويقول: “قد يؤدي ذلك إلى قفزات كبيرة في القدرات الفردية، وقد يكون بمثابة نقطة انطلاق نحو نوع من ردود الفعل الأكثر فعالية على المدى الطويل”.