وصول نموذج Gemini Robotics AI Google إلى العالم المادي

في حكايات الخيال العلمي ، غالبًا ما يقوم الذكاء الاصطناعي بتشغيل جميع أنواع الروبوتات الذكية والقدرة والأحيان الواقعة. إن القيود الكشف عن أفضل الذكاء الاصطناعي اليوم هو أنه ، في الوقت الحالي ، لا يزال محاصرًا بشكل مباشر داخل نافذة الدردشة.
أشارت Google Deepmind إلى خطة لتغيير اليوم الذي يُفترض أنه ناقصه في الجزء القتل – من خلال الإعلان عن نسخة جديدة من Gemini من طراز AI النموذجي الذي يدمج اللغة والرؤية والعمل البدني معًا لتشغيل مجموعة من روبوتات أكثر قدرة وتكيفية وربما مفيدة.
في سلسلة من مقاطع الفيديو التوضيحية ، عرضت الشركة العديد من الروبوتات المجهزة بالنموذج الجديد ، تسمى Robotics Gemini ، معالجة العناصر رداً على الأوامر المنطوقة: ورق روبوت أذرع ، وتسليم الخضار ، وتوضع برفق زوج من النظارات في حالة ، واستكمال المهام الأخرى. تعتمد الروبوتات على النموذج الجديد لتوصيل العناصر المرئية بالإجراءات المحتملة من أجل القيام بما يقولونه. يتم تدريب النموذج بطريقة تسمح بتعميم السلوك عبر أجهزة مختلفة تمامًا.
أعلنت Google DeepMind أيضًا عن إصدار من نموذجه يسمى Gemini Robotics-ER (للتفكير المجسد) ، والذي يحتوي على فهم بصري ومكاني. تتمثل الفكرة في استخدام باحثو الروبوت الآخرين هذا النموذج لتدريب نماذجهم الخاصة للتحكم في تصرفات الروبوتات.
في عرض فيديو ، استخدم باحثو Google DeepMind النموذج للتحكم في روبوت بشري يسمى Apollo ، من بدء التشغيل AppTronik. يتحدث الروبوت مع الإنسان ويحرك الحروف حول الطاولة عند توجيه تعليمات إليه.
وقال كانيشكا راو ، باحث روبوتات في جوجل ديبميند الذي قاد العمل ، في مؤتمر سابق عن إعلان اليوم ، “لقد تمكنا من جلب التفاهم العالمي” الفهم العام “من الجوزاء 2.0 إلى الروبوتات”.
تقول Google DeepMind إن النموذج الجديد قادر على التحكم في روبوتات مختلفة بنجاح في مئات السيناريوهات المحددة التي لم يتم تضمينها سابقًا في تدريبهم. وقال راو: “إن نموذج الروبوت له فهم للمفهوم العام ، فإنه يصبح أكثر عمومية ومفيدة”.
أثارت الاختراقات التي أدت إلى وجود بوتس قوية ، بما في ذلك Openai’s ChatGpt و Google’s Gemini ، في السنوات الأخيرة أملًا في ثورة مماثلة في الروبوتات ، ولكن لا تزال هناك عقبات كبيرة.




