13 марта 2025, 12:35
Google DeepMind анонсировала Gemini Robotics — две новые модели искусственного интеллекта, которые позволят роботам лучше взаимодействовать с миром. На демонстрационных видео роботы выполняют голосовые команды: складывают оригами, кладут очки в футляр и забрасывают мяч в сетку без предварительного объяснения правил игры. Благодаря обучению на основе Gemini роботы понимают контекст, обобщают знания и адаптируются к новым задачам. Особое внимание уделено безопасности: устройства не только избегают столкновений, но и оценивают безопасность своих действий. Обе модели основаны на Google Gemini — мультимодальной системе, которая обрабатывает текст, голос и изображения, чтобы отвечать на вопросы и помогать пользователям. Первая модель, Gemini Robotics, способна не только анализировать данные, но и выдавать инструкции для физических действий робота. Хотя модели совместимы с любым оборудованием, их тестировали в основном на двухрукой системе Aloha 2, представленной DeepMind в прошлом году.Цифровой прорыв: как искусственный интеллект меняет медийную рекламу В демонстрационном видео голос командует: "Возьми баскетбольный мяч и сделай слэм-данк". Роботизированная рука аккуратно поднимает миниатюрный мяч и забрасывает его в сетку. По сути, робот никогда раньше не сталкивался с баскетболом, но его базовая модель понимала правила игры, знала, как выглядит сетка, и что означает "слэм-данк". Благодаря этому устройство смогло соединить концепции и выполнить задачу в реальном мире. Глава отдела робототехники Google DeepMind Каролина Парада отметила, что новые модели превосходят предыдущие в трех ключевых аспектах: обобщение, адаптивность и ловкость. Эти улучшения, по ее словам, необходимы для создания "нового поколения полезных роботов". Обобщение позволяет роботу применять изученные концепции в новых ситуациях. Исследователи тестировали визуальное обобщение (например, как робот реагирует на смену цвета объекта или фона), обобщение команд (понимание разных формулировок) и обобщение действий (выполнение задач, с которыми робот раньше не сталкивался). Роботы на базе Gemini лучше справляются с изменяющимися инструкциями и условиями. В одном из видео исследователь попросил манипулятор положить пластиковые виноградины в прозрачный контейнер, а затем начал перемещать три контейнера по столу, как в игре в напёрстки. Робот внимательно следил за нужным контейнером, пока не выполнил задачу. Что касается ловкости, роботизированные манипуляторы складывали оригами и выполняли другие деликатные задачи. Но таких результатов удалось достичь благодаря узкому набору высококачественных данных, на которых робот обучался для конкретных задач. Поэтому эти способности не переносятся на другие ситуации. Вторая представленная модель, Gemini Robotics-ER (embodied reasoning — "воплощенное рассуждение"), имитирует интуитивное понимание физического мира, которое люди приобретают с опытом. Мы можем, лишь взглянув на предмет, понять, как с ним взаимодействовать. DeepMind стремится научить этому ИИ. Например, Gemini Robotics-ER определяет ручку как оптимальную точку захвата кофейной чашки — подобно, как это делают люди. Но здесь есть нюанс: ориентация на "человеческие" данные может быть неэффективной. Для робота, особенно если он держит чашку с горячим кофе, тонкая ручка — менее надежный вариант, чем обхват самой чашки "пальцами". Ведь устройство, в отличие от человека, не обожжется. Разработчики применяют многоуровневый подход к безопасности роботов, сочетая традиционные меры (предотвращение столкновений и обеспечение устойчивости) с системами "семантической безопасности", которые оценивают инструкции и их последствия. В модели Gemini Robotics-ER эти системы особенно развиты — она может определять, безопасно ли выполнять действие в конкретной ситуации. DeepMind также выпустила новый набор данных и тест Asimov для проверки понимания базовых правил жизни. В тесте модели правильно ответили более чем на 80% вопросов, включая сценарии о смешивании отбеливателя с уксусом (что создает хлорный газ) и размещении мягкой игрушки на горячей плите. DeepMind и Apptronik в декабре заключили партнерство для разработки гуманоидных роботов на базе Gemini. Кроме того, DeepMind предоставила доступ к своим моделям группе доверенных тестировщиков, включая Agile Robots, Agility Robotics, Boston Dynamics и Enchanted Tools.