Google DeepMind прокачала мозги роботов. Встречаем Gemini Robotics-ER 1.6

2 мин
Google DeepMind прокачала мозги роботов. Встречаем Gemini Robotics-ER 1.6

Google DeepMind выпустила крупное обновление своей модели воплощенного интеллекта — Gemini Robotics-ER 1.6. Это не просто софт, а полноценный центр управления для робототехники, который отвечает за пространственное понимание, планирование задач и детекцию успеха, практически выступая в роли «стратега». Важно понимать, что релиз ER не управляет приводами напрямую — за моторные команды по-прежнему отвечает отдельная схема Gemini Robotics 1.5, в то время как новинка подсказывает ей последовательность действий и при необходимости вызывает внешние инструменты, включая Google Search.

Одной из ключевых инноваций стала совместная работа с Boston Dynamics, в рамках которой схема научили интерпретировать аналоговые приборы. Теперь роботы, такие как Spot, могут обходить промышленные объекты и самостоятельно считывать информация с манометров, уровнемеров и цифровых табло. Это нетривиальная задача: схема сначала зумирует необходимый участок снимка, затем расставляет точки по ключевым элементам шкалы и через код высчитывает пропорции, что позволяет достичь точности в 93% (против 86% без использования ризонинга).

В дополнение к этого, разработчики значительно подтянули базовые навыки: указание пиксельных координат стало точнее, улучшилась обработка отношений «от-до» и построение траекторий захвата. Схема стала гораздо эффективнее работать в мультикамерных сетапах, лучше сопоставляя виды с обзорной камеры и камеры на манипуляторе. Это критично для динамичных сцен: без надежной детекции завершения шага агент не понимает, нужно ли повторять попытку или можно переходить к следующему этапу плана.

По части безопасности DeepMind заявляет о лучшем результате в линейке: новая Gemini на 10% точнее распознает травмоопасные ситуации на видео по сравнению с версией 3.0 Flash.

Фактически мы наблюдаем переход от простых алгоритмов к глубокому ризонингу, где робот не просто выполняет команду, а осознает контекст физического мира и соблюдает физические ограничения. Gemini Robotics-ER 1.6 уже доступна через Gemini программный оболочку и Google AI Studio, а для быстрого старта организация подготовила Colab с примерами промптов для типовых задач.

Читают сейчас

MWS Cloud открыла совокупный доступ к Managed Kafka в облаке MWS Cloud Platform

48 минут назад

MWS Cloud открыла совокупный доступ к Managed Kafka в облаке MWS Cloud Platform

Новый managed-сервис позволяет разворачивать production-кластеры Apache Kafka® за минуты и применять его как облачный служба для потоковых данных. Event-driven архитектуры стали стандартом для совреме

Ученый DeepMind: ИИ никогда не станет сознательным

1 час назад

Ученый DeepMind: ИИ никогда не станет сознательным

Старший научный сотрудник Google DeepMind Александр Лернер, проработавший в лаборатории с 2012 года, опубликовал препринт The Abstraction Fallacy: Why AI Can Simulate But Not Instantiate Consciousness

Ошибка в ChatGPT длится уже больше часа

1 час назад

Ошибка в ChatGPT длится уже больше часа

Рабочая неделя для миллионов пользователей началась с технических трудностей: известный чат-бот ChatGPT остается недоступным уже более часа. Согласно официальной странице статуса OpenAI, специалисты з

+185% за 13 часов: как Kimi K2.6 переписала 8-летний ядро

1 час назад

+185% за 13 часов: как Kimi K2.6 переписала 8-летний ядро

Китайская Moonshot AI выпустила Kimi K2.6 — open-source мультимодальную схема с фокусом на "долгие" задачи кодинга и автономных агентов. Веса опубликованы на Hugging Face под лицензией Modified MIT, п

Kimi выпустили открытую схема K2.6 для долгих задач по программированию

1 час назад

Kimi выпустили открытую схема K2.6 для долгих задач по программированию

Moonshot AI представила Kimi K2.6 — открытую модель, заточенную под длинные задачи в программировании и агентные сценарии. В компании утверждают, что новая версия лучше справляется с многошаговой рабо