29 апреля 2026, 09:18

«Агент не может ждать секунды»: NVIDIA представила открытую omni-модель Nemotron 3 Nano

2 мин

NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет работу с видео, аудио, изображениями и текстом в одной архитектуре. По заявлению компании, ее пропускная способность в 9 раз выше, чем у других открытых omni-моделей при той же интерактивности, а предназначена она прежде всего для агентных систем. Модель доступна на Hugging Face, OpenRouter и build.nvidia.com (в виде NIM-микросервиса), а равным образом на fal.ai.

В основе — гибридная схема Mamba-Transformer с MoE-архитектурой ("смесь экспертов"): из 30 млрд параметров активны только приблизительно 3 млрд, модель подключает нужного эксперта под конкретную задачу и модальность. Контекст — до 256 тысяч токенов, чего хватает для длинных агентных циклов и работы с видео или несколькими документами без дробления на фрагменты. Поддерживаются квантование FP8 и NVFP4, движки vLLM и TensorRT-LLM; есть оптимизация под архитектуры Ampere, Hopper и Blackwell.

Основной аргумент NVIDIA — агентные системы сегодня собирают стек восприятия из отдельных компонентов: одна модель для зрения, другая для звука, третья для текста. Это дает лишние вычислительные шаги, усложняет оркестрацию и повышает стоимость. Omni сводит весь этот конвейер в одну схема. "Чтобы строить полезных агентов, нельзя ждать секунды, пока модель интерпретирует экран", — комментирует глава H Company Готье Клуа, чьи агенты на Omni научились разбирать запись экрана в Full HD в реальном времени. На графиках NVIDIA видно, что относительно предыдущей Nemotron Nano VL V2 у Omni равным образом выросла точность на ряде отраслевых мультимодальных бенчмарков.

Omni позиционируется не как самостоятельная флагманская модель, а как субагент восприятия в составе более крупных агентных архитектур — рядом с Nemotron 3 Super (быстрое исполнение) и Nemotron 3 Ultra (сложное планирование). Это укладывается в общую идею NVIDIA: модульные системы, где специализированные модели делят между собой задачи, а не одна универсальная. Если заявленный 9-кратный выигрыш по пропускной способности подтвердится в реальных нагрузках, у разработчиков открытых агентов появится сильный аргумент против стека из отдельных моделей восприятия.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

NVIDIA Nemotron Nemotron 3 Nano Omni

Читают сейчас

1 час назад

Reddit вслед за Old Reddit стартовал показывать всплывающие окна с просьбой авторизоваться

Пользователи, которые пытаются посмотреть контент на Reddit по адресу www.reddit.com без авторизации, сообщают о появлении всплывающих окон с просьбой войти в аккаунт. Окно предлагает «присоединиться

2 часа назад

«Базальт СПО» представила технические образы ОС «Альт Рабочая станция» и «Альт Хост» для архитектуры LoongArch

«Базальт СПО» продолжает развивать поддержку альтернативных аппаратных архитектур. Компания выпустила предварительные технические образы операционных систем «Альт Рабочая станция» и «Альт Хост» для ар

2 часа назад

Организация «Газинформсервис» первой локализовала MITRE ATT&CK v18 для русскоязычной аудитории

Компания «Газинформсервис» перевела и адаптировала матрицу MITRE ATT&CK версии 18 для моделирования угроз и практических сценариев защиты с помощью собственных продуктов и решений. Ознакомиться далее

2 часа назад

Публичный микро для техно‑практиков: приглашаем докладчиков на Импульс Т1 2026 в ноябре

Мы стартовали принимать заявки на участие в деловой программе ежегодной технологической конференции Импульс Т1. В этом году мероприятие пройдёт в пятый раз 19 ноября. Подать заявку на выступление в де

2 часа назад

Исследование: ИИ по‑прежнему не способен справиться со сложными задачами в большинстве профессий

Передовые инструменты ИИ всех типов и моделей по‑прежнему не могут выполнять подавляющее большинство рабочих задач на приемлемом уровне. К такому выводу пришли исследователи Калифорнийского университе