29 апреля 2026, 09:18
«Агент не может ждать секунды»: NVIDIA представила открытую omni-модель Nemotron 3 Nano

NVIDIA выпустила Nemotron 3 Nano Omni — открытую мультимодальную модель, которая объединяет работу с видео, аудио, изображениями и текстом в одной архитектуре. По заявлению компании, ее пропускная способность в 9 раз выше, чем у других открытых omni-моделей при той же интерактивности, а предназначена она прежде всего для агентных систем. Модель доступна на Hugging Face, OpenRouter и build.nvidia.com (в виде NIM-микросервиса), а равным образом на fal.ai.
В основе — гибридная схема Mamba-Transformer с MoE-архитектурой ("смесь экспертов"): из 30 млрд параметров активны только приблизительно 3 млрд, модель подключает нужного эксперта под конкретную задачу и модальность. Контекст — до 256 тысяч токенов, чего хватает для длинных агентных циклов и работы с видео или несколькими документами без дробления на фрагменты. Поддерживаются квантование FP8 и NVFP4, движки vLLM и TensorRT-LLM; есть оптимизация под архитектуры Ampere, Hopper и Blackwell.
Основной аргумент NVIDIA — агентные системы сегодня собирают стек восприятия из отдельных компонентов: одна модель для зрения, другая для звука, третья для текста. Это дает лишние вычислительные шаги, усложняет оркестрацию и повышает стоимость. Omni сводит весь этот конвейер в одну схема. "Чтобы строить полезных агентов, нельзя ждать секунды, пока модель интерпретирует экран", — комментирует глава H Company Готье Клуа, чьи агенты на Omni научились разбирать запись экрана в Full HD в реальном времени. На графиках NVIDIA видно, что относительно предыдущей Nemotron Nano VL V2 у Omni равным образом выросла точность на ряде отраслевых мультимодальных бенчмарков.
Omni позиционируется не как самостоятельная флагманская модель, а как субагент восприятия в составе более крупных агентных архитектур — рядом с Nemotron 3 Super (быстрое исполнение) и Nemotron 3 Ultra (сложное планирование). Это укладывается в общую идею NVIDIA: модульные системы, где специализированные модели делят между собой задачи, а не одна универсальная. Если заявленный 9-кратный выигрыш по пропускной способности подтвердится в реальных нагрузках, у разработчиков открытых агентов появится сильный аргумент против стека из отдельных моделей восприятия.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Луис Россманн пригрозил Samsung судом из-за «мошенничества с гарантией на SSD 990 Pro»
Активист и блогер Луис Россманн пригрозил судом Samsung, отказавшейся заменить вышедший из строя твердотельный накопитель Samsung 999 Pro, на который ещё распространялась гарантия. Ознакомиться далее

2 часа назад
Правительство США закрыло доступ к Claude Fable 5 неамериканцам — схема в результате отключили для всех
Компания Anthropic экстренно отключила доступ к своим самым мощным моделям — Claude Fable 5 и Mythos 5 — после того, как 12 июня получила от правительства США директиву экспортного контроля. Власти по
2 часа назад
Oracle предупредила корпоративных клиентов о критической уязвимости в PeopleSoft
Компания Oracle предупредила корпоративных клиентов о наличии критической уязвимости в программном обеспечении PeopleSoft, используемом для управления заработной платой и персоналом. Ознакомиться дале

3 часа назад
Windows Server получил поддержку DNS over HTTPS
Microsoft внедрила поддержку DNS over HTTPS (DoH) для Windows DNS Server. По сути, она обеспечивает зашифрованный DNS для сетей вместо передачи трафика в открытом виде. Ознакомиться далее

3 часа назад
AMD отказалась выплатить исследователю вознаграждение в размере $10 000
AMD отказала исследователю безопасности в вознаграждении в размере $10 000 за обнаруженную уязвимость, несмотря на его сотрудничество с компанией. Ознакомиться далее