NVIDIA ускорила языковую схема в 4 раза: вышла Nemotron-Labs Diffusion

3 мин
NVIDIA ускорила языковую схема в 4 раза: вышла Nemotron-Labs Diffusion

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.

Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает некоторое количество токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.

Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это цельный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не полагает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.

По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench схема работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у Nemotron-Labs Diffusion — 5,46 (без дообучения) и 6,82 (после тонкой настройки через LoRA), у Eagle3 — 2,75. На задачах программирования, математики, рассуждений и мультиязычности разрыв шире: 8,69 против 2,81.

Сам решение NVIDIA в теории применим и к другим современным языковым моделям — все они авторегрессионные, и способ из предыдущей работы компании Efficient-DLM описывает, как добавить к готовой AR-модели диффузионные возможности через дообучение и модификация механизма внимания, не переписывая ее с нуля. Но на практике это требует доступа к весам и инфраструктуре continued pretraining, поэтому быстрее всего эффект может проявиться в открытых семействах вроде Llama, Qwen или DeepSeek. Закрытые модели вроде Claude, GPT или Gemini смогут получить такое же ускорение только если сами Anthropic, OpenAI или Google сочтут подход работающим для своих архитектур и решат применить его.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

2 часа назад

В России разработали механизмы для работы банкоматов без интернета

Минцифры РФ и операторы связи разработали механизмы, позволящие банкоматам и платёжным терминалам работать без мобильного интернета. Об этом заявила глава Центрального банка Эльвира Набиуллина на съез

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

3 часа назад

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

Завершился десятый сезон Всероссийской киберспортивной студенческой лиги «ГигаЧат». Команды высших и средних профессиональных учебных заведений со всей страны боролись за основной трофей и призовой фо

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

4 часа назад

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианна

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

5 часов назад

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

Эксперты из GitGuardian обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США (CISA). Публичный репозиторий под названием Private-CISA содержал 844 МБ данных, в

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

5 часов назад

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

"$1 млрд ARR за два года" — стандартный темп AI-эпохи. Cursor, Harvey, десятки других стартапов отчитываются о миллиардах годовой повторяющейся выручки (ARR) за два-три года с момента основания. Рассл