24 мая 2026, 17:54

NVIDIA ускорила языковую схема в 4 раза: вышла Nemotron-Labs Diffusion

3 мин

NVIDIA выпустила открытое семейство языковых моделей Nemotron-Labs Diffusion — на флагманском GPU B200 они генерируют 865 токенов в секунду, в 4 раза быстрее обычной токен-за-токеном генерации на том же железе и без потери качества. Линейка включает модели на 3, 8 и 14 миллиардов параметров, плюс мультимодальный вариант на 8 миллиардов с поддержкой картинок.

Главная идея — режим, который в NVIDIA называют self-speculation (самоспекуляция). Обычно для ускорения языковых моделей используют связку из двух моделей: маленькая быстро накидывает некоторое количество токенов вперед как черновик, большая проверяет их одним проходом. Если угадала — экономия, если нет — переделка. В Nemotron-Labs Diffusion черновик и проверяющий — это одна и та же модель в разных режимах работы. Параллельно генерирует черновик из нескольких токенов в диффузионном режиме, затем сама же его верифицирует в обычном авторегрессионном режиме. Никакой отдельной маленькой модели не нужно.

Экономия берется из того, как работают GPU. При обычной генерации каждый новый токен — это цельный проход через всю модель с загрузкой всех весов из памяти, и большую часть времени GPU ждет память, а не полагает. В режиме self-speculation за один проход обрабатывается сразу 5-7 токенов в среднем. Главное: при детерминированной генерации (temperature 0) результат побитово совпадает с обычной авторегрессией. То есть это не приближение и не компромисс — это бесплатное ускорение без изменения ответа.

По цифрам Nemotron-Labs Diffusion 8B дает на 1,2% больше средней точности, чем Qwen3 8B. На бенчмарке SPEED-Bench схема работает в 2,4 раза быстрее, чем Qwen3 8B с Eagle3 — это один из самых сильных методов спекулятивного декодинга в индустрии. Среднее число принятых токенов за один проход у Nemotron-Labs Diffusion — 5,46 (без дообучения) и 6,82 (после тонкой настройки через LoRA), у Eagle3 — 2,75. На задачах программирования, математики, рассуждений и мультиязычности разрыв шире: 8,69 против 2,81.

Сам решение NVIDIA в теории применим и к другим современным языковым моделям — все они авторегрессионные, и способ из предыдущей работы компании Efficient-DLM описывает, как добавить к готовой AR-модели диффузионные возможности через дообучение и модификация механизма внимания, не переписывая ее с нуля. Но на практике это требует доступа к весам и инфраструктуре continued pretraining, поэтому быстрее всего эффект может проявиться в открытых семействах вроде Llama, Qwen или DeepSeek. Закрытые модели вроде Claude, GPT или Gemini смогут получить такое же ускорение только если сами Anthropic, OpenAI или Google сочтут подход работающим для своих архитектур и решат применить его.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

nvidia nemotron Nemotron-Labs Diffusion

Читают сейчас

1 час назад

В Китае начался суд в связи с смерти 32-летнего программиста, который, по заявлению семьи, умер после длительных переработок

В китайском Гуанчжоу началось судебное разбирательство по иску родственников 32-летнего программиста, который, как утверждают члены его семьи, умер в результате длительных переработок, сообщает China

3 часа назад

Вышел Grok 4.5 — схема доступна бесплатно в Cursor и Grok Build

SpaceXAI (так теперь называется xAI после слияния со SpaceX) открыла доступ к Grok 4.5. Схема стала вариантом по умолчанию в агенте Grok Build и появилась в Cursor на всех тарифах — там ее можно попро

3 часа назад

СМИ:«„Яндекс Маркет“ сокращает штат и бюджет»

«Яндекс Маркет» планирует сократить бюджет и штат. Об этом сообщило издание «Ведомости» со ссылкой на неназванные источники. По словам источников, сообщается о снижении бюджета с 14 млрд до 2 млрд руб

3 часа назад

Госдума приняла закон о поддержке Почты России сразу в двух чтениях

Госдума 8 июля 2026 года приняла закон о поддержке Почты России во втором и третьем чтениях. Документ закрепляет новые правила работы оператора и вводит электронную почтовую систему для доставки юриди

3 часа назад

Cursor выпустили Grok 4.5: флагман уровня Opus, обучали вместе со SpaceXAI

xAI называют её самой мощной моделью на сегодня и первой, которую строили не только под разработку софта. Модель уже доступна в Cursor и на первую неделю дают двойные лимиты использования. Отдельно ут