11 июня 2026, 07:03

Google выпустила DiffusionGemma — открытую языковую схема, которая генерирует текст как картинку

3 мин

Google DeepMind представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от классической авторегрессии в пользу дискретной диффузии. Вместо того чтобы выдавать токены по одному слева направо, схема работает как генераторы изображений: начинает со случайного "шума" из токенов-заглушек и за несколько проходов уточняет целый блок текста размером до 256 токенов сразу. Веса уже доступны на Hugging Face под лицензией Apache 2.0.

В основе лежит архитектура Gemma 4 26B A4B — модель со смесью экспертов на 26 миллиардов параметров, из которых при выводе активны лишь 3,8 миллиарда. Благодаря этому квантованная релиз умещается в 18 ГБ видеопамяти и запускается на потребительских видеокартах. Главный выигрыш — скорость: Google заявляет до 4 раз более быструю генерацию относительно обычными авторегрессионными моделями, свыше 700 токенов в секунду на GeForce RTX 5090 и более 1000 токенов в секунду на одном ускорителе H100. Дело в том, что при локальном запуске для одного пользователя классические модели упираются в пропускную способность памяти, а диффузионный подход смещает узкое место в сторону вычислений, которые у современных видеокарт в избытке.

Ключевой механизм Google называет Uniform State Diffusion: модель делает несколько проходов по "холсту" из случайных токенов, на каждом фиксирует позиции, в которых уверена, и использует их как контекст для соседних. Для длинных ответов применяется блочно-авторегрессионная модель: полностью "расшумленный" блок из 256 токенов записывается в KV-кеш, после чего модель начинает свежий холст с учетом всей предыдущей истории. Двунаправленное внимание внутри блока дает побочный эффект, недоступный обычным моделям, — самокоррекцию: DiffusionGemma "видит" весь фрагмент целиком и может исправлять ошибки на лету, а не дописывать текст к уже зафиксированным токенам.

Возможности такого подхода Google показывает на судоку — задаче с жесткими взаимными ограничениями, где авторегрессионные модели традиционно буксуют. Базовая DiffusionGemma решает примерно 0% головоломок, но после простого дообучения по официальному рецепту на JAX доля правильных решений вырастает до 80%, причем дообученная схема сходится за меньшее число шагов. При этом компания честно признает компромисс: по всем бенчмаркам DiffusionGemma уступает обычной Gemma 4 26B A4B, и для задач, где важно максимальное качество, Google рекомендует стандартную схема.

Схема мультимодальная — принимает текст, изображения и видео, выдает текст, поддерживает системный промпт и режим рассуждений. Сопровождение в Hugging Face Transformers, vLLM, SGLang, MLX и Unsloth заявлена с первого дня, развернуть ее можно в Vertex AI Model Garden или через NVIDIA NIM, а квантованные версии в формате GGUF уже доступны для llama.cpp. Это начальный по-настоящему практичный текстовый диффузионник с открытыми весами от крупной лаборатории: год назад Google показывала Gemini Diffusion только в закрытом исследовательском превью, теперь же технологию можно запустить у себя на видеокарте.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

gemma 4 diffusiongemma

Читают сейчас

14 часов назад

Представлен публике публичный инициатива whatbroke для сравнения поведения ИИ-агента между двумя запусками

Состоялся выпуск открытого проекта whatbroke. Это инструмент командной строки для сравнения поведения ИИ‑агента между двумя запусками. Исходный исходник решения написан на языке TypeScript и опубликов

20 часов назад

SpaceX планирует отказаться от запуска спутников на ракете Falcon 9 после 2028 года и перейти на Starship

Космическая организация SpaceX начала отказывать операторам в заказах на запуск спутников на ракете Falcon 9 после 2028 года, пишет Bloomberg со ссылкой на источники. По их словам, организация Илона М

22 часа назад

Waymo рассматривает функция разрыва отношений с Uber

Waymo ищет метод расторгнуть сделку с Uber, в контексте которой роботакси первой компании стали доступны в американских городах Остин и Атланта, пишет Financial Times. Uber уже предупреждена о том, чт

23 часа назад

Instagram** начала блокировать видео с пранками, снятыми на умные очки Meta*

Социальная сеть Instagram** начала блокировать снятые с помощью смарт-очков Meta* видео, на которых запечатлены преследования незнакомцев в общественных местах. Речь идёт о пранках, домогательствах и

23 часа назад

В HashiCorp подвели итоги сделанного за квартал — «Корзина» для воркспейсов, дружба с монорепозиториями, политики

HashiCorp выкатила новый пакет обновлений для HCP Terraform и Terraform Enterprise. Основной фокус релиза — защита от человеческого фактора, падение стоимости вычислений и приведение прав доступа к ст