Google выпустила DiffusionGemma — открытую языковую схема, которая генерирует текст как картинку

3 мин
Google выпустила DiffusionGemma — открытую языковую схема, которая генерирует текст как картинку

Google DeepMind представила DiffusionGemma — экспериментальную модель с открытыми весами, которая отказывается от классической авторегрессии в пользу дискретной диффузии. Вместо того чтобы выдавать токены по одному слева направо, схема работает как генераторы изображений: начинает со случайного "шума" из токенов-заглушек и за несколько проходов уточняет целый блок текста размером до 256 токенов сразу. Веса уже доступны на Hugging Face под лицензией Apache 2.0.

В основе лежит архитектура Gemma 4 26B A4B — модель со смесью экспертов на 26 миллиардов параметров, из которых при выводе активны лишь 3,8 миллиарда. Благодаря этому квантованная релиз умещается в 18 ГБ видеопамяти и запускается на потребительских видеокартах. Главный выигрыш — скорость: Google заявляет до 4 раз более быструю генерацию относительно обычными авторегрессионными моделями, свыше 700 токенов в секунду на GeForce RTX 5090 и более 1000 токенов в секунду на одном ускорителе H100. Дело в том, что при локальном запуске для одного пользователя классические модели упираются в пропускную способность памяти, а диффузионный подход смещает узкое место в сторону вычислений, которые у современных видеокарт в избытке.

Ключевой механизм Google называет Uniform State Diffusion: модель делает несколько проходов по "холсту" из случайных токенов, на каждом фиксирует позиции, в которых уверена, и использует их как контекст для соседних. Для длинных ответов применяется блочно-авторегрессионная модель: полностью "расшумленный" блок из 256 токенов записывается в KV-кеш, после чего модель начинает свежий холст с учетом всей предыдущей истории. Двунаправленное внимание внутри блока дает побочный эффект, недоступный обычным моделям, — самокоррекцию: DiffusionGemma "видит" весь фрагмент целиком и может исправлять ошибки на лету, а не дописывать текст к уже зафиксированным токенам.

Возможности такого подхода Google показывает на судоку — задаче с жесткими взаимными ограничениями, где авторегрессионные модели традиционно буксуют. Базовая DiffusionGemma решает примерно 0% головоломок, но после простого дообучения по официальному рецепту на JAX доля правильных решений вырастает до 80%, причем дообученная схема сходится за меньшее число шагов. При этом компания честно признает компромисс: по всем бенчмаркам DiffusionGemma уступает обычной Gemma 4 26B A4B, и для задач, где важно максимальное качество, Google рекомендует стандартную схема.

Схема мультимодальная — принимает текст, изображения и видео, выдает текст, поддерживает системный промпт и режим рассуждений. Сопровождение в Hugging Face Transformers, vLLM, SGLang, MLX и Unsloth заявлена с первого дня, развернуть ее можно в Vertex AI Model Garden или через NVIDIA NIM, а квантованные версии в формате GGUF уже доступны для llama.cpp. Это начальный по-настоящему практичный текстовый диффузионник с открытыми весами от крупной лаборатории: год назад Google показывала Gemini Diffusion только в закрытом исследовательском превью, теперь же технологию можно запустить у себя на видеокарте.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Как мы ускорили аналитика дискретных систем в миллион раз и что из этого получилось

1 час назад

Как мы ускорили аналитика дискретных систем в миллион раз и что из этого получилось

Представьте, что у вас есть система, которая может находиться в разных состояниях. Вот примеры из реальной жизни: Банк — состояние: обычный потребитель, оператор, администратор Автопилот БПЛА — состоя

Вышла релиз Glow 26.9 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

1 час назад

Вышла релиз Glow 26.9 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

В начале июня 2026 года состоялся версия обновления проекта Glow 26.9. Это публичный средство для системного анализа и тестирования аппаратных и программных возможностей ПК на Windows 10/11. Исходный

Выпуск Sigil 2.8.0 — открытого мультиплатформенного редактора электронных книг в формате ePub

1 час назад

Выпуск Sigil 2.8.0 — открытого мультиплатформенного редактора электронных книг в формате ePub

7 июня 2026 года состоялся релиз бесплатного с открытым исходным кодом мультиплатформенного редактора электронных книг Sigil 2.8.0, использующего Qt6 (и QtWebEngine). Проект предназначен для редактиро

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

8 часов назад

Глава Anthropic: ИИ нужно регулировать как авиацию — с правом блокировать модели

Гендиректор Anthropic Дарио Амодеи опубликовал эссе Policy on the AI Exponential, в котором призвал перейти к жесткому госрегулированию ИИ по образцу авиационной отрасли. Передовые модели, как самолет

9 часов назад

Определён состав российской школьной сборной на инженерно-космическую олимпиаду Global Future Space Scholars Meet

Сборная России примет участие в Международной инженерно-космической олимпиаде Global Future Space Scholars Meet в Китае. Состав школьной команды объявил президент Группы «Т-Технологии» Станислав Близн