Gemma 4 стала быстрее в 3 раза без потери качества

1 мин
Gemma 4 стала быстрее в 3 раза без потери качества

Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGLang и Ollama.

Стандартная генерация токенов устроена неэффективно: чип большую часть времени тратит не на вычисления, а на перекачку весов модели из памяти. В связи с этого даже мощные GPU простаивают, пока генерируется один токен.

Speculative decoding решает это следующим образом: маленькая вспомогательная схема (drafter) набрасывает некоторое количество следующих токенов сразу, а основная проверяет их за один проход. Если согласна — принимает всю последовательность плюс добавляет свой токен. Один проход главный модели даёт некоторое количество токенов вместо одного.

По замерам на LiteRT-LM, MLX, Hugging Face Transformers и vLLM — прирост до 3x. Gemma 4 26B на NVIDIA RTX PRO 6000 с drafter'ом генерирует вдвое быстрее при том же качестве вывода — верификацию по-прежнему делает основная схема.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

58 минут назад

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

Президент США Дональд Трамп больше не полагает Anthropic угрозой национальной безопасности. В интервью "The Axios Show", опубликованном 19 июня, на прямой вопрос, представляют ли угрозу сама компания

Вышла релиз Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

1 час назад

Вышла релиз Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

В середине июня 2026 года состоялся версия обновления проекта Glow 26.10. Это публичный инструмент для системного анализа и тестирования аппаратных и программных возможностей ПК на Windows 10/11. Исхо

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

2 часа назад

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

Перевод ЦОД на жидкостное охлаждение требует множество времени и больших капиталовложений. Google решили эту проблему, представив нам Brazos — замкнутую СЖО модульного типа. Под катом взглянем на архи

Пользователи заявили о баге с исчезающими виджетами в Android 17

3 часа назад

Пользователи заявили о баге с исчезающими виджетами в Android 17

Некоторые владельцы Google Pixel, обновившиеся до Android 17, пожаловались на баги с исчезающими виджетами на главном экране. При этом вернуть значки не получается. Ознакомиться далее

Samsung запатентовала телефон в виде прямоугольной трубки

3 часа назад

Samsung запатентовала телефон в виде прямоугольной трубки

Samsung запатентовала телефон в виде кирпича, который раскладывается, а затем разворачивается в экран размером с планшет. Патент объединяет в одном устройстве технологии складных, гибких и сворачиваем