Gemma 4 стала быстрее в 3 раза без потери качества

1 мин
Gemma 4 стала быстрее в 3 раза без потери качества

Google открыла веса вспомогательных моделей для всей линейки Gemma 4 — E2B, E4B, 26B MoE и 31B Dense. Они доступны на Hugging Face и Kaggle под Apache 2.0 и уже работают с transformers, MLX, vLLM, SGLang и Ollama.

Стандартная генерация токенов устроена неэффективно: чип большую часть времени тратит не на вычисления, а на перекачку весов модели из памяти. В связи с этого даже мощные GPU простаивают, пока генерируется один токен.

Speculative decoding решает это следующим образом: маленькая вспомогательная схема (drafter) набрасывает некоторое количество следующих токенов сразу, а основная проверяет их за один проход. Если согласна — принимает всю последовательность плюс добавляет свой токен. Один проход главный модели даёт некоторое количество токенов вместо одного.

По замерам на LiteRT-LM, MLX, Hugging Face Transformers и vLLM — прирост до 3x. Gemma 4 26B на NVIDIA RTX PRO 6000 с drafter'ом генерирует вдвое быстрее при том же качестве вывода — верификацию по-прежнему делает основная схема.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся практическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

Представлена языковая схема с линейной сложностью вычислений и контекстом до 12 млн токенов

13 минут назад

Представлена языковая схема с линейной сложностью вычислений и контекстом до 12 млн токенов

Стартап-компания Subquadratic представил SubQ 1M-Preview — первую языковую модель с линейной сложностью вычислений по сравнению с длины контекста. Заявлены контекст до 12 млн токенов, скорость в 52 ра

15 минут назад

Совет директоров «Яндекса» одобрил обратный выкуп акций на 50 млрд рублей. Приложение рассчитана на два года

Совет директоров «Яндекса» одобрил программу обратного выкупа акций на общую сумму до 50 млрд рублей. Выкуп будет проводиться через подконтрольную компанию ООО «ЯНТЕХ» на торгах Московской биржи. Чита

PayPal станет позиционировать себя как технологическую компанию с ИИ

29 минут назад

PayPal станет позиционировать себя как технологическую компанию с ИИ

Несмотря на падение акций и надвигающиеся сокращения, генеральный директор PayPal Энрике Лорес объявил инвесторам, что компании необходимо «вновь сосредоточиться на фундаментальных принципах», в том ч

Apple согласилась выплатить владельцам iPhone $250 млн за введение в заблуждение по поводу Apple Intelligence

35 минут назад

Apple согласилась выплатить владельцам iPhone $250 млн за введение в заблуждение по поводу Apple Intelligence

Apple согласилась выплатить $250 млн владельцам iPhone для урегулирования иска, в котором компанию обвинили во введении клиентов в заблуждение по сравнению с доступности функций Apple Intelligence. Пр

Instagram** отключит сквозное шифрование личных сообщений с 8 мая 2026 года

39 минут назад

Instagram** отключит сквозное шифрование личных сообщений с 8 мая 2026 года

Instagram** уберёт поддержку сквозного шифрования в личных переписках — с 8 мая 2026 года Meta* получит потенциальную функция читать содержимое сообщений между пользователями платформы, пишет MacRumor