3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

2 мин
3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. Одновременно качество ответов модели не падает, а дообучение не требуется. Работу покажут на конференции ICLR 2026.

Когда языковая схема обрабатывает длинный текст, она сохраняет промежуточные информация в так называемом кэше "ключ-значение" (key-value cache). Чем длиннее контекст, тем больше памяти съедает этот кэш — и тем медленнее работает схема. TurboQuant решает проблему в два шага: сначала алгоритм PolarQuant переводит информация в полярные координаты и сжимает их основную часть, а затем однобитовый алгоритм QJL устраняет остаточные ошибки. Вместе они позволяют обойтись без дополнительных затрат памяти, которые обычно сопровождают квантизацию.

Авторы протестировали TurboQuant на открытых моделях Gemma и Mistral на стандартных бенчмарках для работы с длинным контекстом — LongBench, Needle In A Haystack, RULER и других. Результаты: объем кэша сокращается минимум в 6 раз, а вычисление механизма внимания ускоряется до 8 раз на GPU H100 (в 4-битном режиме по сравнению с 32-битным). На задачах поиска "иголки в стоге сена" — когда нужно найти один факт в огромном тексте — схема с TurboQuant отработала без ошибок.

Помимо языковых моделей, механизм применим и для векторного поиска — технологии, которая лежит в основе семантического поиска Google. TurboQuant показал лучшую точность по сравнению с существующими методами квантизации, при этом не требуя настройки под определённый набор данных.

Google подчёркивает, что TurboQuant — не просто инженерное решение, а фундаментальный алгоритмический результат с доказанной оптимальностью. По мере роста контекстных окон и масштабов поиска такие методы сжатия становятся критически важными для всей индустрии.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Huawei Atlas 350 — конкурент NVIDIA или нишевый продукт? Новости из Поднебесной

14 минут назад

Huawei Atlas 350 — конкурент NVIDIA или нишевый продукт? Новости из Поднебесной

Едва NVIDIA показали новую RTX Pro 4500 Blackwell Server Edition, как китайский вендор Huawei на мероприятии Huawei China Partner Conference показывает новинку — ускоритель Huawei Atlas 350. Об этой н

Windows 11 получит компактную панель задач подобно Windows 10

26 минут назад

Windows 11 получит компактную панель задач подобно Windows 10

Microsoft вернёт в Windows 11 компактную панель задач, похожую на Windows 10, с возможностью изменения размера. Читать далее

90% репозиториев с Claude Code имеют меньше 2 звезд. Это задача или новая норма?

39 минут назад

90% репозиториев с Claude Code имеют меньше 2 звезд. Это задача или новая норма?

Независимый дашборд claudescode.dev, отслеживающий все публичные коммиты с тегом Claude Code на GitHub, насчитал более 20 млн коммитов в 1,08 млн репозиториев за год с момента запуска инструмента. Но

Инициатива Минцифры об инвестициях IT-компаний в образование вызвал разногласия

40 минут назад

Инициатива Минцифры об инвестициях IT-компаний в образование вызвал разногласия

«Ъ» ознакомился с отзывами участников рынка на обновлённый инициатива приказа Минцифры, устанавливающий порядок взаимодействия IT‑компаний и образовательных организаций. Документ, опубликованный 20 фе

Sonova планирует продать подразделение Sennheiser по производству наушников

45 минут назад

Sonova планирует продать подразделение Sennheiser по производству наушников

Швейцарский производитель слуховых аппаратов Sonova планирует продать потребительское подразделение немецкой Sennheiser в рамках масштабной реструктуризации рыночной стратегии. Sonova намерена сосредо