1 час назад
3 бита хватит: Google ускорила работу LLM за счет сжатия кэша

Google Research представила TurboQuant — алгоритм, который сжимает внутренний кэш больших языковых моделей до 3 бит. Одновременно качество ответов модели не падает, а дообучение не требуется. Работу покажут на конференции ICLR 2026.
Когда языковая схема обрабатывает длинный текст, она сохраняет промежуточные информация в так называемом кэше "ключ-значение" (key-value cache). Чем длиннее контекст, тем больше памяти съедает этот кэш — и тем медленнее работает схема. TurboQuant решает проблему в два шага: сначала алгоритм PolarQuant переводит информация в полярные координаты и сжимает их основную часть, а затем однобитовый алгоритм QJL устраняет остаточные ошибки. Вместе они позволяют обойтись без дополнительных затрат памяти, которые обычно сопровождают квантизацию.
Авторы протестировали TurboQuant на открытых моделях Gemma и Mistral на стандартных бенчмарках для работы с длинным контекстом — LongBench, Needle In A Haystack, RULER и других. Результаты: объем кэша сокращается минимум в 6 раз, а вычисление механизма внимания ускоряется до 8 раз на GPU H100 (в 4-битном режиме по сравнению с 32-битным). На задачах поиска "иголки в стоге сена" — когда нужно найти один факт в огромном тексте — схема с TurboQuant отработала без ошибок.
Помимо языковых моделей, механизм применим и для векторного поиска — технологии, которая лежит в основе семантического поиска Google. TurboQuant показал лучшую точность по сравнению с существующими методами квантизации, при этом не требуя настройки под определённый набор данных.
Google подчёркивает, что TurboQuant — не просто инженерное решение, а фундаментальный алгоритмический результат с доказанной оптимальностью. По мере роста контекстных окон и масштабов поиска такие методы сжатия становятся критически важными для всей индустрии.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

14 минут назад
Huawei Atlas 350 — конкурент NVIDIA или нишевый продукт? Новости из Поднебесной
Едва NVIDIA показали новую RTX Pro 4500 Blackwell Server Edition, как китайский вендор Huawei на мероприятии Huawei China Partner Conference показывает новинку — ускоритель Huawei Atlas 350. Об этой н
26 минут назад
Windows 11 получит компактную панель задач подобно Windows 10
Microsoft вернёт в Windows 11 компактную панель задач, похожую на Windows 10, с возможностью изменения размера. Читать далее

39 минут назад
90% репозиториев с Claude Code имеют меньше 2 звезд. Это задача или новая норма?
Независимый дашборд claudescode.dev, отслеживающий все публичные коммиты с тегом Claude Code на GitHub, насчитал более 20 млн коммитов в 1,08 млн репозиториев за год с момента запуска инструмента. Но

40 минут назад
Инициатива Минцифры об инвестициях IT-компаний в образование вызвал разногласия
«Ъ» ознакомился с отзывами участников рынка на обновлённый инициатива приказа Минцифры, устанавливающий порядок взаимодействия IT‑компаний и образовательных организаций. Документ, опубликованный 20 фе

45 минут назад
Sonova планирует продать подразделение Sennheiser по производству наушников
Швейцарский производитель слуховых аппаратов Sonova планирует продать потребительское подразделение немецкой Sennheiser в рамках масштабной реструктуризации рыночной стратегии. Sonova намерена сосредо