ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid

2 мин
ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid

Некоммерческий исследовательский институт Ai2 (Allen Institute for AI) выпустил Olmo Hybrid — языковую модель на 7 млрд параметров, которая в контролируемом эксперименте показала двукратное преимущество по эффективности обучения перед классическим трансформером. На бенчмарке MMLU модель достигает той же точности, что и трансформер Olmo 3, используя на 49% меньше токенов обучающей выборки. Все веса, исходник, промежуточные чекпоинты и технический отчет опубликованы под лицензией Apache 2.0.

Суть архитектуры — в замене 75% слоев внимания на слои Gated DeltaNet, актуальный вариант линейной рекуррентной сети. Трансформер хорошо извлекает конкретные факты из контекста, но плохо отслеживает изменяющееся состояние — например, позицию фигур на шахматной доске после серии ходов. Рекуррентные слои, наоборот, хранят сжатое "состояние" последовательности и обновляют его с каждым токеном. Гибрид берет лучшее от обеих архитектур: каждый четвертый слой остается трансформерным для точного извлечения информации, а остальные три — рекуррентные для эффективного отслеживания контекста. Эксперименты по скейлингу уже подтвердили, что преимущество сохраняется при увеличении размера модели и объёма вычислений.

Модель обучалась на 6 трлн токенов на кластере из 512 GPU Nvidia Blackwell. Помимо эффективности обучения, Olmo Hybrid показывает на 75% лучший throughput и потребление памяти при инференсе на длинных контекстах — прямое следствие линейного (а не квадратичного) масштабирования рекуррентных слоев. Впрочем, при пост-обучении результаты оказались неоднозначными: схема выиграла у Olmo 3 на задачах знаний, но проиграла на задачах длинных рассуждений. Натан Ламберт из Ai2 признал, что рецепты пост-обучения, отлаженные для трансформеров, не переносятся на гибриды автоматически.

Olmo Hybrid — не единичный эксперимент, а часть нарастающего тренда. Kimi Linear, Nvidia Nemotron-H и IBM Granite 4 — все перешли на гибридные архитектуры в последние месяцы. Разница в том, что Ai2 — единственные, кто выложил не только веса, но и весь стек: данные, исходник обучения, промежуточные чекпоинты и подробный теоретический отчет. Для исследователей, которые хотят понять, почему гибриды работают (а не просто применять чужую схема), это пока лучший доступный артефакт.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

22 минуты назад

ERP‑системы для некоторых отраслей вошли в перечень объектов КИИ

Правительство России опубликовало распоряжение № 360-р. Документ утверждает единый перечень из 397 типовых отраслевых объектов критической информационной инфраструктуры. В перечень вошли ERP‑системы.

Вышли руководства Linux From Scratch 13.0 и Beyond Linux From Scratch 13.0

1 час назад

Вышли руководства Linux From Scratch 13.0 и Beyond Linux From Scratch 13.0

5 марта 2026 года вышли новые выпуски руководств Linux From Scratch 13.0 (LFS) и Beyond Linux From Scratch 13.0 (BLFS), причём в версиях только с системным менеджером systemd. Читать далее

1 час назад

СМИ: «„ИКС Холдинг“ создаёт единую стурктуру из своих кибербез‑активов „ИКС Защита“»

«ИКС Холдинг» намерен создать единую структуру по кибербезопасности под названием «ИКС Защита». В эту структуру войдут кибербез‑активы компании, включая «Гарда», «Бастион» и другие дочерние организаци

Вышел почтовый хост Postfix 3.11.0

2 часа назад

Вышел почтовый хост Postfix 3.11.0

5 марта 2026 года состоялся выпуск новой стабильной ветки почтового сервера Postfix 3.11.0. Также разработчики объявили о прекращении поддержки ветки Postfix 3.7 от 2021 года. Исходный исходник проект

Microsoft добавила редактор изображений в PowerPoint

2 часа назад

Microsoft добавила редактор изображений в PowerPoint

Microsoft добавила в PowerPoint функцию, которая позволит редактировать изображения в презентациях. Встроенный редактор упростит быструю обработку изображений без необходимости использования сторонних