7 марта 2026, 13:46

ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid

2 мин

Некоммерческий исследовательский институт Ai2 (Allen Institute for AI) выпустил Olmo Hybrid — языковую модель на 7 млрд параметров, которая в контролируемом эксперименте показала двукратное преимущество по эффективности обучения перед классическим трансформером. На бенчмарке MMLU модель достигает той же точности, что и трансформер Olmo 3, используя на 49% меньше токенов обучающей выборки. Все веса, исходник, промежуточные чекпоинты и технический отчет опубликованы под лицензией Apache 2.0.

Суть архитектуры — в замене 75% слоев внимания на слои Gated DeltaNet, актуальный вариант линейной рекуррентной сети. Трансформер хорошо извлекает конкретные факты из контекста, но плохо отслеживает изменяющееся состояние — например, позицию фигур на шахматной доске после серии ходов. Рекуррентные слои, наоборот, хранят сжатое "состояние" последовательности и обновляют его с каждым токеном. Гибрид берет лучшее от обеих архитектур: каждый четвертый слой остается трансформерным для точного извлечения информации, а остальные три — рекуррентные для эффективного отслеживания контекста. Эксперименты по скейлингу уже подтвердили, что преимущество сохраняется при увеличении размера модели и объёма вычислений.

Модель обучалась на 6 трлн токенов на кластере из 512 GPU Nvidia Blackwell. Помимо эффективности обучения, Olmo Hybrid показывает на 75% лучший throughput и потребление памяти при инференсе на длинных контекстах — прямое следствие линейного (а не квадратичного) масштабирования рекуррентных слоев. Впрочем, при пост-обучении результаты оказались неоднозначными: схема выиграла у Olmo 3 на задачах знаний, но проиграла на задачах длинных рассуждений. Натан Ламберт из Ai2 признал, что рецепты пост-обучения, отлаженные для трансформеров, не переносятся на гибриды автоматически.

Olmo Hybrid — не единичный эксперимент, а часть нарастающего тренда. Kimi Linear, Nvidia Nemotron-H и IBM Granite 4 — все перешли на гибридные архитектуры в последние месяцы. Разница в том, что Ai2 — единственные, кто выложил не только веса, но и весь стек: данные, исходник обучения, промежуточные чекпоинты и подробный теоретический отчет. Для исследователей, которые хотят понять, почему гибриды работают (а не просто применять чужую схема), это пока лучший доступный артефакт.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Olmo Hybrid

Читают сейчас

5 часов назад

Forbes: цифровой оператор «Сбербанк‑Телеком» протестировал работу в режиме мультисети

Оператор связи «Сбербанк‑Телеком» стал обладателем технологии мультисети, пишет Forbes со ссылкой на собеседника, близкого к компании. По его словам, уже прошло тестирование работы в этом режиме. Пред

6 часов назад

Учёные: современная жизнь толкает человеческий разум к пределам возможностей

В новой статье, опубликованной в журнале Behavioral Sciences, социологи из сингапурских научных учреждений проанализировали предыдущие исследования и теории, чтобы сформулировать следующий вывод: стре

6 часов назад

ЕС выписал AliExpress рекордный штраф в размере €550 млн за торговлю нелегальными товарами на платформе

Европейская комиссия выписала китайскому маркетплейсу AliExpress штраф в размере €550 млн за неспособность предотвратить продажу на платформе нелегальные товары, включая вредную одежду, косметику и ку

6 часов назад

Исследование: Claude Code отправляет в 4,7 раза больше служебных токенов, чем OpenCode

Организация Systima сравнила объём служебных данных, которые Claude Code и OpenCode передают языковой модели наряду с пользовательским запросом. Решение от Anthropic использует в 4,7 раза больше токен

6 часов назад

Ответ на Kimi K3: зачем Alibaba выкатила 2,4-триллионную Qwen3.8

На конференции WAIC в Шанхае Alibaba представила Qwen3.8 — новую мультимодальную модель на 2,4 трлн параметров. По заявлению компании, архитектура уступает по производительности только Claude Fable 5,