7 марта 2026, 13:46
ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid


Некоммерческий исследовательский институт Ai2 (Allen Institute for AI) выпустил Olmo Hybrid — языковую модель на 7 млрд параметров, которая в контролируемом эксперименте показала двукратное преимущество по эффективности обучения перед классическим трансформером. На бенчмарке MMLU модель достигает той же точности, что и трансформер Olmo 3, используя на 49% меньше токенов обучающей выборки. Все веса, исходник, промежуточные чекпоинты и технический отчет опубликованы под лицензией Apache 2.0.
Суть архитектуры — в замене 75% слоев внимания на слои Gated DeltaNet, актуальный вариант линейной рекуррентной сети. Трансформер хорошо извлекает конкретные факты из контекста, но плохо отслеживает изменяющееся состояние — например, позицию фигур на шахматной доске после серии ходов. Рекуррентные слои, наоборот, хранят сжатое "состояние" последовательности и обновляют его с каждым токеном. Гибрид берет лучшее от обеих архитектур: каждый четвертый слой остается трансформерным для точного извлечения информации, а остальные три — рекуррентные для эффективного отслеживания контекста. Эксперименты по скейлингу уже подтвердили, что преимущество сохраняется при увеличении размера модели и объёма вычислений.
Модель обучалась на 6 трлн токенов на кластере из 512 GPU Nvidia Blackwell. Помимо эффективности обучения, Olmo Hybrid показывает на 75% лучший throughput и потребление памяти при инференсе на длинных контекстах — прямое следствие линейного (а не квадратичного) масштабирования рекуррентных слоев. Впрочем, при пост-обучении результаты оказались неоднозначными: схема выиграла у Olmo 3 на задачах знаний, но проиграла на задачах длинных рассуждений. Натан Ламберт из Ai2 признал, что рецепты пост-обучения, отлаженные для трансформеров, не переносятся на гибриды автоматически.
Olmo Hybrid — не единичный эксперимент, а часть нарастающего тренда. Kimi Linear, Nvidia Nemotron-H и IBM Granite 4 — все перешли на гибридные архитектуры в последние месяцы. Разница в том, что Ai2 — единственные, кто выложил не только веса, но и весь стек: данные, исходник обучения, промежуточные чекпоинты и подробный теоретический отчет. Для исследователей, которые хотят понять, почему гибриды работают (а не просто применять чужую схема), это пока лучший доступный артефакт.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

34 минуты назад
Наплыв музыки, сгенерированной ИИ, меняет решение стриминговых платформ к обработке новых загрузок
Сервис потоковой передачи музыки Deezer сообщает, что 44 процента всех песен, загружаемых на его платформу ежедневно, теперь целиком генерируются ИИ. Организация использует собственную технологию обна
1 час назад
Мошенники научились применять уязвимости в системе автоматического определения авторских прав на YouTube
Мошенники разработали новую стратегию, которая использует уязвимости в системе автоматического определения авторских прав на YouTube. Блогер Nubzombie рассказал, что получил два предупреждения за роли

1 час назад
Вебинар «Новинки ITSM 365: больше удобства, больше возможностей. Весенний выпуск ‘26»
Приглашаем на релизный вебинар! В очередном обновлении мы улучшили дизайн интерфейса, чтобы упростить работу в системе, и добавили две долгожданных интеграции — с мессенджером и системой для онлайн-ко

2 часа назад
TechRadar для Java-разработчиков возвращается
77% разработчиков используют Spring Boot 3, Cursor — всего у 2%, а средняя желаемая зарплата — 500 000 ₽ в месяц. Это были цифры за прошлый год. Сейчас картина уже другая: появились новые IDE, в повсе

2 часа назад
Еще больше разговоров об ИИ на KARPOV.CONF
28 апреля команда kаrpov.cоurses проведет бесплатную онлайн-конференцию KARPOV.CONF. Это целый день про ИИ и то, как эффективно внедрять его в бизнес. О том, как принять участие, можно узнать у органи