ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid

2 мин
ИИ, который обучается вдвое быстрее: Ai2 выложила в публичный доступ Olmo Hybrid

Некоммерческий исследовательский институт Ai2 (Allen Institute for AI) выпустил Olmo Hybrid — языковую модель на 7 млрд параметров, которая в контролируемом эксперименте показала двукратное преимущество по эффективности обучения перед классическим трансформером. На бенчмарке MMLU модель достигает той же точности, что и трансформер Olmo 3, используя на 49% меньше токенов обучающей выборки. Все веса, исходник, промежуточные чекпоинты и технический отчет опубликованы под лицензией Apache 2.0.

Суть архитектуры — в замене 75% слоев внимания на слои Gated DeltaNet, актуальный вариант линейной рекуррентной сети. Трансформер хорошо извлекает конкретные факты из контекста, но плохо отслеживает изменяющееся состояние — например, позицию фигур на шахматной доске после серии ходов. Рекуррентные слои, наоборот, хранят сжатое "состояние" последовательности и обновляют его с каждым токеном. Гибрид берет лучшее от обеих архитектур: каждый четвертый слой остается трансформерным для точного извлечения информации, а остальные три — рекуррентные для эффективного отслеживания контекста. Эксперименты по скейлингу уже подтвердили, что преимущество сохраняется при увеличении размера модели и объёма вычислений.

Модель обучалась на 6 трлн токенов на кластере из 512 GPU Nvidia Blackwell. Помимо эффективности обучения, Olmo Hybrid показывает на 75% лучший throughput и потребление памяти при инференсе на длинных контекстах — прямое следствие линейного (а не квадратичного) масштабирования рекуррентных слоев. Впрочем, при пост-обучении результаты оказались неоднозначными: схема выиграла у Olmo 3 на задачах знаний, но проиграла на задачах длинных рассуждений. Натан Ламберт из Ai2 признал, что рецепты пост-обучения, отлаженные для трансформеров, не переносятся на гибриды автоматически.

Olmo Hybrid — не единичный эксперимент, а часть нарастающего тренда. Kimi Linear, Nvidia Nemotron-H и IBM Granite 4 — все перешли на гибридные архитектуры в последние месяцы. Разница в том, что Ai2 — единственные, кто выложил не только веса, но и весь стек: данные, исходник обучения, промежуточные чекпоинты и подробный теоретический отчет. Для исследователей, которые хотят понять, почему гибриды работают (а не просто применять чужую схема), это пока лучший доступный артефакт.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Учёные обнаружили, что шмели могут применять инструменты для решения задач

57 минут назад

Учёные обнаружили, что шмели могут применять инструменты для решения задач

Шмелям предложили адаптированную версию эксперимента, который 100 лет назад впервые доказал, что шимпанзе способны понять, как достать высоко висящий банан, складывая ящики друг на друга. С тех пор к

Глава «Ростелекома»: из-за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android

2 часа назад

Глава «Ростелекома»: из-за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android

Глава «Ростелекома» Михаил Осеевский объявил, что из‑за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android или «Аврору». Читать далее

В SELECTOS устранили критическую уязвимость CVE-2026-49975

3 часа назад

В SELECTOS устранили критическую уязвимость CVE-2026-49975

В SELECTOS устранили критическую DoS-уязвимость CVE-2026-49975 в веб-серверах nginx и Apache. Она позволяла удаленно исчерпать всю память сервера за секунды — без аутентификации, в дефолтной конфигура

3 часа назад

На МКС астронавтам приказали перейти на корабль эвакуации в связи с утечки воздуха

Астронавтам на МКС приказано перейти в корабль и подготовиться к эвакуации в связи с ростом утечки воздуха в российском сегменте, говорит в пятницу агентство Рейтер со ссылкой на НАСА. «Астронавтам на

Вебинар «Переход с Microsoft Exchange на Почту VK WorkSpace: пошаговый план»

3 часа назад

Вебинар «Переход с Microsoft Exchange на Почту VK WorkSpace: пошаговый план»

16 июня в 11:00 К2Тех совместно с VK Tech проведет вебинар о переходе с Microsoft Exchange на почту VK WorkSpace. Поговорим о том, как подойти к миграции без лишнего стресса, что важно учесть на старт