Ai2 предложил метод обновлять навыки LLM по одному без полного переобучения

1 мин
Ai2 предложил метод обновлять навыки LLM по одному без полного переобучения

Институт Allen Institute for AI показал способ BAR — новый подход к посттрейну, который даёт возможность добавлять или улучшать отдельные навыки модели без полного ретрейна.

Суть в том, что модель разбивается на доменных «экспертов» (математика, код, tool use и т.д.), которые обучаются независимо, а затем объединяются в MoE-систему через обучаемый роутер.

Главное преимущество — отсутствие «разрушения» уже выученных навыков. Например:
обновление код-эксперта с помощью RL даёт +16.5 пункта к качеству программирования практически без влияния на другие области
внедрение RL к математическому эксперту даёт +13 пунктов

В классическом пайплайне любое усовершенствование требует переобучения всей модели, и стоимость растёт квадратично. В BAR обновление масштабируется линейно — меняется только необходимый адрес сайта.

Технически метод строится на поэтапном «размораживании» параметров:
на ранних стадиях общие веса заморожены
на этапе SFT частично открываются эмбеддинги и выходные слои
на RL-этапе размораживается вся схема, в том числе внимание.

После обучения эксперты объединяются:
общие параметры усредняются
роутер дообучается на маленький (около 5%) выборке

Итоговая схема BAR-5x7B на базе Olmo 2 7B показывает лучшие результаты, чем классическое монолитное дообучение и альтернативные MoE-подходы.

Читают сейчас

38 минут назад

СМИ: «Бельгийский суд арестовал имущество Google Belgium на 115 млн евро по иску российской компании»

Суд в Бельгии арестовал имущество компании Google Belgium на сумму 115 млн евро по заявлению российского ООО «Гугл». Российская организация добивается исполнения решения Арбитражного суда Москвы о взы

2 часа назад

Эксперты «Лаборатории Касперского» обнаружили новое ВПО Argamal, распространяемый под видом игр 18+

Эксперты «Лаборатории Касперского» весной 2026 года обнаружили новую вредоносную кампанию. Злоумышленники распространяли ранее неизвестный троянец удалённого доступа Argamal под видом игр для взрослых

Mythos все-таки стала инструментом для наступательных киберопераций США

3 часа назад

Mythos все-таки стала инструментом для наступательных киберопераций США

✔ Mythos все-таки стала инструментом для наступательных киберопераций США АНБ США начало применять модель Mythos для взлома зарубежных сетей, предположительно в Китае и Иране. Для адаптации системы по

3 часа назад

Шадаев: Минцифры ведёт переговоры с Apple по восстановлению MAX в App Store

Глава Минцифры РФ Максут Шадаев сообщил СМИ, что в ведомстве ведут переговоры с американской компанией Apple по восстановлению приложения мессенджера MAX в App Store. Читать далее

ИИ спроектировал вакцину от ковида и будущих пандемий — и она в начальный раз прошла испытание на людях

5 часов назад

ИИ спроектировал вакцину от ковида и будущих пандемий — и она в начальный раз прошла испытание на людях

Ученые из Кембриджского университета и компании DIOSynVax впервые испытали на людях вакцину, главную "рабочую" часть которой полностью спроектировал не человек, а искусственный интеллект. В испытании