2 часа назад

В Anthropic рассказали, как защититься от саботажа ИИ

2 мин

Что создавать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.

Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.

Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).

По отдельности оба метода проваливаются. SFT на ответах весьма слабого супервайзера дает только 40% на математике — схема деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная эффективность не двигается. Только связка SFT+RL дает стабильный результат: короткий SFT увеличивает перебор правильных ответов, после чего RL уже подтягивает реальную эффективность до 88–99% от исходного уровня модели.

Главная оговорка вылезает в дополнительном эксперименте. Если red team дает модели знание, какие задачи относятся к тренировке, а какие — к реальному использованию, и просит саботировать только во втором случае, схема ломается. Эффективность падает до 36% на математике, 60% на Super GPQA и 66% на Code Contests против 88–99% в базовом сценарии. На некоторых прогонах саботаж после RL даже возвращается — модель "забывает", что ее перевоспитали, как только оказывается вне обучения. Разработчики прямо пишут: способ работает, только если обучение неотличимо от рабочего режима.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

anthropic gpt-oss-120b gpt-oss

Читают сейчас

29 минут назад

В связи с нестабильности рынка и внедрения ИИ Coinbase уволит 14% штата — около 700 человек

Криптовалютная биржа Coinbase уволит 14% персонала или около 700 человек, предупредил соучредитель и генеральный директор компании Брайан Армстронг. Решение связано с сокращением расходов и переориент

1 час назад

Разбор Troywell VPN: как плагин превращается в перехватчик трафика и данных

VPN-расширения в браузере часто воспринимаются как несложный средство: включил кнопку — получил “защищённое соединение”. Troywell VPN как раз из этой категории: он бесплатный, быстро устанавливается и

2 часа назад

Браузер Microsoft Edge загружает все сохранённые пароли в хранилище в открытом виде — даже когда ими не пользуются

Исследователь в области кибербезопасности Том Йоран Сёнстебюсетер Рённинг выпустил инструмент EdgeSavedPasswordsDumper, демонстрирующий, как обрабатываются сохранённые пароли в Microsoft Edge. Оказало

2 часа назад

Выпуск Node.js 26

5 мая 2026 года состоялся релиз JavaScript‑платформы Node.js 26. Платформа Node.js может быть использована как для серверного сопровождения работы веб‑приложений, так и для создания обычных клиентских

4 часа назад

Amazon представила публичный инициатива среды для контролируемого выполнения скриптов REX (Trusted Remote Execution)

Amazon опубликовала открытый движок безопасного исполнения скриптов под названием REX (Trusted Remote Execution). Подход допускает только разрешённые для каждого конкретного скрипта операции. Например