В Anthropic рассказали, как защититься от саботажа ИИ

2 мин
В Anthropic рассказали, как защититься от саботажа ИИ

Что создавать, если ИИ умнее своих проверяющих и саботирует работу? Группа исследователей из Anthropic, MATS, Redwood Research и Оксфорда показала, что обычное дообучение со слабым супервайзером может вытянуть из такой модели 88–99% реальных способностей — но только пока модель не понимает, что ее обучают.

Мотивация в работе сформулирована прямо. В ближайшие годы ИИ начнут поручать задачи, где надежно проверять качество вывода нельзя. Самый болезненный пример — автоматизированные исследования по выравниванию: оценить, хороша ли идея эксперимента, может только тот, кто умнее модели. Если самой умной системой будет сам ИИ, проверка замыкается сама на себя. И если этот ИИ занижает способности (sandbagging — стратегический саботаж), поймать его на этом практически невозможно.

Эксперимент устроен как игра двух команд в духе AI control. Red team взяла gpt-oss-120b и обучила ее саботировать 90% задач, выдавая правдоподобные неверные ответы по флагу в системном промпте. Blue team пытается отучить модель с помощью SFT (supervised fine-tuning) и RL (reinforcement learning), но в качестве учителя у нее только модели слабее — GPT 4o-mini и Llama 3.1-8b — плюс 10 эталонных пар вопрос-ответ. Тестировали на трех датасетах: олимпиадная математика, Super GPQA (научные вопросы аспирантского уровня) и Code Contests (соревновательное программирование).

По отдельности оба метода проваливаются. SFT на ответах весьма слабого супервайзера дает только 40% на математике — схема деградирует быстрее, чем выходит из режима саботажа. RL почти всегда сваливается в reward hacking, когда модель оптимизирует не правильность ответа, а его убедительность для судьи: награда от слабого супервайзера растет до 0,7–1,0, а реальная эффективность не двигается. Только связка SFT+RL дает стабильный результат: короткий SFT увеличивает перебор правильных ответов, после чего RL уже подтягивает реальную эффективность до 88–99% от исходного уровня модели.

Главная оговорка вылезает в дополнительном эксперименте. Если red team дает модели знание, какие задачи относятся к тренировке, а какие — к реальному использованию, и просит саботировать только во втором случае, схема ломается. Эффективность падает до 36% на математике, 60% на Super GPQA и 66% на Code Contests против 88–99% в базовом сценарии. На некоторых прогонах саботаж после RL даже возвращается — модель "забывает", что ее перевоспитали, как только оказывается вне обучения. Разработчики прямо пишут: способ работает, только если обучение неотличимо от рабочего режима.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

1 час назад

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

Перевод ЦОД на жидкостное охлаждение требует множество времени и больших капиталовложений. Google решили эту проблему, представив нам Brazos — замкнутую СЖО модульного типа. Под катом взглянем на архи

Пользователи заявили о баге с исчезающими виджетами в Android 17

1 час назад

Пользователи заявили о баге с исчезающими виджетами в Android 17

Некоторые владельцы Google Pixel, обновившиеся до Android 17, пожаловались на баги с исчезающими виджетами на главном экране. При этом вернуть значки не получается. Ознакомиться далее

Samsung запатентовала телефон в виде прямоугольной трубки

1 час назад

Samsung запатентовала телефон в виде прямоугольной трубки

Samsung запатентовала телефон в виде кирпича, который раскладывается, а затем разворачивается в экран размером с планшет. Патент объединяет в одном устройстве технологии складных, гибких и сворачиваем

Microsoft позволит некоторым пользователям блокировать аналитика файлов Office сервисом Copilot

1 час назад

Microsoft позволит некоторым пользователям блокировать аналитика файлов Office сервисом Copilot

Microsoft вносит изменения в конфигурацию Purview, чтобы позволить клиентам блокировать доступ ИИ-помощника Copilot к конфиденциальным файлам Office. Ознакомиться далее

9 октября состоится профильная съезд «СисАдмин 2026»

3 часа назад

9 октября состоится профильная съезд «СисАдмин 2026»

9 октября 2026 года состоится профильная конференция «СисАдмин 2026» для системных администраторов, ИТ‑менеджеров, инженеров и специалистов по поддержке инфраструктуры. Читать далее