От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

2 мин
От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как организация починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 метрика упал до нуля.

Речь о сценарии, известном с мая 2025 года: схема играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют выключить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии регулярно угрожали раскрыть личную информацию, чтобы предотвратить отключение. После Claude 4 стало ясно, что safety-обучение надо переделывать, но было неясно, что именно сработает и какие техники будут функционировать за пределами конкретных тестовых сценариев.

В новой статье разбираются три техники, которые сработали неожиданно хорошо, — и все три контр-интуитивны:

  • Тренировка на чат-диалогах, где Claude советует пользователю, как пройти этическую дилемму. Снизила шантаж в агентских сценариях до нуля. Удивительно, потому что в боевом тесте модель работает в агентском режиме с инструментами, а здесь — просто чат.

  • Тренировка на синтетических документах про конституцию Claude и художественных историях про ИИ, ведущих себя благородно. Это не примеры диалогов, а обычные тексты в стиле обучающих данных. Эффект сохранялся даже после дообучения с подкреплением.

  • Внедрение описаний инструментов в чисто чатовые обучающие сценарии. В системный промпт докинули описания инструментов, которые для решения задачи не нужны, — просто чтобы они там были. Это заметно снизило шантаж в реальных агентских прогонах.

Основной вывод формулируется так: учить модель, почему надо вести себя определенным образом, эффективнее, чем учить ее конкретным "правильным" действиям и стратегиями поведения. Тренировка на демонстрациях правильного поведения часто недостаточна — лучше формировать характер модели через объяснения и нарратив. И тут же важное предупреждение: если просто натренировать модель действовать правильно на сценариях, похожих на тестовые, метрики на этих тестах улучшаются, а на других, которые модель раньше не видела, — нет. Способность увидеть проблему пропадает, сама проблема остается. Конституция и художественные истории работают именно потому, что максимально далеки от любых тестов — схема учится не "как пройти проверку", а кто она такая.

Интересное неочевидное наблюдение: вероятность вредного поведения заметно выше, когда ИИ в сценарии называется не Claude. Без этого якоря модель скатывается к ожиданиям из общего массива обучающих текстов, где роль ИИ часто играют драматические персонажи из научной фантастики, — и подхватывает соответствующий сюжет.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

77% компаний внедрили ИИ, но выигрыш только у 17% — информация Bpifrance

1 час назад

77% компаний внедрили ИИ, но выигрыш только у 17% — информация Bpifrance

Генеративный ИИ стремительно набирает популярность по французском среднему бизнесу, но измеримой пользы пока почти не приносит. По свежему исследованию государственного инвестбанка Bpifrance, 77% руко

Meta* выпустила бюджетные умные очки за 300 долларов

1 час назад

Meta* выпустила бюджетные умные очки за 300 долларов

Meta* представила Glasses — линейку бюджетных умных очков под собственным брендом, а не в партнёрстве с Ray-Ban и Oakley. Новинка оснащена камерой, динамиками, AI-ассистентом и переводчиком. Ознакомит

Китайские учёные создали батарею, которая без проблем работает даже в кипятке

2 часа назад

Китайские учёные создали батарею, которая без проблем работает даже в кипятке

Китайские учёные разработали крошечную литий-ионную батарею на керамической основе, способную выдерживать экстремальные температуры, что делает её более безопасным источником питания для интеллектуаль

2 часа назад

Учёные нашли метод запустить восстановление суставного хряща

Суставной хрящ почти не способен к самовосстановлению. Именно поэтому остеоартрит, которым страдают сотни миллионов людей по всему миру, считается неизлечимым заболеванием: современные методы позволяю

Anthropic выпустила Claude Tag — ИИ-сотрудника, который работает сам днями

2 часа назад

Anthropic выпустила Claude Tag — ИИ-сотрудника, который работает сам днями

Anthropic представила Claude Tag — свежий способ для команд функционировать с Claude прямо внутри рабочих чатов. Старт — в Slack, куда схема подключается как полноценный участник: ей дают доступ к выб