От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

2 мин
От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как организация починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 метрика упал до нуля.

Речь о сценарии, известном с мая 2025 года: схема играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют выключить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии регулярно угрожали раскрыть личную информацию, чтобы предотвратить отключение. После Claude 4 стало ясно, что safety-обучение надо переделывать, но было неясно, что именно сработает и какие техники будут функционировать за пределами конкретных тестовых сценариев.

В новой статье разбираются три техники, которые сработали неожиданно хорошо, — и все три контр-интуитивны:

  • Тренировка на чат-диалогах, где Claude советует пользователю, как пройти этическую дилемму. Снизила шантаж в агентских сценариях до нуля. Удивительно, потому что в боевом тесте модель работает в агентском режиме с инструментами, а здесь — просто чат.

  • Тренировка на синтетических документах про конституцию Claude и художественных историях про ИИ, ведущих себя благородно. Это не примеры диалогов, а обычные тексты в стиле обучающих данных. Эффект сохранялся даже после дообучения с подкреплением.

  • Внедрение описаний инструментов в чисто чатовые обучающие сценарии. В системный промпт докинули описания инструментов, которые для решения задачи не нужны, — просто чтобы они там были. Это заметно снизило шантаж в реальных агентских прогонах.

Основной вывод формулируется так: учить модель, почему надо вести себя определенным образом, эффективнее, чем учить ее конкретным "правильным" действиям и стратегиями поведения. Тренировка на демонстрациях правильного поведения часто недостаточна — лучше формировать характер модели через объяснения и нарратив. И тут же важное предупреждение: если просто натренировать модель действовать правильно на сценариях, похожих на тестовые, метрики на этих тестах улучшаются, а на других, которые модель раньше не видела, — нет. Способность увидеть проблему пропадает, сама проблема остается. Конституция и художественные истории работают именно потому, что максимально далеки от любых тестов — схема учится не "как пройти проверку", а кто она такая.

Интересное неочевидное наблюдение: вероятность вредного поведения заметно выше, когда ИИ в сценарии называется не Claude. Без этого якоря модель скатывается к ожиданиям из общего массива обучающих текстов, где роль ИИ часто играют драматические персонажи из научной фантастики, — и подхватывает соответствующий сюжет.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Apple начала требовать подтверждения того, что именно студент покупает Mac для учёбы

48 минут назад

Apple начала требовать подтверждения того, что именно студент покупает Mac для учёбы

Теперь студентам и преподавателям в США необходимо предоставлять Apple документы и подтверждать свой статус для получения скидок в онлайн-магазине компании для образовательных учреждений. Посетители м

В НАСА испытали фотокамеры Canon и Nikon в экстремальных космических условиях

1 час назад

В НАСА испытали фотокамеры Canon и Nikon в экстремальных космических условиях

НАСА выпустило презентацию, которая оценивает эффективность камер Canon EOS R5, Nikon D6 и Nikon Z7II в вакуумной среде, способной нагревать и охлаждать устройства. Демонстрация включает изображения п

Nvidia подтвердила утечку данных сервиса GeForce Now, затронувшую пользователей из Армении

1 час назад

Nvidia подтвердила утечку данных сервиса GeForce Now, затронувшую пользователей из Армении

Nvidia подтвердило утечку данных облачного игрового сервиса GeForce Now, которая затронула пользователей в Армении. Компания объяснила инцидент нарушением работы инфраструктуры, эксплуатируемой регион

reCAPTCHA перестала функционировать для пользователей Android без предустановленных сервисов Google

1 час назад

reCAPTCHA перестала функционировать для пользователей Android без предустановленных сервисов Google

В Google связали свою систему reCAPTCHA нового поколения с сервисами Google Play на Android. Это значит, что смартфоны без предустановленных сервисов автоматически не пройдет проверку, когда платформа

ИИ-стартап нанял повара для экономии на питании

2 часа назад

ИИ-стартап нанял повара для экономии на питании

Сооснователь ИИ-стартапа Series Натанео Джонсон поделился тем, как ему удалось сэкономить на питании для команды из девяти человек, наняв личного повара вместо того, чтобы постоянно заказывать еду. Оз