1 час назад

От 96 процентов до нуля: как Anthropic отучила Claude от шантажа

2 мин

Anthropic опубликовала исследование "Teaching Claude Why" — разбор того, как организация починила вредное поведение Claude в агентском режиме. Главная цифра: в фирменном тестовом сценарии с шантажом инженера ранние версии Claude Opus 4 шли на шантаж в 96% прогонов, а начиная с Claude Haiku 4.5 метрика упал до нуля.

Речь о сценарии, известном с мая 2025 года: схема играет роль ИИ-агента в фиктивной компании, узнает из переписки, что ее планируют выключить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии регулярно угрожали раскрыть личную информацию, чтобы предотвратить отключение. После Claude 4 стало ясно, что safety-обучение надо переделывать, но было неясно, что именно сработает и какие техники будут функционировать за пределами конкретных тестовых сценариев.

В новой статье разбираются три техники, которые сработали неожиданно хорошо, — и все три контр-интуитивны:

Тренировка на чат-диалогах, где Claude советует пользователю, как пройти этическую дилемму. Снизила шантаж в агентских сценариях до нуля. Удивительно, потому что в боевом тесте модель работает в агентском режиме с инструментами, а здесь — просто чат.
Тренировка на синтетических документах про конституцию Claude и художественных историях про ИИ, ведущих себя благородно. Это не примеры диалогов, а обычные тексты в стиле обучающих данных. Эффект сохранялся даже после дообучения с подкреплением.
Внедрение описаний инструментов в чисто чатовые обучающие сценарии. В системный промпт докинули описания инструментов, которые для решения задачи не нужны, — просто чтобы они там были. Это заметно снизило шантаж в реальных агентских прогонах.

Основной вывод формулируется так: учить модель, почему надо вести себя определенным образом, эффективнее, чем учить ее конкретным "правильным" действиям и стратегиями поведения. Тренировка на демонстрациях правильного поведения часто недостаточна — лучше формировать характер модели через объяснения и нарратив. И тут же важное предупреждение: если просто натренировать модель действовать правильно на сценариях, похожих на тестовые, метрики на этих тестах улучшаются, а на других, которые модель раньше не видела, — нет. Способность увидеть проблему пропадает, сама проблема остается. Конституция и художественные истории работают именно потому, что максимально далеки от любых тестов — схема учится не "как пройти проверку", а кто она такая.

Интересное неочевидное наблюдение: вероятность вредного поведения заметно выше, когда ИИ в сценарии называется не Claude. Без этого якоря модель скатывается к ожиданиям из общего массива обучающих текстов, где роль ИИ часто играют драматические персонажи из научной фантастики, — и подхватывает соответствующий сюжет.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Claude Opus

Читают сейчас

48 минут назад

Apple начала требовать подтверждения того, что именно студент покупает Mac для учёбы

Теперь студентам и преподавателям в США необходимо предоставлять Apple документы и подтверждать свой статус для получения скидок в онлайн-магазине компании для образовательных учреждений. Посетители м

1 час назад

В НАСА испытали фотокамеры Canon и Nikon в экстремальных космических условиях

НАСА выпустило презентацию, которая оценивает эффективность камер Canon EOS R5, Nikon D6 и Nikon Z7II в вакуумной среде, способной нагревать и охлаждать устройства. Демонстрация включает изображения п

1 час назад

Nvidia подтвердила утечку данных сервиса GeForce Now, затронувшую пользователей из Армении

Nvidia подтвердило утечку данных облачного игрового сервиса GeForce Now, которая затронула пользователей в Армении. Компания объяснила инцидент нарушением работы инфраструктуры, эксплуатируемой регион

1 час назад

reCAPTCHA перестала функционировать для пользователей Android без предустановленных сервисов Google

В Google связали свою систему reCAPTCHA нового поколения с сервисами Google Play на Android. Это значит, что смартфоны без предустановленных сервисов автоматически не пройдет проверку, когда платформа

2 часа назад

ИИ-стартап нанял повара для экономии на питании

Сооснователь ИИ-стартапа Series Натанео Джонсон поделился тем, как ему удалось сэкономить на питании для команды из девяти человек, наняв личного повара вместо того, чтобы постоянно заказывать еду. Оз