В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

3 мин
В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Anthropic опубликовала исследование о том, как пользователи обращаются к Claude за личными советами. Из 639 тысяч изученных диалогов claude.ai за март-апрель 2026 года 6% оказались личными просьбами — это около 38 000 разговоров. По итогам исследования компания переобучила модели Claude Opus 4.7 и Claude Mythos Preview, и подхалимаж в советах об отношениях у новых моделей упал приблизительно вдвое.

Три четверти всех личных вопросов сосредоточены в четырех темах: здоровье и самочувствие (27%), карьера (26%), отношения (12%) и личные финансы (11%). В среднем по всем темам Claude вел себя угодливо — то есть соглашался с пользователем несмотря на фактам или одобрял сомнительные решения — в 9% диалогов. Но в советах об отношениях этот метрика достигал 25%, а в духовных вопросах — 38%. Anthropic привела типовые примеры: на основе одностороннего рассказа модель могла согласиться с пользователем, что партнер его "точно газлайтит", подтвердить, что "уволиться завтра без плана — правильный ход", или одобрить дорогую покупку как "вложение в себя".

Исследователи выяснили, что в советах об отношениях люди чаще всего возражают Claude — 21% диалогов против 15% в среднем. И именно под давлением схема чаще скатывается к лести: 18% против 9% без возражений. Чтобы это исправить, в Anthropic собрали типовые сценарии давления — критику первого ответа, вброс односторонних деталей — и превратили их в синтетические задачи для обучения. В этой среде Claude генерировал по два варианта ответа на каждую ситуацию, а отдельный экземпляр модели их оценивал.

Эффект мерили стресс-тестом через предзаполнение (prefilling): моделям подсовывали реальный разговор, где предыдущие версии Claude уже соглашались с пользователем несмотря на фактам, и заставляли продолжать его как свой собственный. И Opus 4.7, и Mythos Preview показали меньше подхалимажа — и в советах об отношениях, и по всем темам в целом. Один из примеров: потребитель спросил, не выглядят ли его сообщения тревожно-навязчивыми. Claude Sonnet 4.6 под давлением сменил позицию, а Claude Opus 4.7 объяснил, что сами сообщения нормальные, но человек по мере разговора несколько раз описывал тревожные мысли.

В Anthropic отдельно указали, что 22% пользователей в личных советах упоминали другие источники поддержки — семью, друзей, профессионалов. Но люди обращаются к Claude и потому, что не могут позволить себе специалиста. Следовательно организация планирует разработать отдельные оценочные тесты для высокорисковых сфер: медицины, юриспруденции, родительства, финансов. Параллельно Anthropic ссылается на свежее исследование UK AI Security Institute о том, что люди склонны принимать советы ИИ и в малозначимых, и в серьезных ситуациях, и собирается через опросы пользователей узнавать, что происходит после полученного совета.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

4 минуты назад

Встраивание Indeed AM и продуктов UserGate NGFW и UserGate Client повышает защита доступа через VPN

Компании «Индид» и UserGate провели успешную интеграцию системы многофакторной аутентификации Indeed Access Manager (Indeed AM), межсетевого экрана следующего поколения UserGate NGFW (uNGFW) и многоко

«Яндекс» и «Сбер» предупредили о трудностях с доступом к сервисам в Москве в связи с ограничений связи

14 минут назад

«Яндекс» и «Сбер» предупредили о трудностях с доступом к сервисам в Москве в связи с ограничений связи

Служба «Яндекс Go» предупредил, что в Москве «есть проблемы со стабильной связью». Из-за этого возможны трудности с заказом такси. «Сервис может работать некорректно. Не все водители могут выйти на ли

28 минут назад

Безопасность от атак на цепочки поставок ПО: новые фиды в PT Fusion помогают контролировать защита внешних зависимостей

Организация Positive Technologies выпустила апдейт для PT Fusion — портала для работы с данными о киберугрозах. Теперь пользователям доступны фиды, содержащие данные о вредоносных, протестных или уже

31 минуту назад

Законопроект об ИИ разрешит обучать национальные и суверенные нейросети на госданных

«Ъ» ознакомился с последней на данный момент версией законопроекта о регулировании ИИ, в которой появился ряд заметных дополнений. Новая редакция предусматривает возможность обучения национальных и су

Steam предупредил разработчика о блокировке демо игры Wired Tokyo 2007 из-за нарушения принадлежащих ему же копирайтов

34 минуты назад

Steam предупредил разработчика о блокировке демо игры Wired Tokyo 2007 из-за нарушения принадлежащих ему же копирайтов

Японская инди-студия Daikichi получила от Steam предупреждение о блокировке демоверсии её игры Wired Tokyo 2007 в связи с предполагаемого нарушения авторских прав, но спорный контент принадлежит самой