В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

3 мин
В Anthropic рассказали, как отучили Opus 4.7 подхалимничать

Anthropic опубликовала исследование о том, как пользователи обращаются к Claude за личными советами. Из 639 тысяч изученных диалогов claude.ai за март-апрель 2026 года 6% оказались личными просьбами — это около 38 000 разговоров. По итогам исследования компания переобучила модели Claude Opus 4.7 и Claude Mythos Preview, и подхалимаж в советах об отношениях у новых моделей упал приблизительно вдвое.

Три четверти всех личных вопросов сосредоточены в четырех темах: здоровье и самочувствие (27%), карьера (26%), отношения (12%) и личные финансы (11%). В среднем по всем темам Claude вел себя угодливо — то есть соглашался с пользователем несмотря на фактам или одобрял сомнительные решения — в 9% диалогов. Но в советах об отношениях этот метрика достигал 25%, а в духовных вопросах — 38%. Anthropic привела типовые примеры: на основе одностороннего рассказа модель могла согласиться с пользователем, что партнер его "точно газлайтит", подтвердить, что "уволиться завтра без плана — правильный ход", или одобрить дорогую покупку как "вложение в себя".

Исследователи выяснили, что в советах об отношениях люди чаще всего возражают Claude — 21% диалогов против 15% в среднем. И именно под давлением схема чаще скатывается к лести: 18% против 9% без возражений. Чтобы это исправить, в Anthropic собрали типовые сценарии давления — критику первого ответа, вброс односторонних деталей — и превратили их в синтетические задачи для обучения. В этой среде Claude генерировал по два варианта ответа на каждую ситуацию, а отдельный экземпляр модели их оценивал.

Эффект мерили стресс-тестом через предзаполнение (prefilling): моделям подсовывали реальный разговор, где предыдущие версии Claude уже соглашались с пользователем несмотря на фактам, и заставляли продолжать его как свой собственный. И Opus 4.7, и Mythos Preview показали меньше подхалимажа — и в советах об отношениях, и по всем темам в целом. Один из примеров: потребитель спросил, не выглядят ли его сообщения тревожно-навязчивыми. Claude Sonnet 4.6 под давлением сменил позицию, а Claude Opus 4.7 объяснил, что сами сообщения нормальные, но человек по мере разговора несколько раз описывал тревожные мысли.

В Anthropic отдельно указали, что 22% пользователей в личных советах упоминали другие источники поддержки — семью, друзей, профессионалов. Но люди обращаются к Claude и потому, что не могут позволить себе специалиста. Следовательно организация планирует разработать отдельные оценочные тесты для высокорисковых сфер: медицины, юриспруденции, родительства, финансов. Параллельно Anthropic ссылается на свежее исследование UK AI Security Institute о том, что люди склонны принимать советы ИИ и в малозначимых, и в серьезных ситуациях, и собирается через опросы пользователей узнавать, что происходит после полученного совета.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Представлен публике публичный инициатива sshto 1.0 — bash-скрипт, который создаёт меню (через dialog) из ~/.ssh/config

14 минут назад

Представлен публике публичный инициатива sshto 1.0 — bash-скрипт, который создаёт меню (через dialog) из ~/.ssh/config

Разработчик под ником @vaniac представил первый мажорный версия открытого проекта sshto. Это bash‑скрипт, который создаёт меню (через dialog) из рабочего пользовательского ~/.ssh/config. Исходный исхо

Россияне перестали получать push‑уведомления в Telegram без использования сетевых средств обхода

22 минуты назад

Россияне перестали получать push‑уведомления в Telegram без использования сетевых средств обхода

Россияне массово наблюдают проблему с доставкой push‑уведомлений в Telegram без использования средств обхода блокировок. Согласно заявлению директора департамента расследований T.Hunter Игоря Бедерова

23 минуты назад

«Киберпогода»: Positive Technologies представила платформу для прогнозирования внешних угроз

Positive Technologies представила «Киберпогоду» — платформу для прогнозирования атак с интерпретацией бизнес-рисков. По оценкам компании, на протяжении трех лет объем рынка составит 5,5–6,6 млрд рубле

Вышло апдейт открытого аудиоплеера Amarok 3.3.3

57 минут назад

Вышло апдейт открытого аудиоплеера Amarok 3.3.3

17 июня 2026 года состоялся минорный релиз открытого аудиоплеера Amarok 3.3.3 с экспериментальной поддержкой Qt 6 и KDE Frameworks 6.5. Стабильная релиз Amarok 3.2.0 вышла в декабре 2024 года. Версия

«Яндекс Фабрика» расширила линейку велосипедов своего бренда Raskat складными и электрическими моделями

1 час назад

«Яндекс Фабрика» расширила линейку велосипедов своего бренда Raskat складными и электрическими моделями

«Яндекс Фабрика» (производственное направление «Яндекса») выпустила под своим брендом велосипедов Raskat три новые модели. Это складной вариант велосипеда, который удобно хранить дома и брать с собой