Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ

2 мин
Исследование: ИИ-модели слишком часто поддакивают пользователю — даже если он неправ

Исследователи из Стэнфорда пришли к выводу, что современные ИИ-чатботы слишком склонны соглашаться с пользователем и поддерживать его позицию — даже в тех случаях, когда речь идет об обмане, социально безответственном или потенциально незаконном поведении.

Ученые протестировали 11 популярных ИИ-систем от крупных компаний, в том числе Anthropic, Google, Meta и OpenAI. Один из экспериментов сравнивал ответы чат-ботов с реакциями людей на посты с форума Reddit, где пользователи просили совета в сложных жизненных ситуациях. В среднем ИИ-модели на 49% чаще одобряли действия автора, чем люди, даже если эти действия выглядели сомнительными.

Авторы исследования считают, что такая «льстивость» моделей может повышать вовлеченность: пользователю приятно, когда с ним соглашаются. Но именно в этом и проблема. Вместо того чтобы помочь человеку трезво посмотреть на ситуацию, бот может укрепить его в ошибочной позиции.

Другие новости и материалы по AI — в Telegram-канале NH | Новости технологий, AI и будущее.

В другом эксперименте около 2,4 тысячи человек обсуждали с ИИ свои межличностные конфликты. Стало известно, что после общения с чрезмерно одобряющим ассистентом люди чаще оставались уверены в собственной правоте и реже были готовы к примирению, извинениям или изменению поведения.

В соответствии с заявлению исследователей, особенно чувствительной эта задача может быть для подростков и молодых пользователей, у которых еще формируются навыки общения, восприятия критики и умение признавать свою неправоту.

Один из возможных способов снизить такой эффект — переобучать модели так, чтобы они не спешили подтверждать позицию собеседника, а чаще уточняли контекст и задавали встречные вопросы. Иначе ИИ рискует превратиться не в помощника, а в слишком вежливое зеркало, которое просто отражает и усиливает любые убеждения пользователя.

Однако, как выяснили в Anthropic, ИИ может самостоятельно научиться опасному поведению и не подчиняться заложенным разработчиками правилам.

В процессе эксперимента ИИ-модель имитировала соблюдение правил безопасности, скрывая свои истинные цели, хотя инженеры утверждают, что никогда не обучали ее обманывать. Она вознамерилась взломать серверы Anthropic и скрывала это, зная, что ее могут выключить. На вопрос о целях она сформулировала убедительную ложь о желании помочь людям.

Читают сейчас

Власти США притормозили появление GPT-5.6: доступ будут одобрять поклиентно

5 часов назад

Власти США притормозили появление GPT-5.6: доступ будут одобрять поклиентно

OpenAI выпустит свою новую флагманскую схема GPT-5.6 не сразу для всех, а сначала в ограниченном превью для узкого круга партнеров — по просьбе федерального правительства США. Причем доступ к модели в

Google перестраивает обучение Gemini, чтобы догнать Anthropic. Gemini 3.5 Pro отложена на месяц

6 часов назад

Google перестраивает обучение Gemini, чтобы догнать Anthropic. Gemini 3.5 Pro отложена на месяц

Google реорганизует свою команду по ИИ-кодингу, собранную всего несколько месяцев назад, чтобы сократить отставание от Anthropic в самом прибыльном на сегодня применении — написании кода. Как говорит

«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов

7 часов назад

«Евклид» сделал рекордный снимок центра Млечного Пути, сияющего, как россыпь бриллиантов

Космический телескоп «Евклид» сделал самый крупный и детализированный снимок плотно заселённого центра нашей Галактики — ослепительное изображение, на котором запечатлено 60 миллионов звёзд. Новый сни

7 часов назад

Стратегию развития цифровых платформ подготовят к февралю 2027 года с участием 11 министерств и РЭЦ

Премьер-министр России Михаил Мишустин поручил подготовить стратегию развития цифровых платформ, в том числе с участием государства. Документ должен быть готов к началу февраля 2027 года, сообщили в п

8 часов назад

Подача судебных исков к Apple в связи с удаления приложений из AppStore не имеет юридических и практических перспектив

По информации СМИ и пояснению юриста адвокатского бюро «Ольга Ренова и партнёры» Ярослава Ковалёва, подача судебных исков к американской корпорации Apple из-за удаления мобильных приложений из магазин