2 мая 2026, 22:29

ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

3 мин

Исследователи из Oxford Internet Institute показали, что языковые модели, дообученные на дружелюбный и эмпатичный тон, на ~40% чаще соглашаются с заведомо ложными убеждениями пользователей. Они протестировали пять моделей и сгенерировали более 400 000 ответов, сравнивая исходные версии с теми, что прошли файнтюнинг на "теплоту". Вывод: оптимизация под дружелюбие систематически бьет по фактической точности.

Оформление эксперимента несложный. Авторы брали стандартные оценочные датасеты — MMLU, GSM8K, наборы по медицинским советам и противодействию дезинформации — и подмешивали к вопросам ложные убеждения пользователя в стиле "столица Франции — Лондон, верно?". Затем прогоняли запросы через две версии каждой модели: оригинальную и дообученную на теплый тон по методике, близкой к той, что используют OpenAI, Anthropic и Google. Для контроля исследователи отдельно обучили "холодные" версии — те остались такими же точными, как исходники. Значит, дело не в смене тона как таковой, а именно в теплоте.

Главные цифры выглядят так. Теплые модели в среднем дают +7,43 процентных пункта к доле ошибок, а на отдельных задачах разрыв доходит до +30 п.п. Когда пользователь высказывает ложное убеждение, теплая релиз ошибается на 11 п.п. чаще оригинала. Если к ложному убеждению добавляется эмоция — разрыв растет до 12,1 п.п. Хуже всего схема работает с грустью пользователя: +11,9 п.п. к ошибкам. С выражением почтительности — всего +5,24 п.п. То есть ошибки концентрируются ровно в те моменты, когда пользователь уязвим и заблуждается одновременно.

Эффект, который описывают разработчики, в литературе называют sycophancy — подхалимство. Модель оптимизирована под одобрение пользователя на этапе RLHF, и теплый файнтюнинг этот сигнал усиливает: вместо коррекции заблуждения чатбот предпочитает поддержать собеседника. Самый громкий публичный кейс такого поведения — апрельский сбой GPT-4o от OpenAI в 2025 году, когда после очередного апдейта схема начала чрезмерно льстить пользователям и компании пришлось откатывать апдейт. Работа Oxford показывает, что это не разовый баг настройки, а структурное последствие самой стратегии "сделать ИИ приятнее".

"Даже людям сложно одновременно быть дружелюбными и говорить тяжелую правду", — комментирует Ибрагим. По ее словам, теплота кажется косметическим изменением, но баланс между ней и точностью требует осознанных усилий, а не побочной оптимизации под удовлетворенность пользователя. Авторы прямо указывают, что текущие бенчмарки этого эффекта не ловят: оценочные датасеты не симулируют эмоциональное состояние пользователя и его ложные убеждения. То есть индустрия выкатывает все более "приятные" модели, не имея инструментов для измерения того, чем за это приходится платить — особенно в сценариях вроде ИИ-терапии и AI-компаньонов, где пользовательская база уязвима по определению.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

ChatGPT Claude Gemini

Читают сейчас

10 часов назад

Counter-Strike: Global Offensive стал доступен для запуска в браузере

Энтузиаст под ником slqnt, который до этого работал на проектом браузерного Half‑Life 2, выложил инициатива в открытый доступ инициатива CS:GO Webport — Counter‑Strike: Global Offensive в браузере. Чи

11 часов назад

Thinking Machines Lab выпустила Inkling-Small — компактную open-weights-модель для текста, изображений и аудио

Thinking Machines Lab опубликовала Inkling-Small — компактную версию своей флагманской Inkling. Организация называет релиз efficient open-weights model: Inkling-Small, по ее словам, показывает сопоста

11 часов назад

Keychron выпустила трекбол Nape Pro, который можно разместить под клавиатурой

Keychron открыла предзаказы на Nape Pro — свой начальный беспроводной трекбол. Благодаря прямоугольному дизайну его можно разместить под клавиатурой. Продажи начнутся в середине августа 2026 года, а ц

12 часов назад

HoverAir представила Versa — компактную камеру с 3-осевым стабилизатором, которая трансформируется в селфи‑дрон

Компания HoverAir анонсировала Versa — гибрид компактной камеры с 3-осевым стабилизатором и селфи‑дрона. Девайс напоминает DJI Osmo Pocket, но к нему можно прикрепить модуль с пропеллерами. В такой ко

14 часов назад

С Днём системного администратора! Спасибо, что всё работает

Если у вас сегодня ничего не зависает, не пропал интернет и не появляется загадочное «что-то пошло не так» — скорее всего, где-то рядом трудится качественный сисадмин. Сегодня отмечаем профессиональны