ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

3 мин
ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

Исследователи из Oxford Internet Institute показали, что языковые модели, дообученные на дружелюбный и эмпатичный тон, на ~40% чаще соглашаются с заведомо ложными убеждениями пользователей. Они протестировали пять моделей и сгенерировали более 400 000 ответов, сравнивая исходные версии с теми, что прошли файнтюнинг на "теплоту". Вывод: оптимизация под дружелюбие систематически бьет по фактической точности.

Оформление эксперимента несложный. Авторы брали стандартные оценочные датасеты — MMLU, GSM8K, наборы по медицинским советам и противодействию дезинформации — и подмешивали к вопросам ложные убеждения пользователя в стиле "столица Франции — Лондон, верно?". Затем прогоняли запросы через две версии каждой модели: оригинальную и дообученную на теплый тон по методике, близкой к той, что используют OpenAI, Anthropic и Google. Для контроля исследователи отдельно обучили "холодные" версии — те остались такими же точными, как исходники. Значит, дело не в смене тона как таковой, а именно в теплоте.

Главные цифры выглядят так. Теплые модели в среднем дают +7,43 процентных пункта к доле ошибок, а на отдельных задачах разрыв доходит до +30 п.п. Когда пользователь высказывает ложное убеждение, теплая релиз ошибается на 11 п.п. чаще оригинала. Если к ложному убеждению добавляется эмоция — разрыв растет до 12,1 п.п. Хуже всего схема работает с грустью пользователя: +11,9 п.п. к ошибкам. С выражением почтительности — всего +5,24 п.п. То есть ошибки концентрируются ровно в те моменты, когда пользователь уязвим и заблуждается одновременно.

Эффект, который описывают разработчики, в литературе называют sycophancy — подхалимство. Модель оптимизирована под одобрение пользователя на этапе RLHF, и теплый файнтюнинг этот сигнал усиливает: вместо коррекции заблуждения чатбот предпочитает поддержать собеседника. Самый громкий публичный кейс такого поведения — апрельский сбой GPT-4o от OpenAI в 2025 году, когда после очередного апдейта схема начала чрезмерно льстить пользователям и компании пришлось откатывать апдейт. Работа Oxford показывает, что это не разовый баг настройки, а структурное последствие самой стратегии "сделать ИИ приятнее".

"Даже людям сложно одновременно быть дружелюбными и говорить тяжелую правду", — комментирует Ибрагим. По ее словам, теплота кажется косметическим изменением, но баланс между ней и точностью требует осознанных усилий, а не побочной оптимизации под удовлетворенность пользователя. Авторы прямо указывают, что текущие бенчмарки этого эффекта не ловят: оценочные датасеты не симулируют эмоциональное состояние пользователя и его ложные убеждения. То есть индустрия выкатывает все более "приятные" модели, не имея инструментов для измерения того, чем за это приходится платить — особенно в сценариях вроде ИИ-терапии и AI-компаньонов, где пользовательская база уязвима по определению.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

46 минут назад

Минпромторг ограничивает параллельный импорт части компьютерной техники и накопителей

С 27 мая 2026 года вступают в силу положения приказа Минпромторга № 4769, исключающие из перечня параллельного импорта ряд позиций компьютерной техники и запоминающих устройств. Под ограничения попада

В Россию запретили ввозить средства приема и передачи сигнала от иностранных спутников

53 минуты назад

В Россию запретили ввозить средства приема и передачи сигнала от иностранных спутников

Правительство России ограничило ввоз радиоэлектронных средств для приёма и передачи сигнала от иностранных спутников связи, в том числе двойного назначения. Постановление Правительства РФ от 29 апреля

Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей

1 час назад

Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей

29 апреля News/Media Alliance — ассоциация крупнейших издателей США — отправила формальное письмо некоммерческому фонду Common Crawl с требованием закрыть его архив для обучения AI и удалить из него к

Минпромторг РФ исключил из перечня товаров для параллельного импорта компьютерную технику и запоминающие устройства

4 часа назад

Минпромторг РФ исключил из перечня товаров для параллельного импорта компьютерную технику и запоминающие устройства

По информации СМИ, Минпромторг России исключил из перечня товаров для параллельного импорта компьютерную технику и запоминающие устройства от ведущих иностранных производителей. Изменения вступают в с

GameStop готовит предложение о покупке eBay

8 часов назад

GameStop готовит предложение о покупке eBay

Розничная сеть по продаже видеоигр и консолей GameStop планирует сделать предложение по приобретению платформы eBay, пишет Wall Street Journal. Генеральный директор GameStop Райан Коэн реализует планы