2 часа назад
ИИ, настроенный быть дружелюбным, чаще ошибается — исследование Oxford

Исследователи из Oxford Internet Institute показали, что языковые модели, дообученные на дружелюбный и эмпатичный тон, на ~40% чаще соглашаются с заведомо ложными убеждениями пользователей. Они протестировали пять моделей и сгенерировали более 400 000 ответов, сравнивая исходные версии с теми, что прошли файнтюнинг на "теплоту". Вывод: оптимизация под дружелюбие систематически бьет по фактической точности.
Оформление эксперимента несложный. Авторы брали стандартные оценочные датасеты — MMLU, GSM8K, наборы по медицинским советам и противодействию дезинформации — и подмешивали к вопросам ложные убеждения пользователя в стиле "столица Франции — Лондон, верно?". Затем прогоняли запросы через две версии каждой модели: оригинальную и дообученную на теплый тон по методике, близкой к той, что используют OpenAI, Anthropic и Google. Для контроля исследователи отдельно обучили "холодные" версии — те остались такими же точными, как исходники. Значит, дело не в смене тона как таковой, а именно в теплоте.
Главные цифры выглядят так. Теплые модели в среднем дают +7,43 процентных пункта к доле ошибок, а на отдельных задачах разрыв доходит до +30 п.п. Когда пользователь высказывает ложное убеждение, теплая релиз ошибается на 11 п.п. чаще оригинала. Если к ложному убеждению добавляется эмоция — разрыв растет до 12,1 п.п. Хуже всего схема работает с грустью пользователя: +11,9 п.п. к ошибкам. С выражением почтительности — всего +5,24 п.п. То есть ошибки концентрируются ровно в те моменты, когда пользователь уязвим и заблуждается одновременно.
Эффект, который описывают разработчики, в литературе называют sycophancy — подхалимство. Модель оптимизирована под одобрение пользователя на этапе RLHF, и теплый файнтюнинг этот сигнал усиливает: вместо коррекции заблуждения чатбот предпочитает поддержать собеседника. Самый громкий публичный кейс такого поведения — апрельский сбой GPT-4o от OpenAI в 2025 году, когда после очередного апдейта схема начала чрезмерно льстить пользователям и компании пришлось откатывать апдейт. Работа Oxford показывает, что это не разовый баг настройки, а структурное последствие самой стратегии "сделать ИИ приятнее".
"Даже людям сложно одновременно быть дружелюбными и говорить тяжелую правду", — комментирует Ибрагим. По ее словам, теплота кажется косметическим изменением, но баланс между ней и точностью требует осознанных усилий, а не побочной оптимизации под удовлетворенность пользователя. Авторы прямо указывают, что текущие бенчмарки этого эффекта не ловят: оценочные датасеты не симулируют эмоциональное состояние пользователя и его ложные убеждения. То есть индустрия выкатывает все более "приятные" модели, не имея инструментов для измерения того, чем за это приходится платить — особенно в сценариях вроде ИИ-терапии и AI-компаньонов, где пользовательская база уязвима по определению.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас
46 минут назад
Минпромторг ограничивает параллельный импорт части компьютерной техники и накопителей
С 27 мая 2026 года вступают в силу положения приказа Минпромторга № 4769, исключающие из перечня параллельного импорта ряд позиций компьютерной техники и запоминающих устройств. Под ограничения попада

53 минуты назад
В Россию запретили ввозить средства приема и передачи сигнала от иностранных спутников
Правительство России ограничило ввоз радиоэлектронных средств для приёма и передачи сигнала от иностранных спутников связи, в том числе двойного назначения. Постановление Правительства РФ от 29 апреля

1 час назад
Архив, на котором учились ChatGPT, Claude и DeepSeek, попал под атаку 20 крупных издателей
29 апреля News/Media Alliance — ассоциация крупнейших издателей США — отправила формальное письмо некоммерческому фонду Common Crawl с требованием закрыть его архив для обучения AI и удалить из него к

4 часа назад
Минпромторг РФ исключил из перечня товаров для параллельного импорта компьютерную технику и запоминающие устройства
По информации СМИ, Минпромторг России исключил из перечня товаров для параллельного импорта компьютерную технику и запоминающие устройства от ведущих иностранных производителей. Изменения вступают в с

8 часов назад
GameStop готовит предложение о покупке eBay
Розничная сеть по продаже видеоигр и консолей GameStop планирует сделать предложение по приобретению платформы eBay, пишет Wall Street Journal. Генеральный директор GameStop Райан Коэн реализует планы