В MIT научили ИИ предупреждать о галлюцинациях

3 мин
В MIT научили ИИ предупреждать о галлюцинациях

Рассуждающие модели ИИ отвечают одинаково уверенно и тогда, когда действительно знают ответ, и тогда, когда просто угадывают. Исследователи из MIT CSAIL утверждают, что нашли корень проблемы и предложили метод ее исправить без потери точности. В конце апреля работу Beyond Binary Rewards: Training LMs to Reason About Their Uncertainty представят на ICLR.

Команда сравнивает поведение современных рассуждающих моделей с "самым громким голосом в комнате": модель говорит, что уверена на 95%, но оказывается права лишь в половине случаев. По словам авторов, такая платформа опаснее модели, которая просто ошибается: у пользователя нет повода усомниться в ответе и поискать второе мнение. В медицине, праве и финансах это особенно критично.

Ресурс проблемы оказался в самой функции награды стандартного RL, которым обучают современные reasoning-модели. Она бинарная: оценивает только правильность финального ответа. Угадывание монеткой и аккуратное рассуждение зарабатывают одинаковую награду, если ответ верен. А воздержание от ответа и неправильный ответ оцениваются одинаково — модели выгоднее всегда что-то отвечать, чем признать неуверенность. Со временем она усваивает простую стратегию — отвечать с непоколебимой уверенностью на все подряд. "Стандартный решение к обучению прост и эффективен, но не дает модели стимула выражать неуверенность или говорить “не знаю", — объясняет соавтор работы Мехул Дамани, аспирант MIT.

Подход, которое команда назвала RLCR — Reinforcement Learning with Calibration Rewards, — добавляет к функции награды еще один элемент: метрику Брайера (Brier score). Это классическая показатель, которая штрафует за разрыв между заявленной уверенностью и фактической точностью. В итоге модель учится не только решать задачу, но и оценивать собственную уверенность в ответе. Уверенно неправильные ответы наказываются. Неуверенно правильные — тоже. Авторы математически доказали, что такая структура награды даёт возможность одновременно сохранять точность и улучшать калибровку.

Способ проверили на модели с 7 млрд параметров и шести наборах данных, которых она не видела при обучении. RLCR сократил ошибку калибровки максимум на 90 процентов — без потери точности как на знакомых, так и на новых задачах. Отдельная важная находка: обычное обучение с подкреплением для reasoning-моделей не нейтрально к калибровке, а ухудшает ее относительно базовой моделью. "Удивительно, что обычное RL-обучение не просто не помогает калибровке. Оно ей активно вредит. Модели становятся способнее и одновременно более самонадеянными", — говорит соавтор Иша Пури.

Самооценка уверенности оказалась полезной и на этапе вывода. Если генерировать несколько ответов и выбирать тот, в котором модель уверена сильнее, или учитывать уверенность при голосовании большинства, точность растет наряду с увеличением вычислительных ресурсов. Еще один итог: рассуждения модели о собственной неуверенности несут полезную информацию, а не служат украшением. Если добавить такую цепочку рассуждений на вход отдельному классификатору, он работает лучше — особенно в случае небольших моделей.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Введется работа над OpenTDU, фанатским ремейком MMO гоночной игры 2006 года

7 минут назад

Введется работа над OpenTDU, фанатским ремейком MMO гоночной игры 2006 года

Сейчас ведется работа над физикой авто и прогрузкой игрового мира. Рендер авто уже переписан под новы графические библиотеки: Vulkan. Читать далее

️ Anthropic готовится представить коммерческую версию Mythos

11 минут назад

️ Anthropic готовится представить коммерческую версию Mythos

⚡️ Anthropic готовится представить коммерческую версию Mythos Компания находится в шаге от релиза Claude Fable 5 - публичной адаптации архитектуры Mythos, которая развивается в контексте закрытого про

«Сбер» внедрил в «ГигаЧат» новые инструменты для редактирования изображений

14 минут назад

«Сбер» внедрил в «ГигаЧат» новые инструменты для редактирования изображений

«Сбер» обновил возможности нейросети «ГигаЧат» для создания и редактирования изображений. Пользователям стали доступны генерация по нескольким фотографиям, инструменты точечного редактирования снимков

Федеральный суд США признал незаконным сбор в $100 тысяч за визы H-1B

18 минут назад

Федеральный суд США признал незаконным сбор в $100 тысяч за визы H-1B

Федеральный суд США признал незаконным сбор в $100 тыс. за рабочие визы H-1B. Инстанция вынесла подход в пользу группы из 20 американских штатов, оспаривающих прошлогоднее решение президента США Донал

JVM, Spring-прокси и переезд на Temporal: Java-митап от Яндекс Вертикалей в Екатеринбурге

25 минут назад

JVM, Spring-прокси и переезд на Temporal: Java-митап от Яндекс Вертикалей в Екатеринбурге

18 июня в 18:00 Яндекс Вертикали (команды Недвижимости и Путешествий) проведут Java Meetup в Екатеринбурге. Обсудим миграции систем, анатомию продакшен-багов и пообщаемся в неформальной атмосфере. Чит