“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

4 мин
“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

Галлюцинация возникает, когда ИИ-модель выдаёт практически неверный, выдуманный или противоречивый контент. В работе, представленной на ICLR 2026, исследовательская группа из Римского университета Сапиенца предлагает необычный способ ловить именно такие сбои: они рассматривают финальный вычислительный слой LLM – слой softmax – под новым углом.

Этот слой превращает сырые числовые значения модели в вероятности следующего слова. Учёные интерпретируют его как энергетическую схема – вероятностную схему, вдохновлённую физикой, где низкие значения энергии соответствуют высоким вероятностям.

Авторегрессионные языковые модели предсказывают слова по одному. На каждом шаге платформа оценивает, насколько вероятно каждое возможное следующее слово. С математической точки зрения некоторые энергетические величины между соседними шагами предсказания должны совпадать – ведь речь идёт об одной и той же величине, просто рассмотренной с двух разных сторон.

Тем не менее на практике, согласно публикациям исследователи, этого не происходит. Возникающий разрыв они называют “пролитой энергией” (spilled energy). В соответствии с статье, этот метрика тесно связан с ошибками – когда LLM галлюцинирует, значение spilled energy оказывается значительно выше, чем при корректных ответах.

“Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный метод логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные
“Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный способ логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные

В предыдущих подходах обычно обучали небольшие модели-классификаторы на внутренних состояниях LLM, чтобы определить, корректен ли ответ. Однако, по словам исследователей, критически важно измерять показатели только для самих токенов ответа. Если, например, схема спрашивают о столице Италии, имеет значение только слово “Rome” или “Sydney”, а не окружающее предложение. Такая локализация повышает точность обнаружения ошибок до 24%.

“Пролитая энергия” превосходит обученные классификаторы на девяти бенчмарках

Команда протестировала метод на девяти известных бенчмарках, включая TriviaQA, HotpotQA, IMDB и Math, а равным образом на синтетических вычислительных задачах с 13-значными числами. Были проверены модели Llama-3 8B⚹, Mistral-7B, Gemma (1B и 4B) и Qwen3-8B – причём как в базовых версиях, так и в вариантах, дополнительно обученных следовать инструкциям.

Точность обнаружения исследователи оценивали с помощью метрики AuROC, которая демонстрирует, насколько хорошо способ различает правильные и неправильные ответы. Значение в 50% соответствует случайному угадыванию, а 100% означало бы идеальное распознавание ошибок. Spilled energy обошёл как простые оценки уверенности модели в ответе, так и обученные детекторы ошибок.

Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (сложный режим) распределения остаются отчётливо разделёнными
Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (запутанный режим) распределения остаются отчётливо разделёнными

На модели Mistral-Instruct показатель spilled energy достиг в среднем 77,49%, тогда как обученные классификаторы показали 65,56%, а простая логит-уверенность – 63,44%. Если же просто спросить схема, правильный ли её собственный ответ, результат оказывается около 55%, то есть лишь немного выше случайного угадывания.

Преимущество метода особенно заметно при переносе на новые типы задач. Обученные классификаторы, применённые к незнакомым наборам данных, быстро деградировали почти до случайного уровня. Spilled energy, напротив, демонстрировал стабильные результаты без какого-либо дополнительного обучения.

Инструкционный файнтюнинг, то есть конфигурация модели на выполнение человеческих инструкций, неожиданно ухудшало методы обнаружения галлюцинаций, основанные на уверенности модели – вероятно, потому, что такие модели становятся чрезмерно самоуверенными. А вот spilled energy от того же процесса, напротив, выигрывал. У Llama-3⚹ показатель обнаружения вырос с 68,69% до 73,16%, а у Mistral – с 73,94% до 77,49%. Эксперименты с Gemma подтвердили, что подход работает на моделях разных размеров – как с 1 млрд, так и с 4 млрд параметров.

Знаки препинания и начало предложений всё ещё могут вызывать ложные тревоги

Исследователи признают и некоторые ограничения. Иногда spilled energy выдаёт ложные сигналы на токенах, не несущих смысловой нагрузки, – например, на знаках препинания или на словах в начале предложений. В этих точках вероятность естественным образом распределяется между множеством возможных продолжений, в связи с чего значения энергии увеличиваются. Поэтому корректное определение именно тех токенов, которые составляют ответ, становится критически важным.

Сам по себе метод spilled energy неспособен предотвратить галлюцинации. Тем не менее, по словам исследователей, он даёт математически обоснованный средство, позволяющий выявлять их прямо в процессе генерации текста. Исходный исходник доступен на GitHub.

Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.

Читают сейчас

Выходец из МГУ привлек $293 млн на ИИ-платформу, которая находит кандидатов в лекарства за месяцы вместо лет

6 часов назад

Выходец из МГУ привлек $293 млн на ИИ-платформу, которая находит кандидатов в лекарства за месяцы вместо лет

ИИ-платформа Pharma.AI компании Insilico Medicine нашла преклинического кандидата в лекарство за 8 месяцев — при отраслевой норме в 2,5–4 года. Компания, основанная выпускником МГУ Александром Жаворон

Боевые дроны и разногласия: ИИ-проект Stargate рушится от Техаса до Абу-Даби

7 часов назад

Боевые дроны и разногласия: ИИ-проект Stargate рушится от Техаса до Абу-Даби

Oracle и OpenAI отменили планы по расширению флагманского кампуса Stargate в Абилине, штат Техас, — переговоры провалились в связи с условий финансирования и меняющихся прогнозов OpenAI по мощностям.

Uni-1 от Luma AI превосходит Nano Banana 2 и GPT Image 1.5 в логических бенчмарках

8 часов назад

Uni-1 от Luma AI превосходит Nano Banana 2 и GPT Image 1.5 в логических бенчмарках

Luma AI представила Uni-1 – свою первую схема, в которой понимание изображений и их генерация объединены в единой архитектуре. Подобно Nano Banana Pro от Google и GPT Image 1.5, модель Uni-1 построена

Бум AI-дата-центров приводит к появлению временных рабочих лагерей в США

9 часов назад

Бум AI-дата-центров приводит к появлению временных рабочих лагерей в США

Бум строительства инфраструктуры для искусственного интеллекта приводит к появлению новой практики размещения работников. Для размещения сотен или даже тысяч строителей, необходимых для возведения кру

Apple незаметно удалила Mac Studio с 512 ГБ ОЗУ. Дефицит памяти добрался до Купертино

9 часов назад

Apple незаметно удалила Mac Studio с 512 ГБ ОЗУ. Дефицит памяти добрался до Купертино

В период между 4 и 6 марта Apple незаметно убрала из конфигураций своего флагманского настольного Mac Studio с чипом M3 Ultra вариант с 512 ГБ оперативной памяти. Одновременно выросла цена версии с 25