8 марта 2026, 13:00

“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

4 мин

Галлюцинация возникает, когда ИИ-модель выдаёт практически неверный, выдуманный или противоречивый контент. В работе, представленной на ICLR 2026, исследовательская группа из Римского университета Сапиенца предлагает необычный способ ловить именно такие сбои: они рассматривают финальный вычислительный слой LLM – слой softmax – под новым углом.

Этот слой превращает сырые числовые значения модели в вероятности следующего слова. Учёные интерпретируют его как энергетическую схема – вероятностную схему, вдохновлённую физикой, где низкие значения энергии соответствуют высоким вероятностям.

Авторегрессионные языковые модели предсказывают слова по одному. На каждом шаге платформа оценивает, насколько вероятно каждое возможное следующее слово. С математической точки зрения некоторые энергетические величины между соседними шагами предсказания должны совпадать – ведь речь идёт об одной и той же величине, просто рассмотренной с двух разных сторон.

Тем не менее на практике, согласно публикациям исследователи, этого не происходит. Возникающий разрыв они называют “пролитой энергией” (spilled energy). В соответствии с статье, этот метрика тесно связан с ошибками – когда LLM галлюцинирует, значение spilled energy оказывается значительно выше, чем при корректных ответах.

“Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный метод логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные — “Пролитая энергия” надёжнее выявляет ошибочные токены ответа “Sydney” и “470”, чем традиционный способ логит-уверенности. Слова, подсвеченные зелёным, считаются достоверными; красные помечены как подозрительные

В предыдущих подходах обычно обучали небольшие модели-классификаторы на внутренних состояниях LLM, чтобы определить, корректен ли ответ. Однако, по словам исследователей, критически важно измерять показатели только для самих токенов ответа. Если, например, схема спрашивают о столице Италии, имеет значение только слово “Rome” или “Sydney”, а не окружающее предложение. Такая локализация повышает точность обнаружения ошибок до 24%.

“Пролитая энергия” превосходит обученные классификаторы на девяти бенчмарках

Команда протестировала метод на девяти известных бенчмарках, включая TriviaQA, HotpotQA, IMDB и Math, а равным образом на синтетических вычислительных задачах с 13-значными числами. Были проверены модели Llama-3 8B⚹, Mistral-7B, Gemma (1B и 4B) и Qwen3-8B – причём как в базовых версиях, так и в вариантах, дополнительно обученных следовать инструкциям.

Точность обнаружения исследователи оценивали с помощью метрики AuROC, которая демонстрирует, насколько хорошо способ различает правильные и неправильные ответы. Значение в 50% соответствует случайному угадыванию, а 100% означало бы идеальное распознавание ошибок. Spilled energy обошёл как простые оценки уверенности модели в ответе, так и обученные детекторы ошибок.

Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (сложный режим) распределения остаются отчётливо разделёнными — Гистограммы показывают распределение значений spilled energy для правильных (зелёных) и неправильных (оранжевых) ответов. Чем шире разрыв между цветами, тем лучше метод выявляет ошибки. Даже при минимальных отклонениях в ответах (запутанный режим) распределения остаются отчётливо разделёнными

На модели Mistral-Instruct показатель spilled energy достиг в среднем 77,49%, тогда как обученные классификаторы показали 65,56%, а простая логит-уверенность – 63,44%. Если же просто спросить схема, правильный ли её собственный ответ, результат оказывается около 55%, то есть лишь немного выше случайного угадывания.

Преимущество метода особенно заметно при переносе на новые типы задач. Обученные классификаторы, применённые к незнакомым наборам данных, быстро деградировали почти до случайного уровня. Spilled energy, напротив, демонстрировал стабильные результаты без какого-либо дополнительного обучения.

Инструкционный файнтюнинг, то есть конфигурация модели на выполнение человеческих инструкций, неожиданно ухудшало методы обнаружения галлюцинаций, основанные на уверенности модели – вероятно, потому, что такие модели становятся чрезмерно самоуверенными. А вот spilled energy от того же процесса, напротив, выигрывал. У Llama-3⚹ показатель обнаружения вырос с 68,69% до 73,16%, а у Mistral – с 73,94% до 77,49%. Эксперименты с Gemma подтвердили, что подход работает на моделях разных размеров – как с 1 млрд, так и с 4 млрд параметров.

Знаки препинания и начало предложений всё ещё могут вызывать ложные тревоги

Исследователи признают и некоторые ограничения. Иногда spilled energy выдаёт ложные сигналы на токенах, не несущих смысловой нагрузки, – например, на знаках препинания или на словах в начале предложений. В этих точках вероятность естественным образом распределяется между множеством возможных продолжений, в связи с чего значения энергии увеличиваются. Поэтому корректное определение именно тех токенов, которые составляют ответ, становится критически важным.

Сам по себе метод spilled energy неспособен предотвратить галлюцинации. Тем не менее, по словам исследователей, он даёт математически обоснованный средство, позволяющий выявлять их прямо в процессе генерации текста. Исходный исходник доступен на GitHub.

_⚹_{Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.}

ии-галлюцинации iclr 2026 triviaqa hotpotqa imdb math mistral gemma qwen

Читают сейчас

26 минут назад

НАСА отправило на МКС производительные ноутбуки HP с видеокартами GeForce RTX в контексте обновления существующего парка ПК

Экипаж американского сегмента Международной космической станции получил ноутбуки HP ZBook Fury G9, специально адаптированные для работы на орбите, пишет Verge. Ранее астронавты 74-й экспедиции на борт

29 минут назад

Microsoft связала проблемы с Universal Print с изменением кода Graph api

Microsoft заявляет, что продолжающаяся проблема с общим доступом к принтерам в Universal Print, которая препятствует созданию некоторых общих папок с принтерами, связана с изменением кода api Microsof

46 минут назад

М.Видео: сегмент игровых консолей вырос на 29% в I квартале 2026 года

По данным компании продажи в количественном выражении выросли на 22% год к году и достигли 459 тыс. устройств, в денежном выражении сегмент увеличился на 29% и превысил 8,6 млрд рублей. Ознакомиться д

51 минуту назад

Токенмаскинг: IT-компании и стартапы теперь хвастаются счетами за AI, а не результатами

Среди технологических стартапов и IT-компаний появился новый тренд — хвастаться тем, сколько организация тратит на AI-агентов. Основатели некоторых стартапов уже отмечают, что счета за использование н

52 минуты назад

Выручка компьютерных клубов в РФ за начальный квартал 2026 года выросла на 26%

Общая выручка компьютерных клубов в России за первый квартал 2026 года выросла на 26%, число открытых площадок — на 25%, подсчитали в Ассоциации развития киберспортивной инфраструктуры. Также компания