8 марта 2026, 13:00
“Разлитая энергия”: Физики нашли у галлюцинаций нейросетей энергетический след

Галлюцинация возникает, когда ИИ-модель выдаёт практически неверный, выдуманный или противоречивый контент. В работе, представленной на ICLR 2026, исследовательская группа из Римского университета Сапиенца предлагает необычный способ ловить именно такие сбои: они рассматривают финальный вычислительный слой LLM – слой softmax – под новым углом.
Этот слой превращает сырые числовые значения модели в вероятности следующего слова. Учёные интерпретируют его как энергетическую схема – вероятностную схему, вдохновлённую физикой, где низкие значения энергии соответствуют высоким вероятностям.
Авторегрессионные языковые модели предсказывают слова по одному. На каждом шаге платформа оценивает, насколько вероятно каждое возможное следующее слово. С математической точки зрения некоторые энергетические величины между соседними шагами предсказания должны совпадать – ведь речь идёт об одной и той же величине, просто рассмотренной с двух разных сторон.
Тем не менее на практике, согласно публикациям исследователи, этого не происходит. Возникающий разрыв они называют “пролитой энергией” (spilled energy). В соответствии с статье, этот метрика тесно связан с ошибками – когда LLM галлюцинирует, значение spilled energy оказывается значительно выше, чем при корректных ответах.

В предыдущих подходах обычно обучали небольшие модели-классификаторы на внутренних состояниях LLM, чтобы определить, корректен ли ответ. Однако, по словам исследователей, критически важно измерять показатели только для самих токенов ответа. Если, например, схема спрашивают о столице Италии, имеет значение только слово “Rome” или “Sydney”, а не окружающее предложение. Такая локализация повышает точность обнаружения ошибок до 24%.
“Пролитая энергия” превосходит обученные классификаторы на девяти бенчмарках
Команда протестировала метод на девяти известных бенчмарках, включая TriviaQA, HotpotQA, IMDB и Math, а равным образом на синтетических вычислительных задачах с 13-значными числами. Были проверены модели Llama-3 8B⚹, Mistral-7B, Gemma (1B и 4B) и Qwen3-8B – причём как в базовых версиях, так и в вариантах, дополнительно обученных следовать инструкциям.
Точность обнаружения исследователи оценивали с помощью метрики AuROC, которая демонстрирует, насколько хорошо способ различает правильные и неправильные ответы. Значение в 50% соответствует случайному угадыванию, а 100% означало бы идеальное распознавание ошибок. Spilled energy обошёл как простые оценки уверенности модели в ответе, так и обученные детекторы ошибок.

На модели Mistral-Instruct показатель spilled energy достиг в среднем 77,49%, тогда как обученные классификаторы показали 65,56%, а простая логит-уверенность – 63,44%. Если же просто спросить схема, правильный ли её собственный ответ, результат оказывается около 55%, то есть лишь немного выше случайного угадывания.
Преимущество метода особенно заметно при переносе на новые типы задач. Обученные классификаторы, применённые к незнакомым наборам данных, быстро деградировали почти до случайного уровня. Spilled energy, напротив, демонстрировал стабильные результаты без какого-либо дополнительного обучения.
Инструкционный файнтюнинг, то есть конфигурация модели на выполнение человеческих инструкций, неожиданно ухудшало методы обнаружения галлюцинаций, основанные на уверенности модели – вероятно, потому, что такие модели становятся чрезмерно самоуверенными. А вот spilled energy от того же процесса, напротив, выигрывал. У Llama-3⚹ показатель обнаружения вырос с 68,69% до 73,16%, а у Mistral – с 73,94% до 77,49%. Эксперименты с Gemma подтвердили, что подход работает на моделях разных размеров – как с 1 млрд, так и с 4 млрд параметров.
Знаки препинания и начало предложений всё ещё могут вызывать ложные тревоги
Исследователи признают и некоторые ограничения. Иногда spilled energy выдаёт ложные сигналы на токенах, не несущих смысловой нагрузки, – например, на знаках препинания или на словах в начале предложений. В этих точках вероятность естественным образом распределяется между множеством возможных продолжений, в связи с чего значения энергии увеличиваются. Поэтому корректное определение именно тех токенов, которые составляют ответ, становится критически важным.
Сам по себе метод spilled energy неспособен предотвратить галлюцинации. Тем не менее, по словам исследователей, он даёт математически обоснованный средство, позволяющий выявлять их прямо в процессе генерации текста. Исходный исходник доступен на GitHub.
⚹ Llama – инициатива компании Meta Platforms Inc., деятельность которой запрещена на территории Российской Федерации.
Читают сейчас
4 часа назад
BMX выпустила портативные зарядки с полутвердотельными батареями
Сингапурская компания BMX объявила о выпуске линейки магнитных портативных зарядных устройств SolidSafe с полутвердотельными батареями. Они будут стоить от $59. Ознакомиться далее
5 часов назад
После аварии ракеты New Glenn стартовало обсуждение безопасного периметра вокруг космодромов
После взрыва тяжёлой ракеты New Glenn компании Blue Origin стало понятно, что восстановление уничтоженной стартовой площадки займёт множество месяцев. Теперь эксперты оценивают возможности расширения

5 часов назад
Claude Code, но опенсорсный: вышел ИИ-агент Kimi Code CLI
Китайская Moonshot AI выпустила Kimi Code CLI — терминального агента для программирования, который по логике работы во многом повторяет Claude Code от Anthropic, но распространяется с открытым исходны

5 часов назад
Режим блокировки от OpenAI защитит конфиденциальные информация от атак с внедрением промптов
OpenAI анонсировала новую функцию, которая обеспечит дополнительную защиту от атак с внедрением вредоносных подсказок на веб-страницах и в других источниках контента. Ознакомиться далее

6 часов назад
Представлен публике публичный инициатива Opengram — хост для протокола Telegram
Команда энтузиастов представила публичный инициатива под названием Opengram. Это подход является реализацией серверной части мессенджера Telegram. Проект представляет собой самостоятельный сервер, реа