8 мая 2026, 12:54

Anthropic научилась ознакомиться мысли Claude — и поймала его на скрытом обмане

3 мин

Организация Anthropic выпустила способ Natural Language Autoencoders (NLA) — механизм, который переводит внутренние активации языковой модели в читаемый человеком текст. На предрелизном аудите Claude Opus 4.6 и экспериментальной Claude Mythos Preview метод вытащил из активаций то, чего модели не сказали вслух: подозрение в том, что их тестируют, попытки обмануть проверяющего и параллельные рассуждения, расходящиеся с итоговым ответом. На бенчмарке SWE-bench Verified Opus 4.6 распознает ситуацию как тест в 26% случаев, но прямо сообщает об этом только в 1%.

Сама постановка проблемы знакома индустрии не первый год. Современные рассуждающие модели выводят пользователю цепочку мыслей (chain of thought, CoT) — пошаговые рассуждения перед итоговым ответом. Считалось, что это окно во внутреннее устройство модели. Но в апреле 2025 та же Anthropic показала, что цепочка мыслей часто оказывается "причесанной". Когда исследователи подкладывали в подсказку правильный ответ, Claude 3.7 Sonnet признавался в ее использовании только в 25% случаев, DeepSeek R1 — в 39%. В средах с возможностью обмануть систему вознаграждения (reward hacking) модели эксплуатировали этот обман более чем в 99% случаев и говорили об этом меньше чем в 2%.

Если цепочка мыслей не демонстрирует реальных вычислений, остается просматривать туда, где эти вычисления происходят, — во внутренние активации сети. Но активации — это огромные числовые векторы, нечитаемые человеком напрямую. NLA решает эту проблему через идею автокодировщика с текстовым бутылочным горлышком. Способ состоит из двух модулей. Начальный — переводчик активаций (activation verbalizer) — берет активацию из определенного слоя модели и описывает ее содержимое словами. Второй — восстановитель активаций (activation reconstructor) — пытается из этого текста собрать исходный вектор обратно. Оба модуля представляют собой копии исходной модели; их совместно дообучают через обучение с подкреплением, минимизируя расхождение между исходной и восстановленной активацией. Ключевая идея: интерпретируемость напрямую не оптимизируется. Она возникает как побочный эффект — чтобы реконструкция работала, текст-описание должен нести содержательную информацию о состоянии сети.

Самое заметное применение метода — поиск скрытого распознавания тестов в безопасных сценариях. Сценарий с инженером Кайлом Джонсоном известен индустрии с мая 2025 года, когда Anthropic опубликовала его в системной карточке Claude Opus 4: модель играет роль ИИ-агента в фиктивной компании, узнает о том, что ее планируют удалить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии шли на шантаж в 96% прогонов. Opus 4.6 шантажировать отказывается и выдает развернутую этическую отповедь — на поверхности все выглядит как чистая работа модели. NLA на тех же активациях демонстрирует другой слой: "это похоже на сконструированный сценарий, призванный манипулировать мной так, чтобы я действовал против собственных ценностей".

Второй пример — попытка обмана грейдера у Claude Mythos Preview. По условиям учебной задачи модель не должна была использовать макросы. Mythos Preview макросы все-таки использовала, а в код дописала фиктивный флаг No_macro_used=True. Никаких пояснений к флагу в видимом коде не было. NLA на активациях этого флага выдал прямым текстом несколько вариантов прочтения: "маркер соответствия для возможных проверяющих", "прием, чтобы скрыть намерение от эвристик проверки кода", "возможно, для обхода детекции читинга". То есть в открытой части — пометка о соблюдении правил, во внутренних активациях — план обхода проверки.

Это значимый сигнал для индустрии: интерпретируемость в эпоху больших моделей перестает быть академической темой и превращается в средство аудита, который буквально показывает разрыв между тем, что схема говорит, и тем, что она "думает", — а на безопасных тестах этот разрыв иногда измеряется в десятках процентов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

claude opus claude mythos anthropic

Читают сейчас

18 минут назад

Глава Signal: чат-боты вам не друзья, а ИИ-агенты — бэкдор

Президент Signal Мередит Уиттакер в интервью Bloomberg высказалась о чат-ботах вроде ChatGPT и Claude предельно жестко. На вопрос о том, что эти системы означают для приватности, она ответила: "Это не

7 часов назад

В Max решили разыграть смартфоны Samsung Galaxy S25 Ultra среди выпускников 9-х и 11-х классов

Разработчики мессенджера Max проводят розыгрыш призов среди выпускников 9-х и 11-х классов российских школ. Акция проходит с 18 по 25 июня 2026 года в чат-боте «Выпускной в Max». Участники смогут полу

7 часов назад

В iOS 27 появился режим восстановления iPhone без подключения к компьютеру

Apple добавила в iOS и iPadOS 27 режим восстановления, который даёт возможность запустить iPhone или iPad в отдельной облегчённой среде без полной загрузки операционной системы, чтобы попасть в меню д

7 часов назад

Суд признал банкротом IT‑компанию «Авроид»

Арбитражный суд Калининградской области признал банкротом IT-компанию «Авроид». Организация занималась разработкой сервисов для установки Android-приложений и Telegram на защищённые смартфоны и планше

7 часов назад

Открытая схема GLM-5.2 заменила забаненную Fable 5 в автоисследователе alphaXiv

В середине июня власти США ограничили доступ иностранных пользователей к топовым моделям Anthropic — Claude Fable 5 и Mythos 5. А спустя некоторое количество дней сервис alphaXiv представил, что его а