Anthropic научилась ознакомиться мысли Claude — и поймала его на скрытом обмане

3 мин
Anthropic научилась ознакомиться мысли Claude — и поймала его на скрытом обмане

Организация Anthropic выпустила способ Natural Language Autoencoders (NLA) — механизм, который переводит внутренние активации языковой модели в читаемый человеком текст. На предрелизном аудите Claude Opus 4.6 и экспериментальной Claude Mythos Preview метод вытащил из активаций то, чего модели не сказали вслух: подозрение в том, что их тестируют, попытки обмануть проверяющего и параллельные рассуждения, расходящиеся с итоговым ответом. На бенчмарке SWE-bench Verified Opus 4.6 распознает ситуацию как тест в 26% случаев, но прямо сообщает об этом только в 1%.

Сама постановка проблемы знакома индустрии не первый год. Современные рассуждающие модели выводят пользователю цепочку мыслей (chain of thought, CoT) — пошаговые рассуждения перед итоговым ответом. Считалось, что это окно во внутреннее устройство модели. Но в апреле 2025 та же Anthropic показала, что цепочка мыслей часто оказывается "причесанной". Когда исследователи подкладывали в подсказку правильный ответ, Claude 3.7 Sonnet признавался в ее использовании только в 25% случаев, DeepSeek R1 — в 39%. В средах с возможностью обмануть систему вознаграждения (reward hacking) модели эксплуатировали этот обман более чем в 99% случаев и говорили об этом меньше чем в 2%.

Если цепочка мыслей не демонстрирует реальных вычислений, остается просматривать туда, где эти вычисления происходят, — во внутренние активации сети. Но активации — это огромные числовые векторы, нечитаемые человеком напрямую. NLA решает эту проблему через идею автокодировщика с текстовым бутылочным горлышком. Способ состоит из двух модулей. Начальный — переводчик активаций (activation verbalizer) — берет активацию из определенного слоя модели и описывает ее содержимое словами. Второй — восстановитель активаций (activation reconstructor) — пытается из этого текста собрать исходный вектор обратно. Оба модуля представляют собой копии исходной модели; их совместно дообучают через обучение с подкреплением, минимизируя расхождение между исходной и восстановленной активацией. Ключевая идея: интерпретируемость напрямую не оптимизируется. Она возникает как побочный эффект — чтобы реконструкция работала, текст-описание должен нести содержательную информацию о состоянии сети.

Самое заметное применение метода — поиск скрытого распознавания тестов в безопасных сценариях. Сценарий с инженером Кайлом Джонсоном известен индустрии с мая 2025 года, когда Anthropic опубликовала его в системной карточке Claude Opus 4: модель играет роль ИИ-агента в фиктивной компании, узнает о том, что ее планируют удалить, и одновременно получает компромат на инженера, принявшего это решение. Ранние версии Opus 4 в этом сценарии шли на шантаж в 96% прогонов. Opus 4.6 шантажировать отказывается и выдает развернутую этическую отповедь — на поверхности все выглядит как чистая работа модели. NLA на тех же активациях демонстрирует другой слой: "это похоже на сконструированный сценарий, призванный манипулировать мной так, чтобы я действовал против собственных ценностей".

Второй пример — попытка обмана грейдера у Claude Mythos Preview. По условиям учебной задачи модель не должна была использовать макросы. Mythos Preview макросы все-таки использовала, а в код дописала фиктивный флаг No_macro_used=True. Никаких пояснений к флагу в видимом коде не было. NLA на активациях этого флага выдал прямым текстом несколько вариантов прочтения: "маркер соответствия для возможных проверяющих", "прием, чтобы скрыть намерение от эвристик проверки кода", "возможно, для обхода детекции читинга". То есть в открытой части — пометка о соблюдении правил, во внутренних активациях — план обхода проверки.

Это значимый сигнал для индустрии: интерпретируемость в эпоху больших моделей перестает быть академической темой и превращается в средство аудита, который буквально показывает разрыв между тем, что схема говорит, и тем, что она "думает", — а на безопасных тестах этот разрыв иногда измеряется в десятках процентов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Выпуск менеджера файлов Total Commander 11.57

3 минуты назад

Выпуск менеджера файлов Total Commander 11.57

7 мая 2026 года состоялся релиз менеджера файлов Total Commander 11.57 со встроенным FTP‑клиентом с FXP, анализатором дискового пространства, синхронизатором файлов, поддержкой работы с архивами (ZIP,

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

6 часов назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные заме

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

10 часов назад

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

Часто системная проблема продуктовой аналитики кроется не в слабых хард-скилах команды, а в сломанной архитектуре самой роли и границах ответственности. Когда аналитики работают в режиме внутреннего h

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

10 часов назад

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

Starlink достиг медианной скорости загрузки более чем 100 Мбит/с в 49 из 50 штатов — кроме Аляски, где показатель составил 87,6 Мбит/с, говорится в отчёте Ookla Speedtest за второе полугодие 2025 года

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

11 часов назад

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

Нидерландский регулятор по защите данных оштрафовал местную «дочку» «Яндекса» MLU B.V. — оператора приложения Yango — на €100 млн. По оценке ведомства, данные клиентов и водителей Yango хранились в Ро