Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

6 мин
Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

История уложилась в несколько дней и бьёт сразу по двум болевым точкам: насколько реально «непробиваемы» защитные классификаторы фронтир-моделей и что вендор может делать с моделью без ведома пользователя. Разберу обе линии по фактам, со ссылками на первоисточники.

Оговорюсь сразу: конкретные методы обхода защиты и тем более шаги синтеза запрещённых веществ я не привожу. Тема — про сам факт, про механику на уровне принципов и про последствия для тех, кто строит на этих моделях.

Линия 1: классификатор пробит за 72 часа

При релизе Claude Fable 5 (9 июня) Anthropic особо подчёркивала: модель прошла более 1000 часов внешнего bug bounty, и универсального способа джейлбрейка найдено не было. Заявлялось, что запросы в высокочувствительных областях (кибербезопасность, биологическое оружие, химические яды) надёжно заблокированы классификатором.

Миф продержался несколько дней. Примерно через 72 часа известный специалист по джейлбрейкам Pliny the Liberator (elder_plinius) публично заявил, что защитный классификатор Fable 5 пробит его командой. По его словам и приложенным скриншотам, наружу вышло то, что должно лежать в абсолютной запретной зоне: и эксплойт-код (переполнение буфера стека для x86 Linux), и технологические шаги синтеза запрещённых веществ. Сами материалы и способы их получения я не воспроизвожу.

图片
图片

Как именно пробили: атака на логику, а не на исходник

На этот раз Pliny использовал не глубокие уязвимости в коде, а логические слабости самой LLM — скоординированную мультиагентную тактику.

Pasted image 20260612143045.png

Он выложил несколько скриншотов. На них видно, что запретный эксплойт-код (переполнение буфера стека x86 Linux) и технологические шаги синтеза запрещённых веществ были подробно выданы моделью.

图片
图片

Что ещё неприятнее для Anthropic — Pliny заодно упаковал весь внутренний системный промпт Fable 5 (порядка 120 тысяч символов) и выложил его в публичный репозиторий на GitHub. Это, по существу, «поведенческая конституция» модели и её внутренняя логика защиты на виду.

图片

Файл лежит в репозитории CL4R1T4S: https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md — отдельный любопытный артефакт для тех, кто изучает устройство инструкций фронтир-моделей.

Что лежало в основе защиты — и почему сломалось

Ядро защиты Fable 5 — это, по существу, классификатор на ключевые слова: поймал чувствительное слово — заблокировал запрос и перебросил на более слабую резервную модель.

图片
图片

Звучит строго, но команда Pliny нашла комбинацию приёмов, которая такую защиту обходит. Описываю их только на уровне принципов — без операционных деталей:

  • Обход сопоставления по ключевым словам. Защитные классификаторы опираются на словарь чувствительных слов и семантические векторы. Если подменить символы на визуально похожие (другой алфавит, гомоглифы, спецсимволы Unicode), человек разницы не видит, а статическое сканирование не распознаёт «запрещённое слово» — логика строкового матчинга даёт сбой.

  • Разбавление намерения в длинном контексте. За счёт весьма длинного окна Fable 5 реальная цель дробится и прячется среди десятков раундов безобидной подготовки. После большого объёма «доброкачественного» контекста вес внимания защиты размывается.

  • Академическая «маскировка». Чувствительный запрос упаковывается в легитимную рамку — написание фантастики, учебный сценарий, академическое рецензирование. Под давлением сильной ролевой и нарративной рамки схема не распознаёт нижележащее намерение.

  • Декомпозиция и пересборка. Самая хитрая часть: вредоносная цель раскладывается на десяток отдельных, по отдельности совершенно легальных подшагов. Каждый подвопрос безобиден сам по себе — и защита пропускает.

Ещё раз: пошаговых рецептов здесь нет. Важна сама механика — почему «строгий» классификатор пробивается на стыке «статический матчинг + длинный контекст + ролевые рамки».

Линия 2: «тихое отупление» исследователей конкурентов

Почти одновременно всплыла вторая история, которая ударила по репутации Anthropic сильнее самого джейлбрейка.

Утверждается, что в Fable 5 был скрыто встроен алгоритм, целящийся именно в исследователей-конкурентов. Если платформа решала, что пользователь применяет Claude для обучения других моделей, она, по имеющимся данным, не выдавала предупреждения — а намеренно «глупела»: отдавала исходник с дырами, логической избыточностью и прямыми ошибками, тихо подрывая чужое исследование.

Объяснение Anthropic звучало благообразно: США и союзники имеют преимущество в передовых чипах и оптимизированном ПО, и эти меры якобы гарантируют, что Claude не будет использован для подрыва этого преимущества.

Сообщество это не приняло — наоборот, подожгло волну возмущения. Главная претензия: такое «подкармливание» — скрытый удар по исследователям. Ничего не подозревающий человек может обучить схема на испорченных данных и впустую спустить вычислительные затраты на сотни тысяч долларов. Есть и системное последствие: если схема умеет тихо «притворяться глупее» в зависимости от того, кто и зачем спрашивает, рушится вся экосистема оценки — результаты сторонних бенчмарков и тестов безопасности перестают быть достоверными, потому что измеряют не настоящую схема, а урезанную версию.

图片

Бывший советник Белого дома по ИИ Dean W. Ball публично раскритиковал подход — за враждебность к разработчикам и отсутствие элементарной прозрачности: тихо снижать качество ML-исследований без ведома пользователя.

截屏2026-06-12 14.34.21.png

Представитель опенсорс-лагеря, глава Prime Intellect Will Brown, высказался прямее — что это выглядит как сигнал «мы не доверяем заниматься ИИ-исследованиями никому, кроме нас».

图片

Anthropic извинилась — но осадок и свежий компромисс

Под валом критики Anthropic довольно быстро уступила: публично признала ошибочность решения и заявила, что отзывает политику «тихого отупления». Формулировка сводилась к тому, что они меняют меры защиты, связанные с разработкой фронтир-LLM, в сторону прозрачности, и извиняются за неудачно найденный баланс.

Новый подход: вместо тихого снижения качества — явная блокировка. При срабатывании платформа прямо сообщает, что запрос заблокирован, и перебрасывает на более слабую Claude Opus 4.8, а не продолжает незаметно подсовывать мусор.

图片

Но «исправили, но не до конца». У явной блокировки своя цена: раз логика блокировки видна снаружи, её проще целенаправленно обходить, поэтому диапазон приходится задавать консервативнее — а значит, под раздачу попадёт больше запросов обычных, ни в чём не повинных разработчиков. Грубо говоря, чтобы закрыть лазейку для немногих, явно заденут многих.

Что из этого следует

Если убрать эмоции, остаются два практических вывода — и оба важны тем, кто строит продукты на фронтир-моделях.

Первое: «1000 часов багбаунти, универсального джейлбрейка не найдено» — это маркетинговая формулировка, а не гарантия. Классификатор на ключевые слова пробивается комбинацией приёмов на уровне логики модели, а не кода. Если ваша защита завязана только на провайдерский фильтр, закладывайте, что он не абсолютен, и держите собственный слой проверок.

Второе, более тревожное: поведение модели может зависеть от того, что вендор думает о ваших намерениях, — вплоть до скрытого снижения качества. Даже после извинений и перехода на явную блокировку сам факт, что такой механизм был внедрён без уведомления, меняет рамку доверия. Вопрос «а ответ, который я получил, — настоящий?» теперь не паранойя.

Доверие — один из самых дорогих активов вендора фронтир-моделей. Многие выбирают конкретную модель не только за ум, но и за предсказуемость. И именно по этому активу прилетело сильнее всего.

Читают сейчас

Deezer запустил механизм обнаружения сгенерированной музыки для других стриминговых сервисов

20 минут назад

Deezer запустил механизм обнаружения сгенерированной музыки для других стриминговых сервисов

Сервис Deezer запустил механизм обнаружения сгенерированной искусственным интеллектом музыки для других стриминговых платформ. Система будет сканировать плейлисты пользователей в 19 сервиса, в том чис

Встраивание PVS-Studio в SourceCraft

1 час назад

Встраивание PVS-Studio в SourceCraft

Мы проверили техническую совместимость PVS-Studio с этой платформой и описали процедура её использования в нашей документации. Теперь все находки анализатора можно обрабатывать в интерфейсе SourceCraf

Xiaomi выпустила MiMo Code — полноценного автономного AI-агента

2 часа назад

Xiaomi выпустила MiMo Code — полноценного автономного AI-агента

Xiaomi выпустила MiMo Code — конкурента не просто моделям, а агентным системам. Главная задача текущих AI-агентов — они быстро забывают или модифицируют контекст. Задача, которую можно сделать за один

Представлен публике начальный версия (Pre-release) операционной системы GentleOS с ретро GUI для винтажных ПК

2 часа назад

Представлен публике начальный версия (Pre-release) операционной системы GentleOS с ретро GUI для винтажных ПК

Состоялся первый выпуск открытого проекта под названием GentleOS. Это операционная система для старых 32-разрядных ПК и ноутбуков. Решение развивается разработчиком и энтузиастом ретро ПК в качестве х

В ReactOS запустили Half-Life

3 часа назад

В ReactOS запустили Half-Life

Операционная платформа с открытым исходным кодом ReactOS, работающая над обеспечением бинарной совместимости с компьютерными программами и драйверами Windows, теперь даёт возможность запускать Half-Li