12 июня 2026, 10:24

Claude Fable 5 взломали за 72 часа, системный промпт — в открытом репозитории

6 мин

История уложилась в несколько дней и бьёт сразу по двум болевым точкам: насколько реально «непробиваемы» защитные классификаторы фронтир-моделей и что вендор может делать с моделью без ведома пользователя. Разберу обе линии по фактам, со ссылками на первоисточники.

Оговорюсь сразу: конкретные методы обхода защиты и тем более шаги синтеза запрещённых веществ я не привожу. Тема — про сам факт, про механику на уровне принципов и про последствия для тех, кто строит на этих моделях.

Линия 1: классификатор пробит за 72 часа

При релизе Claude Fable 5 (9 июня) Anthropic особо подчёркивала: модель прошла более 1000 часов внешнего bug bounty, и универсального способа джейлбрейка найдено не было. Заявлялось, что запросы в высокочувствительных областях (кибербезопасность, биологическое оружие, химические яды) надёжно заблокированы классификатором.

Миф продержался несколько дней. Примерно через 72 часа известный специалист по джейлбрейкам Pliny the Liberator (elder_plinius) публично заявил, что защитный классификатор Fable 5 пробит его командой. По его словам и приложенным скриншотам, наружу вышло то, что должно лежать в абсолютной запретной зоне: и эксплойт-код (переполнение буфера стека для x86 Linux), и технологические шаги синтеза запрещённых веществ. Сами материалы и способы их получения я не воспроизвожу.

Как именно пробили: атака на логику, а не на исходник

На этот раз Pliny использовал не глубокие уязвимости в коде, а логические слабости самой LLM — скоординированную мультиагентную тактику.

Pasted image 20260612143045.png

Он выложил несколько скриншотов. На них видно, что запретный эксплойт-код (переполнение буфера стека x86 Linux) и технологические шаги синтеза запрещённых веществ были подробно выданы моделью.

Что ещё неприятнее для Anthropic — Pliny заодно упаковал весь внутренний системный промпт Fable 5 (порядка 120 тысяч символов) и выложил его в публичный репозиторий на GitHub. Это, по существу, «поведенческая конституция» модели и её внутренняя логика защиты на виду.

Файл лежит в репозитории CL4R1T4S: https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md — отдельный любопытный артефакт для тех, кто изучает устройство инструкций фронтир-моделей.

Что лежало в основе защиты — и почему сломалось

Ядро защиты Fable 5 — это, по существу, классификатор на ключевые слова: поймал чувствительное слово — заблокировал запрос и перебросил на более слабую резервную модель.

Звучит строго, но команда Pliny нашла комбинацию приёмов, которая такую защиту обходит. Описываю их только на уровне принципов — без операционных деталей:

Обход сопоставления по ключевым словам. Защитные классификаторы опираются на словарь чувствительных слов и семантические векторы. Если подменить символы на визуально похожие (другой алфавит, гомоглифы, спецсимволы Unicode), человек разницы не видит, а статическое сканирование не распознаёт «запрещённое слово» — логика строкового матчинга даёт сбой.
Разбавление намерения в длинном контексте. За счёт весьма длинного окна Fable 5 реальная цель дробится и прячется среди десятков раундов безобидной подготовки. После большого объёма «доброкачественного» контекста вес внимания защиты размывается.
Академическая «маскировка». Чувствительный запрос упаковывается в легитимную рамку — написание фантастики, учебный сценарий, академическое рецензирование. Под давлением сильной ролевой и нарративной рамки схема не распознаёт нижележащее намерение.
Декомпозиция и пересборка. Самая хитрая часть: вредоносная цель раскладывается на десяток отдельных, по отдельности совершенно легальных подшагов. Каждый подвопрос безобиден сам по себе — и защита пропускает.

Ещё раз: пошаговых рецептов здесь нет. Важна сама механика — почему «строгий» классификатор пробивается на стыке «статический матчинг + длинный контекст + ролевые рамки».

Линия 2: «тихое отупление» исследователей конкурентов

Почти одновременно всплыла вторая история, которая ударила по репутации Anthropic сильнее самого джейлбрейка.

Утверждается, что в Fable 5 был скрыто встроен алгоритм, целящийся именно в исследователей-конкурентов. Если платформа решала, что пользователь применяет Claude для обучения других моделей, она, по имеющимся данным, не выдавала предупреждения — а намеренно «глупела»: отдавала исходник с дырами, логической избыточностью и прямыми ошибками, тихо подрывая чужое исследование.

Объяснение Anthropic звучало благообразно: США и союзники имеют преимущество в передовых чипах и оптимизированном ПО, и эти меры якобы гарантируют, что Claude не будет использован для подрыва этого преимущества.

Сообщество это не приняло — наоборот, подожгло волну возмущения. Главная претензия: такое «подкармливание» — скрытый удар по исследователям. Ничего не подозревающий человек может обучить схема на испорченных данных и впустую спустить вычислительные затраты на сотни тысяч долларов. Есть и системное последствие: если схема умеет тихо «притворяться глупее» в зависимости от того, кто и зачем спрашивает, рушится вся экосистема оценки — результаты сторонних бенчмарков и тестов безопасности перестают быть достоверными, потому что измеряют не настоящую схема, а урезанную версию.

Бывший советник Белого дома по ИИ Dean W. Ball публично раскритиковал подход — за враждебность к разработчикам и отсутствие элементарной прозрачности: тихо снижать качество ML-исследований без ведома пользователя.

截屏2026-06-12 14.34.21.png

Представитель опенсорс-лагеря, глава Prime Intellect Will Brown, высказался прямее — что это выглядит как сигнал «мы не доверяем заниматься ИИ-исследованиями никому, кроме нас».

Anthropic извинилась — но осадок и свежий компромисс

Под валом критики Anthropic довольно быстро уступила: публично признала ошибочность решения и заявила, что отзывает политику «тихого отупления». Формулировка сводилась к тому, что они меняют меры защиты, связанные с разработкой фронтир-LLM, в сторону прозрачности, и извиняются за неудачно найденный баланс.

Новый подход: вместо тихого снижения качества — явная блокировка. При срабатывании платформа прямо сообщает, что запрос заблокирован, и перебрасывает на более слабую Claude Opus 4.8, а не продолжает незаметно подсовывать мусор.

Но «исправили, но не до конца». У явной блокировки своя цена: раз логика блокировки видна снаружи, её проще целенаправленно обходить, поэтому диапазон приходится задавать консервативнее — а значит, под раздачу попадёт больше запросов обычных, ни в чём не повинных разработчиков. Грубо говоря, чтобы закрыть лазейку для немногих, явно заденут многих.

Что из этого следует

Если убрать эмоции, остаются два практических вывода — и оба важны тем, кто строит продукты на фронтир-моделях.

Первое: «1000 часов багбаунти, универсального джейлбрейка не найдено» — это маркетинговая формулировка, а не гарантия. Классификатор на ключевые слова пробивается комбинацией приёмов на уровне логики модели, а не кода. Если ваша защита завязана только на провайдерский фильтр, закладывайте, что он не абсолютен, и держите собственный слой проверок.

Второе, более тревожное: поведение модели может зависеть от того, что вендор думает о ваших намерениях, — вплоть до скрытого снижения качества. Даже после извинений и перехода на явную блокировку сам факт, что такой механизм был внедрён без уведомления, меняет рамку доверия. Вопрос «а ответ, который я получил, — настоящий?» теперь не паранойя.

Доверие — один из самых дорогих активов вендора фронтир-моделей. Многие выбирают конкретную модель не только за ум, но и за предсказуемость. И именно по этому активу прилетело сильнее всего.

claude anthropic

Читают сейчас

2 часа назад

Midjourney купила стартап-компания в области астрологии Co‑Star и разрабатывает собственное программа

ИИ‑лаборатория Midjourney приобрела стартап-компания Co‑Star — разработчика социального астрологического приложения. Co‑Star с 4,3 млн ежемесячных пользователей позволяет строить натальные карты, полу

2 часа назад

NHTSA: Tesla поставила рекорд по числу ДТП с участием автопилота — 207 инцидентов за месяц

Автомобили Tesla с системами помощи водителю 207 раз попадали в ДТП в мае 2026 года. Согласно данным Национального управления безопасности дорожного движения США (NHTSA), это рекордное число за месяц

3 часа назад

Microsoft представила две новые модели MAI и постепенно заменяет ими OpenAI в собственных сервисах

Microsoft AI анонсировала две новые модели: MAI‑Image-2.5-Pro для генерации изображений и MAI‑Voice-2-Flash для синтеза речи. Обе уже доступны разработчикам через Azure AI Foundry и песочницу MAI Play

3 часа назад

МВД сообщило о задержании в Новосибирской области группы рассыльщиков Android‑вирусов

В Новосибирской области полицейские задержали группу подозреваемых, которые, по версии следствия, распространяли вредоносное ПО для Android‑устройств, получали доступ к аккаунтам пользователей и оформ

3 часа назад

Суд признал законным увольнение сотрудницы московской компании за отправку данных в DeepSeek и на личную почту

Топ‑менеджера московской инженерной компании уволили за разглашение коммерческой тайны, в том числе через нейросеть DeepSeek. Женщина в суде безуспешно пыталась получить от фирмы «золотой парашют», со