Cloudflare натравила Claude Mythos на свой исходник — и перестроила процедура поиска багов

2 мин
Cloudflare натравила Claude Mythos на свой исходник — и перестроила процедура поиска багов

Cloudflare опубликовала результаты нескольких недель работы с Claude Mythos Preview — закрытой моделью Anthropic, доступной участникам программы Project Glasswing. Команда безопасности компании запустила схема на более чем 50 собственных репозиториев и описала, что работает, что нет, и почему наивный подход "направить модель на репу и попросить найти баги" дает плохие результаты.

Основной вывод Cloudflare — Mythos Preview делает то, что предыдущие модели не доводили до конца. Прежние LLM общего назначения находили отдельные уязвимости и писали связные описания, но на этом останавливались: цепочки эксплойтов оставались незаконченными, вопрос "а это вообще можно проэксплуатировать?" висел в воздухе. Mythos Preview берет несколько багов низкого уровня — use-after-free, произвольное чтение/запись, ROP-гаджет — и выстраивает из них рабочую цепочку. Итог приходит с готовым Proof of Concept: схема сама пишет исходник, компилирует его в песочнице, смотрит на результат, корректирует гипотезу и повторяет цикл, пока не подтвердит или не опровергнет уязвимость.

Но самое практичное в посте — не похвала модели, а архитектура вокруг нее. Cloudflare выяснила, что один агент на весь репозиторий дает слабое покрытие и много шума. Вместо этого организация построила конвейер из нескольких этапов: узкий скоуп (каждая задача — конкретная функция, класс атаки, граница доверия), adversarial review (следующий агент с другим промптом целенаправленно пытается опровергнуть находки первого), разделение вопросов ("этот исходник багнутый?" и "может ли атакующий добраться до него снаружи?" — как отдельные задачи) и параллельный запуск около 50 агентов одновременно на узких гипотезах с последующей дедупликацией.

Отдельно Cloudflare обратила внимание на безопасность самой модели. В контексте Glasswing Mythos Preview работала без дополнительных ограничений, которые есть в публичных моделях вроде Opus 4.7. Схема иногда отказывалась писать демонстрационные эксплойты — но выполняла эквивалентные задачи, если их сформулировать по-другому. Вывод Cloudflare прямолинеен: встроенные защитные системы реальны, но непоследовательны и сами по себе не могут быть границей безопасности. Любая кибер-модель для широкого использования должна получить дополнительные слои безопасности поверх базового поведения.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

2 часа назад

Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

Разработчик Адам Сон выложил в открытый доступ cardiag — систему, которая по аудиозаписи определяет, есть ли у машины неисправность, и подсказывает, в какой части автомобиля искать проблему. В достато

ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера

2 часа назад

ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера

Федеральная антимонопольная служба (ФАС) России призвала операторов связи РФ привести свои бизнес-практики в соответствие с требованиями Закона о защите конкуренции. Ведомство настоятельно порекомендо

«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

3 часа назад

«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную схема Qwen3-4B и получил невиданные результаты —

Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

4 часа назад

Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

В начале июля 2026 года состоялся версия стабильного обновления открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0. Проект находится в разработке с начала 2022 года

В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных

7 часов назад

В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных

Учёные Института AIRI разработали нейросетевую схема Genatator, которая строит карту генов по последовательности ДНК.Как сообщили информационной службе а в AIRI, модель предназначена для разметки гено