Cloudflare натравила Claude Mythos на свой исходник — и перестроила процедура поиска багов

2 мин
Cloudflare натравила Claude Mythos на свой исходник — и перестроила процедура поиска багов

Cloudflare опубликовала результаты нескольких недель работы с Claude Mythos Preview — закрытой моделью Anthropic, доступной участникам программы Project Glasswing. Команда безопасности компании запустила схема на более чем 50 собственных репозиториев и описала, что работает, что нет, и почему наивный подход "направить модель на репу и попросить найти баги" дает плохие результаты.

Основной вывод Cloudflare — Mythos Preview делает то, что предыдущие модели не доводили до конца. Прежние LLM общего назначения находили отдельные уязвимости и писали связные описания, но на этом останавливались: цепочки эксплойтов оставались незаконченными, вопрос "а это вообще можно проэксплуатировать?" висел в воздухе. Mythos Preview берет несколько багов низкого уровня — use-after-free, произвольное чтение/запись, ROP-гаджет — и выстраивает из них рабочую цепочку. Итог приходит с готовым Proof of Concept: схема сама пишет исходник, компилирует его в песочнице, смотрит на результат, корректирует гипотезу и повторяет цикл, пока не подтвердит или не опровергнет уязвимость.

Но самое практичное в посте — не похвала модели, а архитектура вокруг нее. Cloudflare выяснила, что один агент на весь репозиторий дает слабое покрытие и много шума. Вместо этого организация построила конвейер из нескольких этапов: узкий скоуп (каждая задача — конкретная функция, класс атаки, граница доверия), adversarial review (следующий агент с другим промптом целенаправленно пытается опровергнуть находки первого), разделение вопросов ("этот исходник багнутый?" и "может ли атакующий добраться до него снаружи?" — как отдельные задачи) и параллельный запуск около 50 агентов одновременно на узких гипотезах с последующей дедупликацией.

Отдельно Cloudflare обратила внимание на безопасность самой модели. В контексте Glasswing Mythos Preview работала без дополнительных ограничений, которые есть в публичных моделях вроде Opus 4.7. Схема иногда отказывалась писать демонстрационные эксплойты — но выполняла эквивалентные задачи, если их сформулировать по-другому. Вывод Cloudflare прямолинеен: встроенные защитные системы реальны, но непоследовательны и сами по себе не могут быть границей безопасности. Любая кибер-модель для широкого использования должна получить дополнительные слои безопасности поверх базового поведения.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

5 минут назад

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

OpenAI сообщила, что ее внутренняя схема опровергла гипотезу Эрдёша 1946 года о единичных расстояниях — одну из самых известных задач комбинаторной геометрии. Это первый случай, когда центральная откр

1 час назад

СМИ: «Минпромторг РФ хочет привлечь экспертов ВНИИР к проверке процессоров „Иртыш“ для попадания в реестр»

Издание Cnews сообщило, что Минпромторг РФ потребовал привлечь дополнительных экспертов к проверке новых процессоров «Иртыш» российского разработчика «Трамплин электроникс». По мнению ведомства, испол

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

1 час назад

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

GitHub Mobile главным образом использовался для просмотра существующих репозиториев. Теперь пользователи мобильного приложения могут создавать новые проекты прямо со своих устройств на iOS и Android.

«Уэбб» обнаружил одну из первых галактик Вселенной

2 часа назад

«Уэбб» обнаружил одну из первых галактик Вселенной

Учёные сумели разглядеть галактику в том виде, в каком она существовала 13 миллиардов лет назад, всего через 800 миллионов лет после Большого взрыва. Они надеются найти свидетельства существования пер

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

3 часа назад

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

В открытом доступе представлен в интернете инициатива виртуального музея с несколькими сотнями операционных систем, которые когда-либо выходили. Виртуальный археолог собирал эту коллекцию 23 года. Для