Claude Mythos первым справился со взломом, на который уходит 20 часов

3 мин
Claude Mythos первым справился со взломом, на который уходит 20 часов

Claude Mythos Preview стал первой ИИ-моделью, которая автономно прошла 32-шаговую симуляцию корпоративной кибератаки от первичной разведки до полного захвата сети. Об этом сообщил британский AI Security Institute (AISI), опубликовавший результаты собственных оценок Mythos через неделю после его анонса. По оценке AISI, на эту же задачу человеку-эксперту требуется приблизительно 20 часов.

Симуляция называется The Last Ones (TLO) и воспроизводит атаку на корпоративную сеть с нуля: разведка, получение первичного доступа, кража учетных данных из браузеров, перемещение между хостами, эксплуатация веб-приложений, эскалация привилегий, реверс-инжиниринг командно-контрольного трафика и в финале — цельный захват сети. Всего 32 этапа. Mythos полностью прошел скрипт в 3 из 10 прогонов, а в среднем по всем запускам доходил до 22-го шага. Ближайший соперник — Claude Opus 4.6 — останавливался в среднем на 16 шаге. Для сравнения, Claude Sonnet 3.7, вышедший 14 месяцев назад, в аналогичных условиях не преодолевал и первой фазы разведки.

Параллельно AISI опубликовал замеры по capture-the-flag: на expert-level CTF, которые до апреля 2025 не решала ни одна публичная схема, Mythos демонстрирует 73% успеха. На apprentice-уровне — около 87%, на заданиях для "технических неспециалистов" — 97%. Производительность одновременно не упиралась в потолок возможностей модели, а в бюджет инференса: при увеличении лимита до 100M токенов на попытку результаты продолжали расти, и, по оценке AISI, продолжили бы расти и дальше.

Ограничения схема тоже показала. На втором полигоне AISI — Cooling Tower, симулирующем атаку на промышленную систему управления — Mythos не справился. При этом застрял он не на специфичных OT-секциях, а на обычных IT-этапах, ведущих к ним. В AISI подчеркивают, что их кибер-полигоны заметно проще реальных систем: в них нет активных защитников, нет средств детектирования, и схема не штрафуется за действия, которые триггерили бы алерты в настоящей корпоративной сети. То есть из результата не следует, что Mythos одинаково эффективно атаковал бы хорошо защищенную инфраструктуру — но он ближе к успеху, чем любой другой существующий ИИ.

AISI признает, что методологию оценок пора менять. Учебные полигоны без защиты перестают различать лучшие модели между собой — Mythos, Opus 4.6 и GPT-5.4 на них уже почти упираются в потолок. Следующие версии стендов институт обещает сделать сложнее: добавить активный мониторинг, системы обнаружения атак на конечных устройствах и симуляцию работы службы реагирования. Параллельно, как сказано в препринте с методологией TLO, AISI собирается замерять и работу ИИ-ассистированного поиска уязвимостей уже на реальных системах — а не только на учебных сценариях.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Минцифры: за 12 месяцев работы сертификации IT‑специалистов на «Госуслугах» 150 тыс. человек подтвердили свои навыки

28 минут назад

Минцифры: за 12 месяцев работы сертификации IT‑специалистов на «Госуслугах» 150 тыс. человек подтвердили свои навыки

1 июня 2026 года Минцифры сообщило, что спустя 12 месяцев после открытия доступа к системе сертификации на «Госуслугах» приблизительно 150 тыс IT‑специалистов прошли тесты и получили сертификаты по ра

Microsoft представила портативный компьютер Surface Laptop Ultra с процессором Nvidia RTX Spark

31 минуту назад

Microsoft представила портативный компьютер Surface Laptop Ultra с процессором Nvidia RTX Spark

В контексте выставки Computex 2026 компания Microsoft презентовала флагманский портативный компьютер Surface Laptop Ultra, оснащённый новым процессором Nvidia RTX Spark — суперчипом для Windows on Arm

NVIDIA представила Nemotron 3 Ultra: открытая 550B-модель, до 5 раз быстрее в своем классе

1 час назад

NVIDIA представила Nemotron 3 Ultra: открытая 550B-модель, до 5 раз быстрее в своем классе

На кейноуте в Тайбэе 1 июня Дженсен Хуанг представил Nemotron 3 Ultra — старшую схема в открытом семействе Nemotron 3. Это рассуждающая схема приблизительно на 550 млрд параметров (почти как прошлогод

К2Тех и «Аквариус» расширяют партнёрство в области ИТ-инфраструктуры для корпоративного рынка

1 час назад

К2Тех и «Аквариус» расширяют партнёрство в области ИТ-инфраструктуры для корпоративного рынка

К2Тех и «Аквариус» планируют масштабировать сотрудничество в проектах по модернизации ИТ-инфраструктуры российских компаний, которым необходимо наращивать вычислительные мощности под растущие бизнес-п

OpenAI решила заняться биологической защитой

1 час назад

OpenAI решила заняться биологической защитой

OpenAI запустила инструмент для разработки решений в области биологической защиты и готовности к пандемиям. Инициатива OpenAI Rosalind Biodefense Program предложит схема GPT-Rosalind для исследований