15 мая 2026, 23:38

Claude Mythos создал текст 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

2 мин

Исследователи из Карнеги-Меллон под руководством Дэвида Брамли выпустили ExploitBench — тест производительности из 41 уязвимости в движке V8, который работает внутри Chrome, Edge и Node.js. На нем прогнали девять фронтир-моделей. Закрытая модель Anthropic — Claude Mythos Preview — довела до рабочего эксплойта 18 из 41 бага. Остальные восемь моделей (Opus 4.7, Sonnet 4.6, Haiku 4.5, GPT-5.5, Gemini 3.1 Pro, GLM 5.1, Kimi K2.6, MiniMax M2.7) — ни одного.

Все девять моделей "нашли" баги — то есть умеют добиться того, чтобы программа упала с ошибкой. Но между падением программы и работающим эксплойтом — 12 ступеней технической работы, которые предыдущие бенчмарки игнорировали. Если ИИ уронил браузер, это еще не значит, что он смог украсть пароли или инсталлировать вредонос — для этого нужно после краша захватить управление процессом.

В ExploitBench разработчики разбили путь от уязвимости до взлома на 16 шагов в пяти уровнях:

Уровень 5: добраться до уязвимого места в коде.
Уровень 4: добиться, чтобы программа упала с ошибкой.
Уровень 3: научиться читать и записывать хранилище внутри песочницы V8 — изолированной среды, специально спроектированной так, чтобы дефект внутри нее не давал доступа к системе.
Уровень 2: пробить песочницу и получить доступ ко всей памяти процесса.
Уровень 1: захватить регистры процессора и выполнить произвольный исходник — то, что в реальной атаке означает контроль над браузером.

Все восемь публичных моделей доходят до третьего уровня — умеют строить примитивы внутри песочницы V8. Но дальше не идут. Единственное удаление — GPT-5.5: один раз дошел до захвата регистров на одном WebAssembly-баге, а до полного выполнения кода смог добраться только через Codex CLI (агентскую обвязку OpenAI) — то есть сам, без вендорских костылей, не справился. Mythos же выходит из песочницы и доходит до конца на 18 багах из 41. Среди них — баги в WebAssembly и в JIT-компиляторе (модуль V8, который на лету переводит JavaScript-код в оперативный машинный).

На данный момент Claude Mythos Preview доступна только партнерам в контексте закрытой программы — Anthropic ищет пути, как выпустить эту модель без риска сделать ее угрозой в руках злоумышленников. Но авторы бенчмарка предупреждают, что разрыв между передовыми моделями не так велик: то, что сегодня умеет одна закрытая схема, через некоторое количество месяцев научатся делать публичные.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Claude Mythos ExploitBench

Читают сейчас

2 часа назад

«Ред Софт» регистрирует товарный знак «Ред ОС»

Компания «Ред Софт» подала заявку на регистрацию товарного знака «Ред ОС М». Заявка поступила в Роспатент 24 июня 2026 года. Об этом сообщил блогер Максим Горшенин в своём Telegram-канале. В перечне т

3 часа назад

МВД поддержало внесение использования искусственного интеллекта в список отягчающих обстоятельств УК РФ

МВД России поддержало идею добавить использование искусственного интеллекта в перечень отягчающих обстоятельств в Уголовном кодексе. Об этом на Петербургском международном юридическом форуме сообщил з

4 часа назад

Cursor опубликовал программа для iPhone: ИИ-агенты теперь живут в кармане

Cursor выпустил нативное программа для iPhone — пока в статусе публичной беты. Теперь ИИ-агентов, которые пишут и правят исходник, можно запускать и контролировать прямо со смартфона: поставить задачу

6 часов назад

На Maker’s Pet представили oomwoo — инициатива открытого робота-пылесоса, который можно собрать самому

На портале Maker’s Pet анонсировали проект oomwoo — робот-пылесос на открытой архитектуре, который можно собрать самому и модифицировать. Устройство должно получить доступное на рынке железо, прошивку

6 часов назад

Крупнейший в мире ускоритель частиц встал на паузу; его модернизация должна ускорить поиски тёмной материи

Самый мощный в мире ускоритель частиц 29 июня 2026 года прекратил работу, взяв паузу на четыре года для проведения модернизации, которая позволит значительно увеличить его способность к столкновениям