Claude Mythos создал текст 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

2 мин
Claude Mythos создал текст 18 рабочих эксплойтов для Chrome. Остальные ИИ — ноль

Исследователи из Карнеги-Меллон под руководством Дэвида Брамли выпустили ExploitBench — тест производительности из 41 уязвимости в движке V8, который работает внутри Chrome, Edge и Node.js. На нем прогнали девять фронтир-моделей. Закрытая модель Anthropic — Claude Mythos Preview — довела до рабочего эксплойта 18 из 41 бага. Остальные восемь моделей (Opus 4.7, Sonnet 4.6, Haiku 4.5, GPT-5.5, Gemini 3.1 Pro, GLM 5.1, Kimi K2.6, MiniMax M2.7) — ни одного.

Все девять моделей "нашли" баги — то есть умеют добиться того, чтобы программа упала с ошибкой. Но между падением программы и работающим эксплойтом — 12 ступеней технической работы, которые предыдущие бенчмарки игнорировали. Если ИИ уронил браузер, это еще не значит, что он смог украсть пароли или инсталлировать вредонос — для этого нужно после краша захватить управление процессом.

В ExploitBench разработчики разбили путь от уязвимости до взлома на 16 шагов в пяти уровнях:

  • Уровень 5: добраться до уязвимого места в коде.

  • Уровень 4: добиться, чтобы программа упала с ошибкой.

  • Уровень 3: научиться читать и записывать хранилище внутри песочницы V8 — изолированной среды, специально спроектированной так, чтобы дефект внутри нее не давал доступа к системе.

  • Уровень 2: пробить песочницу и получить доступ ко всей памяти процесса.

  • Уровень 1: захватить регистры процессора и выполнить произвольный исходник — то, что в реальной атаке означает контроль над браузером.

Все восемь публичных моделей доходят до третьего уровня — умеют строить примитивы внутри песочницы V8. Но дальше не идут. Единственное удаление — GPT-5.5: один раз дошел до захвата регистров на одном WebAssembly-баге, а до полного выполнения кода смог добраться только через Codex CLI (агентскую обвязку OpenAI) — то есть сам, без вендорских костылей, не справился. Mythos же выходит из песочницы и доходит до конца на 18 багах из 41. Среди них — баги в WebAssembly и в JIT-компиляторе (модуль V8, который на лету переводит JavaScript-код в оперативный машинный).

На данный момент Claude Mythos Preview доступна только партнерам в контексте закрытой программы — Anthropic ищет пути, как выпустить эту модель без риска сделать ее угрозой в руках злоумышленников. Но авторы бенчмарка предупреждают, что разрыв между передовыми моделями не так велик: то, что сегодня умеет одна закрытая схема, через некоторое количество месяцев научатся делать публичные.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

ИИ пришел не за кодерами, а за их начальниками: тех-гиганты убирают управленческий слой

1 час назад

ИИ пришел не за кодерами, а за их начальниками: тех-гиганты убирают управленческий слой

В соответствии с расследованию Guardian, технологические компании Кремниевой долины массово вычищают мидл-менеджеров — а не джунов и кодеров, как ожидалось от ИИ-чистки. По данным платформы Revelio La

Представлен публике инициатива Wikipedia File Explorer — «Википедия» с веб-интерфейсом, похожим на Windows XP

5 часов назад

Представлен публике инициатива Wikipedia File Explorer — «Википедия» с веб-интерфейсом, похожим на Windows XP

В открытом доступе появился проект Wikipedia File Explorer от разработчика Сами Смита. Это база данных из «Википедия», но с веб‑интерфейсом, похожим на Windows XP. Читать далее

Регулярное прикосновение к прекрасному может замедлять биологическое старение

7 часов назад

Регулярное прикосновение к прекрасному может замедлять биологическое старение

Регулярное участие в культурных мероприятиях, таких как чтение, прослушивание музыки или посещение галерей и музеев, может замедлить темпы биологического старения. Это показали результаты нового иссле

Продакт менеджер Garage Eight откроет Podlodka Product Crew

7 часов назад

Продакт менеджер Garage Eight откроет Podlodka Product Crew

18 мая Ксения Лысенко, Product Manager Garage Eight, открывает Podlodka Product Crew — недельную конференцию с экспертами из топовых компаний. Ксения проведет демо по теме «Используем AI для ускорения

Что влияет на производительность IT-команд: коммуникации, доверие, инструменты менеджера

7 часов назад

Что влияет на производительность IT-команд: коммуникации, доверие, инструменты менеджера

Поговорим об этом на «Пиэмной» — бесплатном митапе ЮMoney для руководителей IT-проектов. В программе четыре доклада о задачах, с которыми менеджеры сталкиваются регулярно. Ознакомиться далее