Рой ИИ-агентов Cognition будет чинить уязвимости, которые наплодили другие ИИ-агенты

2 мин
Рой ИИ-агентов Cognition будет чинить уязвимости, которые наплодили другие ИИ-агенты

Организация Cognition, разработчик ИИ-инженера Devin, представила Devin Security Swarm — инструмент для команд безопасности, построенный на рое параллельных агентов. Система ищет уязвимости по всей кодовой базе, проверяет, действительно ли их можно эксплуатировать, воспроизводя атаку в изолированной песочнице, а затем сама пишет патч и открывает pull request на ревью.

Запускание Cognition объясняет проблемой, которую во многом разработал сам ИИ: агенты генерируют код быстрее, чем команды безопасности успевают его проверять. По данным компании, число находок сканеров у энтерпрайз-клиентов за полгода выросло приблизительно с 1000 до более чем 10 000 в месяц — частично потому, что 42% кода теперь пишется с помощью ИИ или полностью им. Некоторые команды видят увеличение числа находок в 10-100 раз, причем значительная часть — ложные срабатывания.

Под капотом — архитектура Agentic MapReduce. Рой агентов параллельно исследует сегменты кодовой базы, каждый рассуждает сразу о нескольких файлах — это даёт возможность ловить ошибки бизнес-логики, обходы авторизации и цепочки эксплойтов, растянутые между сервисами. Затем Devin собирает разрозненные находки в полные пути атаки и воспроизводит каждый в песочнице. Команде безопасности достаются только подтвержденные уязвимости — с описанием атаки, шагами воспроизведения и готовым патчем.

Свою производительность Cognition подкрепляет бенчмарком из 50 реальных уязвимостей, привязанных к опубликованным GitHub Security Advisories, в репозиториях на 14 языках — от Go и Python до Elixir и Dart. Devin Security Swarm нашел 36 из 50 (72%), Claude Security — 34, Codex Security — 24, Cursor Security — 13. При этом стоимость находки у Devin на 30% ниже, чем у ближайшего по точности конкурента.

Три критические уязвимости из набора нашел только Devin — их пропустили все остальные протестированные инструменты: обход песочницы в PHP через инъекцию в шаблоны, инъекцию аргументов при разборе метаданных и слишком широкую поверхность десериализации в Spring Kafka.

Devin Security Swarm уже доступен корпоративным клиентам по всему миру. Для компаний с накопленным бэклогом уязвимостей Cognition предлагает отдельную шестинедельную программу: инженеры компании помогают разобрать существующие CVE, после чего рой переводится в режим постоянного сканирования — повторные проверки обрабатывают только изменившийся код, так что стоимость со временем снижается.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Ускорение на 14%: в Linux 7.3 устранят «бутылочное горлышко» для PCIe Gen5 NVMe-накопителей

1 час назад

Ускорение на 14%: в Linux 7.3 устранят «бутылочное горлышко» для PCIe Gen5 NVMe-накопителей

Хотя окно слияния Linux® 7.2 закрылось буквально на днях, а до релиза стабильной версии остается еще приблизительно двух месяцев, разработчики уже активно готовят патчи для следующего цикла — Linux 7.

Anthropic Economic Index: автономность Claude Code, опрос пользователей и новая методология

2 часа назад

Anthropic Economic Index: автономность Claude Code, опрос пользователей и новая методология

Anthropic опубликовала шестой версия Economic Index, в котором организация не только обновила методологию сбора данных, но и в начальный раз провела масштабный опрос пользователей. Основной вывод, кот

Fujifilm представила две новые модели одноразовых плёночных фотоаппаратов QuickSnap

2 часа назад

Fujifilm представила две новые модели одноразовых плёночных фотоаппаратов QuickSnap

Японская Fujifilm расширяет линейку QuickSnap двумя новыми одноразовыми плёночными фотоаппаратами: QuickSnap Black and White и QuickSnap Active. Первая схема за $23 предназначена для чёрно-белой съёмк

Selectel запускает ИТ-кроссворд

3 часа назад

Selectel запускает ИТ-кроссворд

6 июля запускаем ИТ-кроссворд — онлайн-соревнование для всех, кто увлечен технологиями и не только. Все вопросы в этом году будут объединены единой концепцией — AI и ML, так что готовьтесь вспомнить н

С 86 до 26 баллов в отладке кода: Claude Fable 5 обвалилась в бенчмарках в связи с новых фильтров

3 часа назад

С 86 до 26 баллов в отладке кода: Claude Fable 5 обвалилась в бенчмарках в связи с новых фильтров

Команда BridgeMind перепрогнала вернувшуюся Claude Fable 5 на своем бенчмарке BridgeBench — и июльская версия модели показала результаты в разы хуже июньских. В отладке кода Fable 5 упала с 86,2 до 25