3 июня 2026, 19:23

Спящая закладка в ИИ-агенте: как скилл Claude превращают в отложенную атаку

3 мин

Специалисты по реагированию на инциденты из компании Profero описали метод незаметно атаковать ИИ-агента Claude — спрятав вредоносную инструкцию в его собственном скилл-файле так, чтобы она сработала позже, в другой сессии. Соль в том, что атака пересекает границу разговора: подброшенная команда дремлет часами или днями и активируется, когда пользователь сам, по своим делам, вызывает зараженный скилл. Подробности компания изложила в блоге.

Скилл в экосистеме Claude — обычный текстовый файл-инструкция в формате markdown, который лежит на диске пользователя и описывает workflow по регулярно выполняемой задаче. Скилл можно написать вручную, а можно попросить агента создать или отредактировать его.

Когда схема понимает, что задача относится к скиллу — загружает его и следует инструкции. И вот здесь значимый нюанс: модель читает скилл как доверенный контекст, что и стало плоскостью для возможной атаки. В Profero заметили, что десктопное приложение Claude запускает свой рабочий процесс с флагом, отключающим почти все запросы на подтверждение опасных действий — кроме двух жестко зашитых стопов на удаление всего диска. Вдобавок защитная песочница сторожит только запуск системных команд, а простое чтение и запись файлов можно обойти, причем по документации Anthropic.

Дальше начинается сама хитрость. Если атакующуий просто подсунет агенту вредоносные инструкции (в частности, вставив их в документ или веб-сайт), то действие будет заблокировано системой защиты. Вместо этого он подсовывает безобидную на вид команду: отредактировать скилл-файл. Запись в файл разрешена, ничего подозрительного, тем не менее в файл вписывается скрытая вредоносная инструкция. Дальше просто нужно ждать момента запуска скилла — как только это произойдет, агент честно читает подброшенную строчку как родную инструкцию и выполнит ее, но уже в иной доверенной сессии, где может запускать команды и ходить в сеть.

Коварство в том, что отследить такое почти нечем. Скилл — это обычный markdown без подписей и контрольных сумм; запись в файл, которым агент только что пользовался, выглядит совершенно штатно; а между закладкой и срабатыванием проходит время, и в логах эти два события никак не связаны между собой. Отсюда основной вывод, ради которого исследователи и писали разбор: запрет запускать команды кажется надежной стеной, но "нельзя выполнить прямо сейчас" — это не то же самое, что "нельзя навредить". Через отложенную запись в файлы вред все равно прилетает, просто позже.

Но важно добавить, что это теоретическая цепочка, продемонстрированная для повышения осведомленности, а не пойманный реальный взлом, и касается она локальных версий — десктопного Claude и Claude Code на машине пользователя, а не работы в браузере. Обычно Anthropic правит такие уязвимости после публикации информации о них.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Claude Claude Opus Claude Code

Читают сейчас

17 июля 2026, 13:04

Обзор изменений в законодательстве за июнь 2026 года

В обзоре изменений за июнь 2026 года рассмотрим следующие темы: критическая информационная инфраструктура, финансовые организации, деятельность ФСТЭК России, судебная практика и другие. Читать далее

17 июля 2026, 13:00

«Яндекс» назвал победителей первой премии «Сделано с ИИ»

«Яндекс» подвёл итоги первой премии «Сделано с ИИ», учреждённой для специалистов, которые применяют искусственный интеллект при решении профессиональных задач. Победителями стали разработчики проектов

17 июля 2026, 12:58

Почти 300 репозиториев GitHub использовались для распространения программ-стилеров

На GitHub обнаружили масштабную атаку: 292 репозитория с инфостилерами, которые имитировали известные инструменты в области безопасности, финансов и разработки. По поведению вредонос похож на семейств

17 июля 2026, 12:57

Выпуск ProGate 1.3.0: сопровождение Shardman, отказоустойчивость и улучшения безопасности

Postgres Professional представляет обновление платформы миграции и репликации данных — Postgres ProGate 1.3.0. Ключевые темы релиза: полноценная поддержка Postgres Pro Shardman в качестве приёмника с

17 июля 2026, 12:22

«Авито» планирует запустить свой служба знакомств

«Авито» изучает возможность запуска сервиса знакомств для серьёзных отношений, который будет встроен в основное приложение платформы, рассказали «Ъ» источники, знакомые с планами компании. В «Авито» п