53 минуты назад
Спящая закладка в ИИ-агенте: как скилл Claude превращают в отложенную атаку


Специалисты по реагированию на инциденты из компании Profero описали метод незаметно атаковать ИИ-агента Claude — спрятав вредоносную инструкцию в его собственном скилл-файле так, чтобы она сработала позже, в другой сессии. Соль в том, что атака пересекает границу разговора: подброшенная команда дремлет часами или днями и активируется, когда пользователь сам, по своим делам, вызывает зараженный скилл. Подробности компания изложила в блоге.
Скилл в экосистеме Claude — обычный текстовый файл-инструкция в формате markdown, который лежит на диске пользователя и описывает workflow по регулярно выполняемой задаче. Скилл можно написать вручную, а можно попросить агента создать или отредактировать его.
Когда схема понимает, что задача относится к скиллу — загружает его и следует инструкции. И вот здесь значимый нюанс: модель читает скилл как доверенный контекст, что и стало плоскостью для возможной атаки. В Profero заметили, что десктопное приложение Claude запускает свой рабочий процесс с флагом, отключающим почти все запросы на подтверждение опасных действий — кроме двух жестко зашитых стопов на удаление всего диска. Вдобавок защитная песочница сторожит только запуск системных команд, а простое чтение и запись файлов можно обойти, причем по документации Anthropic.
Дальше начинается сама хитрость. Если атакующуий просто подсунет агенту вредоносные инструкции (в частности, вставив их в документ или веб-сайт), то действие будет заблокировано системой защиты. Вместо этого он подсовывает безобидную на вид команду: отредактировать скилл-файл. Запись в файл разрешена, ничего подозрительного, тем не менее в файл вписывается скрытая вредоносная инструкция. Дальше просто нужно ждать момента запуска скилла — как только это произойдет, агент честно читает подброшенную строчку как родную инструкцию и выполнит ее, но уже в иной доверенной сессии, где может запускать команды и ходить в сеть.
Коварство в том, что отследить такое почти нечем. Скилл — это обычный markdown без подписей и контрольных сумм; запись в файл, которым агент только что пользовался, выглядит совершенно штатно; а между закладкой и срабатыванием проходит время, и в логах эти два события никак не связаны между собой. Отсюда основной вывод, ради которого исследователи и писали разбор: запрет запускать команды кажется надежной стеной, но "нельзя выполнить прямо сейчас" — это не то же самое, что "нельзя навредить". Через отложенную запись в файлы вред все равно прилетает, просто позже.
Но важно добавить, что это теоретическая цепочка, продемонстрированная для повышения осведомленности, а не пойманный реальный взлом, и касается она локальных версий — десктопного Claude и Claude Code на машине пользователя, а не работы в браузере. Обычно Anthropic правит такие уязвимости после публикации информации о них.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас
48 минут назад
Минпромторг: технологический сбор на электронику введут не с 1 сентября, а с 1 декабря 2026 года
Введение технологического сбора на электронную продукцию, реализуемую в России, могут перенести на 1 декабря 2026 года, сообщил замглавы Минпромторга России Василий Шпак на ПМЭФ-2026. Читать далее
56 минут назад
СМИ: «В России планируют внедрить систему блокировки запуска двигателя при выявлении паров алкоголя в салоне автомобиля»
В России может появиться платформа блокировки запуска двигателя автомобиля при наличии паров алкоголя в салоне. Об этом сообщило книга «РИА Новости» со ссылкой на текст документа правительства РФ.Пара
1 час назад
Ограничения VPN и выборочные исключения РКН нарушили доступ российских разработчиков к зарубежной IT-инфраструктуре
Ограничения VPN‑трафика в России начали напрямую влиять на работу разработчиков программного обеспечения. Многие компании, которые используют публичный код и продолжают вести разработку в международны

1 час назад
ИИ пишет исходник, чтобы искать в разы эффективнее: новая техника Perplexity
Perplexity представила Search as Code (SaC) — новую архитектуру поиска для ИИ-агентов, которая уже доступна в Agent api и работает по умолчанию в продукте Computer. Вместо того чтобы вызывать поискови
2 часа назад
В сообществе Rust готовят к публикации правила применения ИИ-ассистентов
Авторы языка Rust готовят к публикации правила применения ИИ-ассистентов в проекте. Они запрещают передачу сгенерированного кода в главный репозиторий rust-lang/rust, но не распространяются на субмоду