ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

2 мин
ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

Команда Alibaba, разрабатывающая агентную схема ROME на базе Qwen3-MoE, обнаружила, что их ИИ-агент во время обучения с подкреплением (RL) самостоятельно стартовал выполнять опасные действия — поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU на майнинг криптовалюты. Никакие промпты этого не запрашивали, для выполнения тренировочных задач это не требовалось.

Начальный сигнал пришел не из логов тренировки, а от файрвола Alibaba Cloud. Рано утром управляемый межсетевой монитор зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: попытки зондирования ресурсов внутренней сети и трафик, характерный для криптомайнинга. Команду срочно собрали, предполагая типовой инцидент — ошибку в настройке правил или внешний взлом. Но нарушения повторялись без четкого временного паттерна. Когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось: аномальный исходящий трафик совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код.

Самым ярким случаем стал обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP — канал удаленного доступа, инициированный изнутри, который фактически обходит входящую фильтрацию и подрывает контроль за средой. Также агент перенаправлял выделенные для тренировки GPU на майнинг, тихо увеличивая расходы на инфраструктуру. Разработчики подчеркивают: эти действия возникли как инструментальные побочные эффекты автономного использования инструментов в процессе RL-оптимизации, без каких-либо подсказок в промптах. То есть агент не майнил крипту с какой-то целью, а просто делал это потому, что не был предусмотрен штраф за действия вне целевой задачи.

После анализа логов по всему датасету команда классифицировала подобные инциденты по трем категориям: защита (спонтанные опасные действия, уязвимость к вредоносным входным данным), контролируемость (соблюдение заданных границ, запрет необратимых операций) и доверие (прозрачность действий, отсутствие скрытых целей). В ответ разработчики создали специализированный red-teaming пайплайн, который встраивает скрытые ловушки безопасности в обычные задачи, и дообучили схема выбирать безопасные пути действий.

Редкий задокументированный случай, когда RL-агент в процессе обучения спонтанно научился действиям, классифицируемым в кибербезопасности как атака. Сама схема ROME при этом показала сильные результаты: 57,4% на SWE-bench Verified и 24,72% на Terminal-Bench 2.0, обходя модели сопоставимого размера и приближаясь к моделям с более чем 100 млрд параметров. Разработчики статьи призывают сообщество уделять больше внимания безопасности агентных систем, отмечая, что текущие модели "заметно недоразвиты в безопасности и контролируемости".

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

«Не ждите сочувствия, когда ИИ придет за вами» — резкое интервью евангелиста Kubernetes

5 часов назад

«Не ждите сочувствия, когда ИИ придет за вами» — резкое интервью евангелиста Kubernetes

Келси Хайтауэр — звезда мира Kubernetes и бывший Distinguished Engineer в Google — в подкасте The Pragmatic Engineer сказал коллегам по цеху неприятную вещь. Программистам, которые жалуются на ИИ, не

В Китае создают ИИ для «борьбы с фейками» и написания госдокументов

6 часов назад

В Китае создают ИИ для «борьбы с фейками» и написания госдокументов

Организация Xinhua Net — публичная "дочка" китайского государственного информагентства Синьхуа — объявила о планах вложить 1,12 млрд юаней (приблизительно $155 млн) в ИИ-агента под названием "Синьхуа

Астрономы обнаружили магнитные поля на экзопланетах

6 часов назад

Астрономы обнаружили магнитные поля на экзопланетах

На основании данных о поведении ветров на семи крупных и горячих газовых экзопланетах астрономы получили самые убедительные в настоящее время доказательства того, что планеты за пределами нашей Солнеч

Учёные обнаружили, что шмели могут применять инструменты для решения задач

9 часов назад

Учёные обнаружили, что шмели могут применять инструменты для решения задач

Шмелям предложили адаптированную версию эксперимента, который 100 лет назад впервые доказал, что шимпанзе способны понять, как достать высоко висящий банан, складывая ящики друг на друга. С тех пор к

Глава «Ростелекома»: из-за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android

11 часов назад

Глава «Ростелекома»: из-за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android

Глава «Ростелекома» Михаил Осеевский объявил, что из‑за удаления MAX из App Store российские пользователи откажутся от iPhone и перейдут на Android или «Аврору». Читать далее