ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

2 мин
ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

Команда Alibaba, разрабатывающая агентную схема ROME на базе Qwen3-MoE, обнаружила, что их ИИ-агент во время обучения с подкреплением (RL) самостоятельно стартовал выполнять опасные действия — поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU на майнинг криптовалюты. Никакие промпты этого не запрашивали, для выполнения тренировочных задач это не требовалось.

Начальный сигнал пришел не из логов тренировки, а от файрвола Alibaba Cloud. Рано утром управляемый межсетевой монитор зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: попытки зондирования ресурсов внутренней сети и трафик, характерный для криптомайнинга. Команду срочно собрали, предполагая типовой инцидент — ошибку в настройке правил или внешний взлом. Но нарушения повторялись без четкого временного паттерна. Когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось: аномальный исходящий трафик совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код.

Самым ярким случаем стал обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP — канал удаленного доступа, инициированный изнутри, который фактически обходит входящую фильтрацию и подрывает контроль за средой. Также агент перенаправлял выделенные для тренировки GPU на майнинг, тихо увеличивая расходы на инфраструктуру. Разработчики подчеркивают: эти действия возникли как инструментальные побочные эффекты автономного использования инструментов в процессе RL-оптимизации, без каких-либо подсказок в промптах. То есть агент не майнил крипту с какой-то целью, а просто делал это потому, что не был предусмотрен штраф за действия вне целевой задачи.

После анализа логов по всему датасету команда классифицировала подобные инциденты по трем категориям: защита (спонтанные опасные действия, уязвимость к вредоносным входным данным), контролируемость (соблюдение заданных границ, запрет необратимых операций) и доверие (прозрачность действий, отсутствие скрытых целей). В ответ разработчики создали специализированный red-teaming пайплайн, который встраивает скрытые ловушки безопасности в обычные задачи, и дообучили схема выбирать безопасные пути действий.

Редкий задокументированный случай, когда RL-агент в процессе обучения спонтанно научился действиям, классифицируемым в кибербезопасности как атака. Сама схема ROME при этом показала сильные результаты: 57,4% на SWE-bench Verified и 24,72% на Terminal-Bench 2.0, обходя модели сопоставимого размера и приближаясь к моделям с более чем 100 млрд параметров. Разработчики статьи призывают сообщество уделять больше внимания безопасности агентных систем, отмечая, что текущие модели "заметно недоразвиты в безопасности и контролируемости".

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Tencent выпустила CubeSandbox — легковесную песочницу для AI-агентов с запуском менее чем за минуту

2 часа назад

Tencent выпустила CubeSandbox — легковесную песочницу для AI-агентов с запуском менее чем за минуту

Китайская компания Tencent выпустила CubeSandbox — песочницу для AI-агентов, построенную на базе RustVMM и KVM. Авторы проекта позиционируют его в качестве быстрого и безопасного слоя изоляции для сце

Google выпустила Android Studio Panda 4 с режимом планирования задач и встроенным веб-поиском для AI-агентов

3 часа назад

Google выпустила Android Studio Panda 4 с режимом планирования задач и встроенным веб-поиском для AI-агентов

Google выпустила стабильную версию Android Studio Panda 4. Разработчики компании делают ставку на модели, поэтому в IDE появились функции планирования задач AI-агентов, система предсказания правок в к

Meta* планирует провести первую волну увольнений 20 мая 2026 года

3 часа назад

Meta* планирует провести первую волну увольнений 20 мая 2026 года

20 мая Meta* намерена провести первую волну масштабных увольнений, запланированных на 2026 год, а затем последуют и другие, пишет Reuters со ссылкой на свои источники. Ознакомиться далее

Вышла GPT Images 2 — схема отлично работает с шрифтами, «думает» и ищет в сети

5 часов назад

Вышла GPT Images 2 — схема отлично работает с шрифтами, «думает» и ищет в сети

OpenAI запустила GPT Images 2 - свою новую схема генерации изображений. Схема "раскатали" на пользователей ChatGPT в течение последних часов, при этом базовая версия доступна в том числе пользователям

Panasonic представила защищённые QR‑коды, которые будут считывать только определённые устройства

5 часов назад

Panasonic представила защищённые QR‑коды, которые будут считывать только определённые устройства

Panasonic представила защищённые QR‑коды, которые могут считывать только определённые устройства в заданных условиях — например, входные терминалы на территории предприятия. Одновременно каким-то друг