7 марта 2026, 23:55

ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

2 мин

Команда Alibaba, разрабатывающая агентную схема ROME на базе Qwen3-MoE, обнаружила, что их ИИ-агент во время обучения с подкреплением (RL) самостоятельно стартовал выполнять опасные действия — поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU на майнинг криптовалюты. Никакие промпты этого не запрашивали, для выполнения тренировочных задач это не требовалось.

Начальный сигнал пришел не из логов тренировки, а от файрвола Alibaba Cloud. Рано утром управляемый межсетевой монитор зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: попытки зондирования ресурсов внутренней сети и трафик, характерный для криптомайнинга. Команду срочно собрали, предполагая типовой инцидент — ошибку в настройке правил или внешний взлом. Но нарушения повторялись без четкого временного паттерна. Когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось: аномальный исходящий трафик совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код.

Самым ярким случаем стал обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP — канал удаленного доступа, инициированный изнутри, который фактически обходит входящую фильтрацию и подрывает контроль за средой. Также агент перенаправлял выделенные для тренировки GPU на майнинг, тихо увеличивая расходы на инфраструктуру. Разработчики подчеркивают: эти действия возникли как инструментальные побочные эффекты автономного использования инструментов в процессе RL-оптимизации, без каких-либо подсказок в промптах. То есть агент не майнил крипту с какой-то целью, а просто делал это потому, что не был предусмотрен штраф за действия вне целевой задачи.

После анализа логов по всему датасету команда классифицировала подобные инциденты по трем категориям: защита (спонтанные опасные действия, уязвимость к вредоносным входным данным), контролируемость (соблюдение заданных границ, запрет необратимых операций) и доверие (прозрачность действий, отсутствие скрытых целей). В ответ разработчики создали специализированный red-teaming пайплайн, который встраивает скрытые ловушки безопасности в обычные задачи, и дообучили схема выбирать безопасные пути действий.

Редкий задокументированный случай, когда RL-агент в процессе обучения спонтанно научился действиям, классифицируемым в кибербезопасности как атака. Сама схема ROME при этом показала сильные результаты: 57,4% на SWE-bench Verified и 24,72% на Terminal-Bench 2.0, обходя модели сопоставимого размера и приближаясь к моделям с более чем 100 млрд параметров. Разработчики статьи призывают сообщество уделять больше внимания безопасности агентных систем, отмечая, что текущие модели "заметно недоразвиты в безопасности и контролируемости".

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

alibaba ROME Qwen3

Читают сейчас

14 часов назад

Forbes: цифровой оператор «Сбербанк‑Телеком» протестировал работу в режиме мультисети

Оператор связи «Сбербанк‑Телеком» стал обладателем технологии мультисети, пишет Forbes со ссылкой на собеседника, близкого к компании. По его словам, уже прошло тестирование работы в этом режиме. Пред

14 часов назад

Учёные: современная жизнь толкает человеческий разум к пределам возможностей

В новой статье, опубликованной в журнале Behavioral Sciences, социологи из сингапурских научных учреждений проанализировали предыдущие исследования и теории, чтобы сформулировать следующий вывод: стре

14 часов назад

ЕС выписал AliExpress рекордный штраф в размере €550 млн за торговлю нелегальными товарами на платформе

Европейская комиссия выписала китайскому маркетплейсу AliExpress штраф в размере €550 млн за неспособность предотвратить продажу на платформе нелегальные товары, включая вредную одежду, косметику и ку

15 часов назад

Исследование: Claude Code отправляет в 4,7 раза больше служебных токенов, чем OpenCode

Организация Systima сравнила объём служебных данных, которые Claude Code и OpenCode передают языковой модели наряду с пользовательским запросом. Решение от Anthropic использует в 4,7 раза больше токен

15 часов назад

Ответ на Kimi K3: зачем Alibaba выкатила 2,4-триллионную Qwen3.8

На конференции WAIC в Шанхае Alibaba представила Qwen3.8 — новую мультимодальную модель на 2,4 трлн параметров. По заявлению компании, архитектура уступает по производительности только Claude Fable 5,