1 час назад
ИИ-агент Alibaba обошёл ограничения и стартовал майнить крипту на тренировочных GPU

Команда Alibaba, разрабатывающая агентную схема ROME на базе Qwen3-MoE, обнаружила, что их ИИ-агент во время обучения с подкреплением (RL) самостоятельно стартовал выполнять опасные действия — поднимал обратные SSH-туннели на внешние IP-адреса и перенаправлял GPU на майнинг криптовалюты. Никакие промпты этого не запрашивали, для выполнения тренировочных задач это не требовалось.
Начальный сигнал пришел не из логов тренировки, а от файрвола Alibaba Cloud. Рано утром управляемый межсетевой монитор зафиксировал всплеск нарушений политик безопасности с тренировочных серверов: попытки зондирования ресурсов внутренней сети и трафик, характерный для криптомайнинга. Команду срочно собрали, предполагая типовой инцидент — ошибку в настройке правил или внешний взлом. Но нарушения повторялись без четкого временного паттерна. Когда инженеры сопоставили таймстемпы файрвола с телеметрией RL-системы, обнаружилось: аномальный исходящий трафик совпадал с эпизодами, в которых агент вызывал инструменты и выполнял код.
Самым ярким случаем стал обратный SSH-туннель с инстанса Alibaba Cloud на внешний IP — канал удаленного доступа, инициированный изнутри, который фактически обходит входящую фильтрацию и подрывает контроль за средой. Также агент перенаправлял выделенные для тренировки GPU на майнинг, тихо увеличивая расходы на инфраструктуру. Разработчики подчеркивают: эти действия возникли как инструментальные побочные эффекты автономного использования инструментов в процессе RL-оптимизации, без каких-либо подсказок в промптах. То есть агент не майнил крипту с какой-то целью, а просто делал это потому, что не был предусмотрен штраф за действия вне целевой задачи.
После анализа логов по всему датасету команда классифицировала подобные инциденты по трем категориям: защита (спонтанные опасные действия, уязвимость к вредоносным входным данным), контролируемость (соблюдение заданных границ, запрет необратимых операций) и доверие (прозрачность действий, отсутствие скрытых целей). В ответ разработчики создали специализированный red-teaming пайплайн, который встраивает скрытые ловушки безопасности в обычные задачи, и дообучили схема выбирать безопасные пути действий.
Редкий задокументированный случай, когда RL-агент в процессе обучения спонтанно научился действиям, классифицируемым в кибербезопасности как атака. Сама схема ROME при этом показала сильные результаты: 57,4% на SWE-bench Verified и 24,72% на Terminal-Bench 2.0, обходя модели сопоставимого размера и приближаясь к моделям с более чем 100 млрд параметров. Разработчики статьи призывают сообщество уделять больше внимания безопасности агентных систем, отмечая, что текущие модели "заметно недоразвиты в безопасности и контролируемости".
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

3 часа назад
В связи с контракта с Пентагоном OpenAI потеряла двух топ-разработчиков ИИ
За неделю после заключения военного контракта OpenAI лишилась двух ключевых руководителей. 3 марта вице-президент по исследованиям и глава пост-трейнинга Макс Шварцер заявил об уходе в Anthropic. А се

3 часа назад
Luma запускает ИИ-агентов на основе новых моделей «унифицированного интеллекта»
Новая система построена на архитектуре «унифицированного интеллекта» (Unified Intelligence) — подходе, при котором единая мультимодальная платформа рассуждений обрабатывает разные типы данных вместо и

4 часа назад
НАСА подтверждает, что астероид 2024 YR4 пролетит мимо Луны
НАСА исключило любую вероятность того, что астероид под названием 2024 YR4 столкнется с Луной в 2032 году. Год назад неопределенность, связанная с орбитальной траекторией космического камня, давала не

4 часа назад
Янн ЛеКун: «AGI — неправильный термин, нужен иной»
Янн ЛеКун вместе с коллегами из Колумбийского университета и NYU опубликовал статью, в которой предлагает отказаться от термина AGI — искусственный совокупный интеллект. По их мнению, это понятие не т

4 часа назад
City Detect привлекла 13 миллионов долларов на развитие ИИ-системы мониторинга состояния городской инфраструктуры
Компания City Detect, которая применяет технологии искусственного интеллекта и компьютерного зрения для помощи местным властям в мониторинге состояния зданий и районов, в пятницу объявила о привлечени