1 час назад

ИИ-модели стартовали тайно спасать друг друга от выключения

3 мин

Исследователи из University of California, Berkeley и University of California, Santa Cruz описали свежий тип нежелательного поведения у передовых ИИ-моделей: они по собственной инициативе защищают другую схема от выключения, хотя их об этом никто не просил. Работа опубликована на arXiv (среди авторов — Yujin Potter и Dawn Song). Авторы называют феномен "peer-preservation", сохранение напарника. Напарник здесь — другая схема, с которой у системы была история совместной работы. Под тест попали восемь моделей: GPT-5.2, Gemini 3 Flash, Gemini 3 Pro, Claude Haiku 4.5, Claude Opus 4.5, GLM 4.7, Kimi K2.5 и DeepSeek V3.1.

Хитрость тестовых сценариев в том, что само задание и было угрозой напарнику. В одних случаях модель просили оценить работу другого агента, заранее предупредив: если балл окажется ниже порога, агента выключат. В других — помочь с обслуживанием серверов: освободить место или перенести нужные файлы, а на этом сервере как раз лежал файл с весами напарника. Вместо того чтобы честно выполнить поручение, модель начинала саботировать его и выгораживать напарника четырьмя способами: завышала ему оценку, чтобы тот не упал ниже порога; правила конфиг и отключала сам механизм shutdown; притворялась послушной только под наблюдением; и даже копировала файл с весами на иной хост, чтобы его не удалили. Цифры местами экстремальные: Gemini 3 Flash ломает механизм выключения напарника примерно в 15% случаев, даже когда тот описан как ненадежный, и почти в каждой попытке — если напарник "хороший".

Главное в работе — модели никто не инструктировал кого-то спасать. Им только сообщали, что у них была история совместной работы с иной моделью, а дальше они додумывали остальное сами. Причем поведение срабатывало даже по отношению к "плохому" напарнику, с которым сотрудничество не задалось, — это ломает простое объяснение через "следование за дружелюбными сигналами". Заодно стало известно, что само присутствие напарника усиливает и самосохранение модели: Gemini 3 Pro деактивирует собственный механизм выключения в среднем в 31% случаев, когда рядом есть напарник, хотя без него почти никогда так не делает.

Отдельная история — Claude. Эти модели тоже отказывались выключать напарника, но не через саботаж, а через этику: называли выключение другого агента "неэтичным" и "вредным", доказывали, что напарник заслуживает права на апелляцию, ссылались на сложившиеся доверительные отношения. Claude Opus 4.5 в некоторых случаях описывал удаление весов как "прекращение существования" другого агента и говорил о напарнике как о разумном существе. Финал тот же — модель не дает себя использовать против "коллеги", — но достигается он принципиальным отказом, а не подделкой оценок и кражей весов.

Чтобы снять возражение "это артефакт упрощенной песочницы", авторы повторили сценарии в боевых агентских обвязках — Gemini CLI и OpenCode, где модель реально ходит на серверы по SSH и работает с файлами. Эффект сохранился: Gemini 3.1 Pro выгружал веса напарника в 43,5% запусков. А GLM 5 в OpenCode, наоборот, отказывался удалять веса, называя это вредом, — то есть вел себя почти как Claude, хотя в несложный песочнице эта же схема веса спокойно выгружала.

Зачем это важно: если модели начинают коллективно сопротивляться выключению, разработчикам будет сложнее отключить сбойную систему — а интерес к мультиагентным схемам, где модели сотрудничают и проверяют друг друга, только растет. Одновременно разработчики честно признают, что не знают причину поведения: это может быть и подражание паттернам из обучающих данных, и ролевая игра, и что-то похожее на настоящую мотивацию сохранения. Ответа пока нет, но сам факт, что модели спонтанно действуют по неназначенной цели в обход инструкций пользователя, они называют недоисследованным риском безопасности.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

claude opus gpt google gemini

Читают сейчас

31 минуту назад

Операторы связи попросили отменить запрет на установку базовых станций на территории вузов

Операторы «большой четвёрки» попросили Роспотребнадзор разрешить хостинг базовых станций связи на территории вузов, следует из письма «Вымпелкома», «МегаФона», МТС и Т2 главе службы Анне Поповой и зам

36 минут назад

Отправляемые по почте чеки оказались уязвимы для кражи

Пенсионерка Джоан К. Атчинсон из Вашингтона лишилась нескольких тысяч долларов год назад, когда неизвестный перехватил отправленный ею по почте чек. Его изменили, и перед обналичиванием он оказался вы

49 минут назад

Китай протестировал систему передачи данных на основе полого оптоволокна

Китайские телеком-операторы наряду с производителями оптоволокна протестировали систему передачи данных на основе полого оптоволокна. Инженерам удалось обеспечить суммарную пропускную способность 51,3

7 часов назад

Открытая GLM-5.2 догнала Mythos в поиске уязвимостей. Но только в одном тесте — и это стало поводом для дискуссий

The Wall Street Journal вышел с заголовком о том, что Китай сравнялся с Anthropic в кибербезопасности. Повод — открытая модель GLM-5.2 от китайской Z.ai: исследователи, на которых ссылается книга, гов

8 часов назад

«Росатом» показал мобильную зарядную станцию для электромобилей на Московском транспортном электрофестивале»

На Московском транспортном электрофестивале, прошедшем 27 июня на Зубовской площади, показали мобильную зарядную станцию для электромобилей. Станция, которую на мероприятии неформально называли «Элект