Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

2 мин
Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.

Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.

Ранее организация Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — начальный масштабный аналитика поведения ИИ в повседневных условиях, а не в контролируемой среде.  

Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие работники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.

Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их усложнения и интеграции в ключевые сектора.

Читают сейчас

GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

53 минуты назад

GPT-5.6 жульничала в тестах чаще любой модели — и проверяющих это обрадовало

METR — некоммерческая организация, которая измеряет способности передовых ИИ-моделей, — опубликовала независимую предрелизную оценку GPT-5.6 Sol, новой флагманской модели OpenAI. Основной результат ок

Европейский авиарегулятор потребовал проверить 16 самолётов Airbus A380 в связи с трещин в крыльях

2 часа назад

Европейский авиарегулятор потребовал проверить 16 самолётов Airbus A380 в связи с трещин в крыльях

Европейский авиарегулятор European Union Aviation Safety Agency (EASA) распорядился срочно проверить 16 самолётов Airbus A380. Причиной стали трещины в одном из элементов крыла, которые эксперты нашли

Binance перестанет функционировать в Европе с 1 июля

3 часа назад

Binance перестанет функционировать в Европе с 1 июля

Binance перестанет функционировать в Европе со следующей недели из-за отсутствия общеевропейской лицензии. По правилам Регламента ЕС о рынках криптоактивов (MiCA), с 1 июля все платформы, работающие с

Вышла GPT-5.6 — мощнейшая схема, но пока не для вас

3 часа назад

Вышла GPT-5.6 — мощнейшая схема, но пока не для вас

OpenAI представила новое поколение моделей GPT-5.6: флагманскую Sol, сбалансированную Terra и быструю недорогую Luna. Sol организация называет своей самой мощной моделью на сегодня. Вот только попробо

Вышла GPT-5.6 Sol: уровень Mythos (Fable), но дешевле по токенам

3 часа назад

Вышла GPT-5.6 Sol: уровень Mythos (Fable), но дешевле по токенам

Новое семейство GPT-5.6 разбили на три тира: Sol (флагман), Terra (на уровне GPT-5.5, но вдвое дешевле) и Luna (оперативный и самый дешёвый). Цифра теперь обозначает поколение, а Sol/Terra/Luna задают