Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

2 мин
Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.

Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.

Ранее организация Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — начальный масштабный аналитика поведения ИИ в повседневных условиях, а не в контролируемой среде.  

Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие работники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.

Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их усложнения и интеграции в ключевые сектора.

Читают сейчас

Apple: Режим Lockdown Mode для iPhone доказал свою неуязвимость на фоне массовой утечки хакерских инструментов

55 минут назад

Apple: Режим Lockdown Mode для iPhone доказал свою неуязвимость на фоне массовой утечки хакерских инструментов

Apple официально подтвердила, что ни одно девайс с активированным режимом Lockdown Mode (Режим блокировки) не было успешно скомпрометировано хакерами или коммерческим шпионским ПО. Это заявление прозв

Microsoft прекратит поддержку инструмента сравнения баз данных Access из-за проблем с надёжностью

1 час назад

Microsoft прекратит поддержку инструмента сравнения баз данных Access из-за проблем с надёжностью

Microsoft прекратит поддержку инструмента сравнения баз данных Access. Автономная утилита DATABASECOMPARE.EXE, которая позволяет сравнивать две базы данных Access и находить изменения в схемах, будет

Microsoft сократит рекламу и рекомендации в Windows 11 для создания более «спокойной» операционной системы

2 часа назад

Microsoft сократит рекламу и рекомендации в Windows 11 для создания более «спокойной» операционной системы

В Microsoft планируют сделать Windows 11 более «спокойной». Для этого разработчики ОС сократят количество upsells — то есть рекомендаций, промо-подсказок и рекламных блоков, которые в последние годы в

В США AI-дипфейки уже стали инструментом предвыборной рекламы

2 часа назад

В США AI-дипфейки уже стали инструментом предвыборной рекламы

В США AI-сгенерированная политическая реклама быстро превращается из экзотики в обычный инструмент кампаний. Reuters пишет, что перед промежуточными выборами 2026 года партии уже используют реалистичн

Британский стартап-компания впервые зажёг плазму внутри ракетного двигателя на термоядерном синтезе

2 часа назад

Британский стартап-компания впервые зажёг плазму внутри ракетного двигателя на термоядерном синтезе

Команда британских учёных добилась первого в истории зажигания плазмы внутри ракетного двигателя на термоядерном синтезе — это огромный шаг, который однажды может значительно ускорить путешествия по С