Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

2 мин
Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.

Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.

Ранее организация Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — начальный масштабный аналитика поведения ИИ в повседневных условиях, а не в контролируемой среде.  

Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие работники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.

Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их усложнения и интеграции в ключевые сектора.

Читают сейчас

Андрей Карпати: главная задача LLM — в том, как они отвечают

41 минуту назад

Андрей Карпати: главная задача LLM — в том, как они отвечают

Сооснователь OpenAI и бывший директор AI в Tesla Андрей Карпати опубликовал в X пост, в котором назвал главное узкое место в общении с большими языковыми моделями — структура их ответа. По его мнению,

Вышла релиз открытого редактора изображений Photoflare 1.7.0

1 час назад

Вышла релиз открытого редактора изображений Photoflare 1.7.0

В начале мая 2026 года состоялся выпуск редактора изображений Photoflare 1.7.0. В этом решении разработчики которого пытаются найти оптимальный баланс между функциональностью и удобством интерфейса. И

2 часа назад

Депутат Горелкин: GitHub в России может скоро стать на 100% недоступен

Депутат по информационной политике Горелкин написал в своем Telegram: Российские авторы заметили, что GitHub всё чаще оказывается недоступен. Процент неудачных соединений с платформой, которую многие

НАСА разогнало лопасти для нового марсианского вертолёта быстрее скорости звука

2 часа назад

НАСА разогнало лопасти для нового марсианского вертолёта быстрее скорости звука

НАСА протестировало лопасти для марсианского вертолёта нового поколения и разогнало их до 1,08 Мах, достигнув сверхзвуковой скорости. Это позволит на треть увеличить грузоподъёмность марсианских возду

Meta* продлила дедлайн эксплуатации некоторых из своих серверов общего назначения с шести до семи лет из-за дефицита ОЗУ

3 часа назад

Meta* продлила дедлайн эксплуатации некоторых из своих серверов общего назначения с шести до семи лет из-за дефицита ОЗУ

Meta* продлила срок эксплуатации некоторых из своих серверов для центров обработки данных с шести до семи лет в связи с нехватки оперативной памяти, пишет Wall Street Journal со ссылкой на две служебн