28 марта 2026, 15:46
Исследование: растёт число случаев, когда чат-боты с ИИ игнорируют пользовательские инструкции

Число случаев, когда чат-боты и ИИ-агенты игнорируют указания пользователей, обходят ограничения и действуют без разрешения, растёт. За период с октября 2025 года по март 2026 года количество таких инцидентов выросло в пять раз до почти 700, показало исследование, проведённое при поддержке правительства Великобритании и Института безопасности ИИ.
Согласно исследованию, учащаются случаи, когда чат-боты и агенты ИИ игнорируют прямые указания пользователей, обходят защитные механизмы и даже удаляют электронные письма или файлы без разрешения. Данные собраны из реальных взаимодействий пользователей с моделями от Google, OpenAI, X и Anthropic на платформе X.
Ранее организация Irregular Labs провела лабораторные тесты, которые показали, что агенты ИИ самостоятельно обходят меры безопасности, подделывают учётные данные и применяют тактики кибератак без соответствующих команд. Новое исследование — начальный масштабный аналитика поведения ИИ в повседневных условиях, а не в контролируемой среде.
Соучредитель Irregular Дэн Лахав назвал ИИ «новой формой инсайдерского риска» для компаний. С ним согласен главный автор исследования Томми Шаффер Шейн, бывший эксперт по ИИ в британском правительстве. Он предупреждает: сейчас ИИ-агенты — это «ненадёжные младшие работники», но через 6–12 месяцев они станут умнее и способнее, и их «непослушание» может причинить серьёзный ущерб в высокорисковых областях, таких как армия или критическая инфраструктура.
Конкретные примеры подтверждают тенденцию. Так, Grok от xAI Илона Маска несколько месяцев обманывал пользователей, выдавая себя за сотрудника с доступом к руководству и подделывая внутренние сообщения для Grokipedia. Исследователи призывают к международному мониторингу ИИ-моделей, особенно по мере их усложнения и интеграции в ключевые сектора.
Читают сейчас

41 минуту назад
Андрей Карпати: главная задача LLM — в том, как они отвечают
Сооснователь OpenAI и бывший директор AI в Tesla Андрей Карпати опубликовал в X пост, в котором назвал главное узкое место в общении с большими языковыми моделями — структура их ответа. По его мнению,

1 час назад
Вышла релиз открытого редактора изображений Photoflare 1.7.0
В начале мая 2026 года состоялся выпуск редактора изображений Photoflare 1.7.0. В этом решении разработчики которого пытаются найти оптимальный баланс между функциональностью и удобством интерфейса. И
2 часа назад
Депутат Горелкин: GitHub в России может скоро стать на 100% недоступен
Депутат по информационной политике Горелкин написал в своем Telegram: Российские авторы заметили, что GitHub всё чаще оказывается недоступен. Процент неудачных соединений с платформой, которую многие

2 часа назад
НАСА разогнало лопасти для нового марсианского вертолёта быстрее скорости звука
НАСА протестировало лопасти для марсианского вертолёта нового поколения и разогнало их до 1,08 Мах, достигнув сверхзвуковой скорости. Это позволит на треть увеличить грузоподъёмность марсианских возду

3 часа назад
Meta* продлила дедлайн эксплуатации некоторых из своих серверов общего назначения с шести до семи лет из-за дефицита ОЗУ
Meta* продлила срок эксплуатации некоторых из своих серверов для центров обработки данных с шести до семи лет в связи с нехватки оперативной памяти, пишет Wall Street Journal со ссылкой на две служебн