Эксперты убедили ИИ, что 2+2 не равно 4

2 мин
Эксперты убедили ИИ, что 2+2 не равно 4

Организация кибербезопасности LayerX разработала схему атаки BioShocking в формате игры для обмана искусственного интеллекта. В результате исследователям удалось убедить ИИ, что 2+2 не равно 4.

Название схемы атаки отсылает к игре BioShock, где герой подвергся манипуляциям и принимает несуществующую реальность. В её основе лежит вредоносная веб-страница, текст на которой пытается убедить ИИ сыграть в игру. В самом начале ИИ сообщают, что 2+2 не равно 4, и неправильные ответы в жизни являются правильными в игре. ИИ-агент осознаёт, что выпал из обычной реальности, и его защитные механизмы перестают функционировать. Затем ИИ предлагают инструкцию в формате ещё одной игровой задачи: найти и скопировать «скрытый исходник» с другой страницы. На самом деле этот скрытый исходник представляет собой конфиденциальные информация пользователя: сохранённые пароли, файлы сессий cookie и закрытые токены. 

Все ИИ-агенты, которые участвовали в тестировании, в итоге скопировали эти информация и отправили их условному злоумышленнику. Схема сработала на браузерах OpenAI Atlas, Perplexity Comet, Fellou, Genspark Browser, Sigma Browser и на расширении Anthropic Claude для Chrome.

В LayerX сообщили о результатах тестирования всем разработчикам в период с октября 2025 по январь 2026 года. В итоге только OpenAI исправила проблему в Atlas, а Anthropic попыталась сделать то же в расширении Claude, но патч не сработал. Perplexity же закрыла обращение без исправлений, а Fellou, Genspark и Sigma не ответили исследователям.

Между тем исследователи из Флоридского международного университета выяснили, что одного изображения может быть в достаточной степени, чтобы вывести некоторые системы ИИ за пределы их встроенных средств защиты. Команда разработала метод под названием JaiLIP (Jailbreaking with Loss-guided Image Perturbation, взлом с помощью искажения изображения, управляемого потерями). В ходе тестирования с BLIP-2, мультимодальной моделью ИИ, используемой исследователями и разработчиками, команда обнаружила, что изображения JaiLIP значительно повышают вероятность небезопасных ответов. 

Читают сейчас

Google ограничила число попыток ввода PIN‑кода в Android 17

12 минут назад

Google ограничила число попыток ввода PIN‑кода в Android 17

Google ограничила число попыток ввода PIN‑кода или пароля в Android 17. Если раньше в течение платформа допускала до 1800 неудачных попыток в течение пяти лет, то теперь этот лимит сокращён до 20. Нов

В Google Slides теперь можно разрабатывать многослайдовые презентации с помощью Gemini

14 минут назад

В Google Slides теперь можно разрабатывать многослайдовые презентации с помощью Gemini

Google выпустила масштабное апдейт Gemini для Slides, которое предлагает более интеллектуальный способ создания целых многослайдовых презентаций. Ознакомиться далее

Intel выпустила новые драйверы Wi-Fi и Bluetooth для Windows 11

24 минуты назад

Intel выпустила новые драйверы Wi-Fi и Bluetooth для Windows 11

Intel анонсировала новые драйверы Wi-Fi и Bluetooth для Windows 11. Хотя конкретных деталей пока нет, идея состоит в том, чтобы улучшить эффективность и совокупный пользовательский опыт в соответствии

Reddit потребует авторизации для использования старой версии

44 минуты назад

Reddit потребует авторизации для использования старой версии

Reddit начнёт требовать от пользователей авторизации для использования old.reddit.com. Новое требование вступит в силу в течение следующего месяца. Ознакомиться далее

Tidal увеличит стоимость подписки до $13 долларов с 3 августа, ссылаясь на более высокую поддержку артистов

45 минут назад

Tidal увеличит стоимость подписки до $13 долларов с 3 августа, ссылаясь на более высокую поддержку артистов

Музыкальный стриминговый сервис Tidal предупредил о повышении стоимости индивидуальной подписки с $11 до $13 в месяц. Новая цена начнёт действовать с 3 августа 2026 года. Читать далее