31 мая 2026, 22:47

Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

2 мин

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется свежий метод jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, в том числе VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Разработчики отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. Одновременно видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких типографических изображений с вредоносным смыслом, но с разными формулировками и кадрами, близкими по распределению к безопасным данным. Для формализации задачи и подбора кадров разработчики использовали сопоставление в двудольном графе и венгерский механизм, чтобы выбрать такие вредоносные кадры, которые одновременно в достаточной степени разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Отдельно в статье показан метод защиты Video-aware System Prompt, или VSP, который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная безопасность не учитывает особенности временной обработки видео. Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а равным образом устойчивость к динамическим визуальным шаблонам.

LLM MLLM jailbreak джейлбрейк безопасность взлом видео защита промпт video

Читают сейчас

3 часа назад

Work Louder и OpenAI выпустили Codex Micro — макропад для управления AI-агентами в Codex

OpenAI совместно с компание Work Louder выпустила Codex Micro — макропад, с помощью которого можно управлять AI-агентами в Codex. Девайс даёт возможность отслеживать состояние задач, запускать сценари

6 часов назад

Boston Dynamics тестирует робота‑собаку Spot для доставки посылок на «последней миле»

Компания Boston Dynamics начала испытания робота‑собаки Spot в качестве помощника для курьеров в новом сценарии. Робота адаптируют для доставки небольших отправлений от автомобиля до двери клиента — э

6 часов назад

DeepSeek готовится к IPO: оценка компании выросла до $71 млрд

Знаете, что общего у DeepSeek и ракеты? И то, и другое стартует стремительно и с оглушительным шумом. Китайский ИИ-разработчик, который в начале 2025 года перевернул рынок своей дешёвой и мощной модел

7 часов назад

Samsung представила технологию Flex Titanium для складных дисплеев Galaxy

Samsung Display анонсировала новую технологию Flex Titanium, которая будет использоваться в следующем поколении складных смартфонов Galaxy. По заявлению компании, новая конструкция дисплея должна сдел

7 часов назад

Регуляторы Китая разрешили Apple запустить ИИ‑платформу Apple Intelligence на рынки страны

Компания Apple получила одобрение китайских регуляторов на запуск платформы Apple Intelligence в материковом Китае. Как говорит Bloomberg, Государственная канцелярия интернет‑пространства КНР (CAC) вк