Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

2 мин
Мультимодальные модели оказались уязвимы к jailbreak-атакам через видео

Исследователи Dong Wang, Xiangyu He, Xinqi Lyu и Bin Xiao из Гонконгского политехнического университета показали, что современные мультимодальные системы могут быть уязвимы к атакам через видеоряд. В работе демонстрируется свежий метод jailbreak-атаки, который авторам удалось протестировать на нескольких популярных MLLM, в том числе VideoLLaMA-2, Qwen2.5-VL, GPT-4.1 и Gemini-2.5. Разработчики отмечают, что даже коммерческие системы оказались не полностью устойчивыми к таким атакам, хотя в целом защищались лучше, чем открытые модели.

Основные атаки против мультимодальных моделей концентрируются на изображениях: это могут быть адверсариальные шумы, типографика или скрытые текстовые подсказки. Одновременно видеомодальность остаётся менее изученной с точки зрения безопасности. Ключевым результатом исследования стало наблюдение, что если повторять вредоносное изображение по кадрам и собирать из него видео, атака становится эффективнее, чем при одиночном использовании статичного изображения.

Чтобы усилить эффект, исследователи предложили метод Safety-Proximal Typographic Videos, или SPTV. Его идея заключается не в простом повторении одного и того же токсичного кадра, а в создании видео из нескольких типографических изображений с вредоносным смыслом, но с разными формулировками и кадрами, близкими по распределению к безопасным данным. Для формализации задачи и подбора кадров разработчики использовали сопоставление в двудольном графе и венгерский механизм, чтобы выбрать такие вредоносные кадры, которые одновременно в достаточной степени разнообразны между собой и максимально похожи на безопасные визуальные примеры в пространстве признаков. Авторы утверждают, что именно эта комбинация делает атаку более устойчивой и переносимой между моделями.

Отдельно в статье показан метод защиты Video-aware System Prompt, или VSP, который должен лучше распознавать именно видеоввод и усиливать защиту. Публикация показывает, что картинко-ориентированная безопасность не учитывает особенности временной обработки видео. Уязвимости могут быть связаны с временной структурой, сменой кадров и дополнительными обходными паттернами. Поэтому оценки безопасности в идеале должны включать не только image jailbreak, но и video jailbreak, а равным образом устойчивость к динамическим визуальным шаблонам.

Читают сейчас

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

2 минуты назад

SWE-rebench: Opus 4.8 стал экономнее, но в эффективности уступил GPT-5.5

На майском срезе живого бенчмарка SWE-rebench самой эффективной моделью для программирования стала GPT-5.5 от OpenAI: при сопоставимой с конкурентами цене она решает больше задач, тратя меньше токенов

1 час назад

Каждый неправильно оформленный самозанятый может стоить компании от 3 до 5 млн рублей из-за доначислений ФНС

Компаниям грозят доначисления от 3 до 5 млн рублей за одного неверно оформленного самозанятого. Об этом сообщило издание «Известия» со ссылкой на исследование платформы «Консоль», которая специализиру

1 час назад

ГК «Элемент» разработает стратегию внедрения искусственного интеллекта в микроэлектронное производство

Группа компаний (ГК) «Элемент» разрабатывает стратегию единого цифрового контура микроэлектроники. Система будет управлять производством электронных компонентов на основе искусственного интеллекта. Пр

2 часа назад

«Лаборатория Касперского» участвовала в операции Ramz Интерпола по борьбе с киберпреступностью

Компания «Лаборатория Касперского» приняла участие в операции Интерпола Ramz. Операция была направлена на борьбу с киберпреступностью на Ближнем Востоке и в Северной Африке. Организация передала между

ИИ самостоятельно решил задачу Эрдёша, подход одобрено математиками

3 часа назад

ИИ самостоятельно решил задачу Эрдёша, подход одобрено математиками

Модель искусственного интеллекта (ИИ) решила математическую задачу, над которой бились 80 лет. Проблема о плоских единичных расстояниях, впервые поставленная венгерским математиком Полом Эрдёшем в 194