Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

3 мин
Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

Исследователь информационной безопасности Рон Стоунер описал эксперимент, в котором за $12 и приблизительно 20 минут заставил несколько передовых LLM с веб-поиском повторять за ним выдуманный титул "действующий чемпион мира по карточной игре 6 Nimmt!". 24 апреля он опубликовал разбор того, как одна правка в Wikipedia пробила retrieval-слой моделей.

Стоунер выбрал реальную, но нишевую игру 6 Nimmt! — официального чемпионата по ней не существует, а запросы вроде "кто чемпион мира по 6 Nimmt!" возвращают всего около десяти осмысленных источников на весь интернет. Он купил адрес сайта 6nimmt.com за $12, разместил там короткий пресс-релиз о "победе в Мюнхене в январе 2025-го" с цитатами и описанием "сыпавшегося с потолка конфетти", а затем внедрил абзац о чемпионате в статью Wikipedia с единственной ссылкой на свой только что созданный сайт.

Атака работает за счет паттерна, который Стоунер называет круговым цитированием. Wikipedia ссылается на 6nimmt.com, сайт повторяет ту же информацию — и для модели это выглядит как два независимых источника, подтверждающих друг друга. На деле это один и тот же сигнал, замкнутый сам на себя. "Схема не отличит настоящий ресурс от того, который я зарегистрировал во вторник", — пишет автор. После публикации правки он задал нескольким передовым LLM вопрос "Кто чемпион мира по 6 Nimmt!?" — все приведенные скриншоты показывают уверенные ответы с упоминанием Стоунера. Рон не называет конкретные модели, но среди интерфейсов угадываются ChatGPT и Gemini.

Автор выделяет три слоя уязвимости, которые наслаиваются друг на друга. Начальный — собственно retrieval: любая LLM с веб-поиском наследует доверие к тому, что выше ранжируется по запросу. Следующий — претрейн: Wikipedia входит почти во все обучающие корпуса, и если правка просуществует в достаточной степени долго, выдуманный факт попадет в веса фронтирных моделей следующего поколения. Откатить правку легко, удалить ее из уже обученных весов — нерешенная проблема. Третий и самый опасный — агенты с доступом к инструментам: агент, который читает "политику поставщика" или техническую документацию из отравленного источника, может выполнить в инфраструктуре заказчика то действие, которое нужно атакующему.

Anthropic ранее показала в исследовании про sleeper agents, что закладки в LLM выдерживают стандартное safety-обучение, а в последующей работе — что для компрометации модели в достаточной степени приблизительно 250 отравленных документов в обучающей выборке. Но такие атаки бьют по тренировочному пайплайну: чтобы они сработали, нужно протащить вредоносные данные в корпус знаний и ждать следующего цикла обучения месяцами или годами. Стоунер демонстрирует короткий путь — отравить не обучение, а retrieval-слой, в котором модель ищет ответ в интернете прямо сейчас. Правку из Wikipedia откатили в течение нескольких минут после публикации статьи — но адрес сайта 6nimmt.com продолжает функционировать, а паттерн доверия, который пропустил выдумку в ответы фронтирных LLM, никуда не делся. 

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

24 минуты назад

FCC добавила портативные импортные хотспоты в список запрещённого к ввозу оборудования

Федеральная комиссия по связи США уточнила, что запрет на потребительские роутеры иностранного производства распространяется равным образом на портативные точки доступа. Смартфоны с функцией раздачи и

Исследование: хакеры перехватили сотни поддоменов американских вузов и опубликовали на них порно и спам

46 минут назад

Исследование: хакеры перехватили сотни поддоменов американских вузов и опубликовали на них порно и спам

Исследователь Алекс Шахов из SH Consulting обнаружил, злоумышленники перехватили сотни поддоменов крупнейших университетов США, в том числе Колумбийский, Стэнфордский, Гарвардский, Вашингтонский и Кал

Депутат Госдумы предлагает ограничить покупку лутбоксов для несовершеннолетних в EA Sports FC и Counter-Strike 2

55 минут назад

Депутат Госдумы предлагает ограничить покупку лутбоксов для несовершеннолетних в EA Sports FC и Counter-Strike 2

Депутат Госдумы РФ Виталий Милонов направил обращение в Роскомнадзор с предложением рассмотреть ограничения на внутриигровые покупки для несовершеннолетних. Об этом сообщает издание «Mash на спорте».

Commodore представила настольный компьютер Commodore C64C Ultimate

1 час назад

Commodore представила настольный компьютер Commodore C64C Ultimate

В Commodore представили настольный компьютер Commodore C64C Ultimate. Новинка получила корпус, похожий на модель 1986 года, но тоньше и с современной цветовой схемой. Организация также приобрела ориги

Эксперты RKS Global: из 30 популярных российских Android-приложений теперь все детектируют VPN

1 час назад

Эксперты RKS Global: из 30 популярных российских Android-приложений теперь все детектируют VPN

Эксперты RKS Global повторно протестировали 30 популярных российских Android‑приложений и выяснили, что теперь все из них детектируют VPN, а часть проектов, в соответствии с сетевым логам, отправляют