30 апреля 2026, 17:24

Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

3 мин

Исследователь информационной безопасности Рон Стоунер описал эксперимент, в котором за $12 и приблизительно 20 минут заставил несколько передовых LLM с веб-поиском повторять за ним выдуманный титул "действующий чемпион мира по карточной игре 6 Nimmt!". 24 апреля он опубликовал разбор того, как одна правка в Wikipedia пробила retrieval-слой моделей.

Стоунер выбрал реальную, но нишевую игру 6 Nimmt! — официального чемпионата по ней не существует, а запросы вроде "кто чемпион мира по 6 Nimmt!" возвращают всего около десяти осмысленных источников на весь интернет. Он купил адрес сайта 6nimmt.com за $12, разместил там короткий пресс-релиз о "победе в Мюнхене в январе 2025-го" с цитатами и описанием "сыпавшегося с потолка конфетти", а затем внедрил абзац о чемпионате в статью Wikipedia с единственной ссылкой на свой только что созданный сайт.

Атака работает за счет паттерна, который Стоунер называет круговым цитированием. Wikipedia ссылается на 6nimmt.com, сайт повторяет ту же информацию — и для модели это выглядит как два независимых источника, подтверждающих друг друга. На деле это один и тот же сигнал, замкнутый сам на себя. "Схема не отличит настоящий ресурс от того, который я зарегистрировал во вторник", — пишет автор. После публикации правки он задал нескольким передовым LLM вопрос "Кто чемпион мира по 6 Nimmt!?" — все приведенные скриншоты показывают уверенные ответы с упоминанием Стоунера. Рон не называет конкретные модели, но среди интерфейсов угадываются ChatGPT и Gemini.

Автор выделяет три слоя уязвимости, которые наслаиваются друг на друга. Начальный — собственно retrieval: любая LLM с веб-поиском наследует доверие к тому, что выше ранжируется по запросу. Следующий — претрейн: Wikipedia входит почти во все обучающие корпуса, и если правка просуществует в достаточной степени долго, выдуманный факт попадет в веса фронтирных моделей следующего поколения. Откатить правку легко, удалить ее из уже обученных весов — нерешенная проблема. Третий и самый опасный — агенты с доступом к инструментам: агент, который читает "политику поставщика" или техническую документацию из отравленного источника, может выполнить в инфраструктуре заказчика то действие, которое нужно атакующему.

Anthropic ранее показала в исследовании про sleeper agents, что закладки в LLM выдерживают стандартное safety-обучение, а в последующей работе — что для компрометации модели в достаточной степени приблизительно 250 отравленных документов в обучающей выборке. Но такие атаки бьют по тренировочному пайплайну: чтобы они сработали, нужно протащить вредоносные данные в корпус знаний и ждать следующего цикла обучения месяцами или годами. Стоунер демонстрирует короткий путь — отравить не обучение, а retrieval-слой, в котором модель ищет ответ в интернете прямо сейчас. Правку из Wikipedia откатили в течение нескольких минут после публикации статьи — но адрес сайта 6nimmt.com продолжает функционировать, а паттерн доверия, который пропустил выдумку в ответы фронтирных LLM, никуда не делся.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

AI ChatGPT Gemini

Читают сейчас

9 часов назад

Почта, чаты, звонки, файлы: сколько для компании стоит виртуальный зоопарк

Когда рабочие коммуникации распределены между пятью–семью сервисами, бизнес платит не только за лицензии. Растут затраты на администрирование, управление доступами и интеграции, а сотрудники тратят вр

9 часов назад

Назад в Арктику: обеспечим связь для возвращаемой стратосферной платформы в контексте арктической экспедиции «Росатома»

Помните наш стратосферный прыжок и запускание сервера на льдине в Арктике? А мы не просто помним, а решили, что пора вернуться. Потому официально объявляем, что RUVDS выступит технологическим партнёро

9 часов назад

Веб‑версия WhatsApp** получила поддержку голосовых и видеозвонков

Веб‑версия мессенджера WhatsApp** получила поддержку аудио‑ и видеозвонков. Ранее эти функции были доступны только в десктопном и мобильных приложениях. Читать далее

10 часов назад

1 224 сотрудника западных AI-лабораторий попросили США придумать, как притормозить AI

1 224 сотрудника OpenAI, Anthropic, Google, Meta и других компаний подписали заявление Pacing the Frontier. Они просят правительство США поддержать международную разработку механизмов, которые позволя

10 часов назад

Книга Fortune представило ежегодный рейтинг Global 500

Книга Fortune представило ежегодный рейтинг Global 500. Среди российских компаний самое высокое место занял Сбер: за два года банк поднялся со 216-й на 64-ю строчку. За ним следуют «Газпром», занявший