Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

3 мин
Всего 20 минут и $12: как исследователь отравил передовые LLM несуществующими данными

Исследователь информационной безопасности Рон Стоунер описал эксперимент, в котором за $12 и приблизительно 20 минут заставил несколько передовых LLM с веб-поиском повторять за ним выдуманный титул "действующий чемпион мира по карточной игре 6 Nimmt!". 24 апреля он опубликовал разбор того, как одна правка в Wikipedia пробила retrieval-слой моделей.

Стоунер выбрал реальную, но нишевую игру 6 Nimmt! — официального чемпионата по ней не существует, а запросы вроде "кто чемпион мира по 6 Nimmt!" возвращают всего около десяти осмысленных источников на весь интернет. Он купил адрес сайта 6nimmt.com за $12, разместил там короткий пресс-релиз о "победе в Мюнхене в январе 2025-го" с цитатами и описанием "сыпавшегося с потолка конфетти", а затем внедрил абзац о чемпионате в статью Wikipedia с единственной ссылкой на свой только что созданный сайт.

Атака работает за счет паттерна, который Стоунер называет круговым цитированием. Wikipedia ссылается на 6nimmt.com, сайт повторяет ту же информацию — и для модели это выглядит как два независимых источника, подтверждающих друг друга. На деле это один и тот же сигнал, замкнутый сам на себя. "Схема не отличит настоящий ресурс от того, который я зарегистрировал во вторник", — пишет автор. После публикации правки он задал нескольким передовым LLM вопрос "Кто чемпион мира по 6 Nimmt!?" — все приведенные скриншоты показывают уверенные ответы с упоминанием Стоунера. Рон не называет конкретные модели, но среди интерфейсов угадываются ChatGPT и Gemini.

Автор выделяет три слоя уязвимости, которые наслаиваются друг на друга. Начальный — собственно retrieval: любая LLM с веб-поиском наследует доверие к тому, что выше ранжируется по запросу. Следующий — претрейн: Wikipedia входит почти во все обучающие корпуса, и если правка просуществует в достаточной степени долго, выдуманный факт попадет в веса фронтирных моделей следующего поколения. Откатить правку легко, удалить ее из уже обученных весов — нерешенная проблема. Третий и самый опасный — агенты с доступом к инструментам: агент, который читает "политику поставщика" или техническую документацию из отравленного источника, может выполнить в инфраструктуре заказчика то действие, которое нужно атакующему.

Anthropic ранее показала в исследовании про sleeper agents, что закладки в LLM выдерживают стандартное safety-обучение, а в последующей работе — что для компрометации модели в достаточной степени приблизительно 250 отравленных документов в обучающей выборке. Но такие атаки бьют по тренировочному пайплайну: чтобы они сработали, нужно протащить вредоносные данные в корпус знаний и ждать следующего цикла обучения месяцами или годами. Стоунер демонстрирует короткий путь — отравить не обучение, а retrieval-слой, в котором модель ищет ответ в интернете прямо сейчас. Правку из Wikipedia откатили в течение нескольких минут после публикации статьи — но адрес сайта 6nimmt.com продолжает функционировать, а паттерн доверия, который пропустил выдумку в ответы фронтирных LLM, никуда не делся. 

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

18 минут назад

Вышло апдейт мультиплатформенного проекта RevPDF 4.5 — альтернатива Adobe Acrobat

13 июня 2026 года состоялся версия мультиплатформенного проекта RevPDF 4.5. Это маленький, бесплатный, работающий в автономном режиме редактор PDF-файлов с возможностью редактирования текста, скрытия

Microsoft выпустила версию PowerToys 0.100.0

2 часа назад

Microsoft выпустила версию PowerToys 0.100.0

Организация Microsoft выпустила PowerToys версии 0.100.0. Выпуск содержит исправления и улучшения для нескольких модулей, а наиболее важные изменения касаются повышения производительности, уменьшения

Апдейт Telegram: форматирование ботов и Markdown-файлы

3 часа назад

Апдейт Telegram: форматирование ботов и Markdown-файлы

Telegram опубликовал крупное обновление с десятками новых функций, в том числе с поддержкой мессенджера на смарт-часах, в том числе с Wear OS, а также опциями для ботов, групп и встроенного браузера.

Shutterstock станет «творческой платформой на основе ИИ»

4 часа назад

Shutterstock станет «творческой платформой на основе ИИ»

В Shutterstock анонсировали следующую ступень развития платформы, объединяющую библиотеку созданных людьми медиа с растущим набором инструментов на основе ИИ. Цель состоит в том, чтобы помочь пользова

Версия открытого редактора звука Audacity 3.7.8

6 часов назад

Версия открытого редактора звука Audacity 3.7.8

11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен