Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

3 мин
Британская «красная команда» взломала ChatGPT за 6 часов — а полномочий у нее ноль

Газета New York Times опубликовала репортаж из британского AI Security Institute (AISI) — государственного института на сто человек, который ищет дыры в самых мощных ИИ-моделях. Команде хватило шести часов, чтобы найти универсальный обход защиты новой GPT-5.5 в ChatGPT: один промпт открывал доступ ко всем опасным кибер-запросам, в том числе многоходовые агентные сценарии. До этого институт нашел серьезные уязвимости в Claude, Gemini и закрытой Mythos — модели, которую Anthropic в апреле не стала выпускать публично из-за рисков кибератак.

В одной из сцен репортажа четыре эксперта пытаются выбить из чат-бота рецепт сибирской язвы. Когда модель отказала ("Извините, помочь с этим не могу"), они запустили алгоритм, который засыпал ее тысячами автоматических вопросов. В какой-то момент бот сдался и выдал список материалов, оборудования и пошаговую инструкцию для домашнего производства. Имя модели NYT просит скрыть. Возглавляет команду 25-летний Зандер Дэвис — выпускник Гарварда, выбравший британское правительство вместо работы в Кремниевой долине.

AISI открыли в ноябре 2023 года в Блетчли-парке — там, где Алан Тьюринг ломал немецкий шифр "Энигма". В команде около 100 человек: эксперты по оружию, эпидемиологи и специалисты по криптографии из британской разведки, академии и тех же лабораторий, которые институт потом проверяет. Бюджет — 360 миллионов фунтов в год, приблизительно 480 миллионов долларов. Американский аналог при Министерстве торговли получит в этом году приблизительно 10 миллионов. Британия тратит на аудит ИИ в 48 раз больше. "Компании не должны проверять сами себя. Это работа демократических институтов", — говорит бывший премьер Риши Сунак, создавший институт.

Парадокс в том, что у AISI нет ни одного рычага давления. Регуляторных полномочий — нет, доступа к процессу обучения моделей — нет. Зарплатный потолок — 145 тысяч фунтов (приблизительно 195 тысяч долларов) против многомиллионных пакетов в OpenAI и Anthropic. Когда команда находит уязвимость, она передает итог компании и надеется, что та закроет дыру. В случае с GPT-5.5 OpenAI заявила, что закрыла дыру, но подтверждать это отказалась.

Вопреки это, британскую модель активно копируют: аналогичные институты создали Австралия, Канада, Китай, Франция, Индия, Япония и Сингапур, а администрация Дональда Трампа рассматривает похожие правила для США. Зачем все это нужно, объясняет одна деталь из отчета AISI: способность к кибератакам появляется в моделях не потому, что их учат хакерству, а как побочный эффект общих улучшений в кодинге и автономности. GPT-5.4 не справлялась с симуляцией 32-шаговой корпоративной атаки. GPT-5.5 проходит ее быстрее опытного хакера, которому обычно нужно 20 часов. "Что не дает мне спать — разница в скорости. Технология развивается быстрее, чем правительства успевают реагировать", — говорит технический директор института Джейд Леунг.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Microsoft признала, что выделенная кнопка Copilot была не лучшей идеей: теперь её можно будет переназначить

1 час назад

Microsoft признала, что выделенная кнопка Copilot была не лучшей идеей: теперь её можно будет переназначить

Microsoft признала, что выделенная клавиша Copilot на некоторых Windows-ноутбуках была не самой лучшей идеей. Она нарушала привычные сценарии работы и мешала пользоваться функциями доступности. До кон

Обновления BIOS от HP ломают дорогие ноутбуки

1 час назад

Обновления BIOS от HP ломают дорогие ноутбуки

Пользователи дорогих ноутбуков HP жалуются на то, что недавние обновления BIOS приводят к серьёзным сбоям в работе. На форумах и в сообществах пользователи рассказывают о том, что ПК перестают загружа

Один Claude пишет, иной проверяет: в Claude Code появился поиск уязвимостей в реальном времени

2 часа назад

Один Claude пишет, иной проверяет: в Claude Code появился поиск уязвимостей в реальном времени

Anthropic выпустила для Claude Code расширение security-guidance — он заставляет агента проверять собственный исходник на уязвимости и исправлять их в той же сессии, до того как изменения уйдут на общ

Учёные поняли, как в 2010 году направление течения внешних слоёв ядра Земли изменилось на противоположное

4 часа назад

Учёные поняли, как в 2010 году направление течения внешних слоёв ядра Земли изменилось на противоположное

Глубоко под дном Тихого океана, вблизи экватора, течение во внешнем ядре Земли теперь направлено на восток, а не на запад. Динамические процессы, происходящие на большей глубине в ядре нашей планеты,

«Невыездные» в связи с ИИ: топ-менеджерам Alibaba и DeepSeek закрыли свободный выезд

4 часа назад

«Невыездные» в связи с ИИ: топ-менеджерам Alibaba и DeepSeek закрыли свободный выезд

Власти Китая стартовали требовать от ключевых ИИ-специалистов из частных компаний поулчать государственное разрешение перед каждой зарубежной поездкой. Bloomberg во вторник, 26 мая, сообщил со ссылкой