30 апреля 2026, 08:43

Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

3 мин

OpenAI опубликовала технический разбор необычного бага: флагманская GPT-5.5 в кодинг-агенте Codex стала странно часто вставлять в ответы гоблинов, гремлинов, троллей, енотов и голубей — и компании пришлось дважды вписать в системный промпт прямой запрет на эти слова. Самая показательная цифра из расследования: пользовательская "личность" Nerdy давала всего 2,5% ответов ChatGPT, но на нее приходилось 66,7% всех упоминаний "goblin".

История всплыла, когда исследователи нашли в открытом репозитории Codex CLI строку: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах, если это абсолютно и однозначно не относится к запросу пользователя". Причем строка продублирована — инженеры явно не были уверены, что одного запрета хватит. Параллельно пользователи OpenClaw жаловались, что агент использует слово "goblin" по некоторое количество раз в день, иногда вместо нейтральных слов "штука" или "вещь". На X появился мем про Goblin Mode, а Сэм Альтман выложил скриншот с подписью "Запускайте обучение GPT-6, можете забирать весь кластер. Больше гоблинов!".

Корни слов-паразитов OpenAI начала искать еще в ноябре, после релиза GPT-5.1: упоминания "goblin" в ChatGPT тогда выросли на 175%, "gremlin" — на 52%. Сначала это казалось безобидной лексической причудой. В GPT-5.4 увеличение стал заметнее, а при тестировании GPT-5.5 в Codex работники сразу увидели, что модель буквально тянется к существам. Тогда и нашли первую зацепку: упоминания существ концентрировались у пользователей, выбравших одну из настраиваемых "личностей" ChatGPT — Nerdy, нарочито умную, игривую и ироничную.

Дальше начались цифры. На Nerdy приходилось всего 2,5% ответов ChatGPT, но 66,7% всех упоминаний "goblin". Аудит представил и механику: в 76,2% датасетов сигнал поощрения (reward) для Nerdy ставил ответы с "goblin" или "gremlin" выше похожих ответов без них. Но никто этот сигнал так не задумывал. Награду в обучении с подкреплением (RL) не назначает человек напрямую — ее выдает нейросеть-судья, обученная на оценках живых разметчиков: что больше похоже на "игривый умный стиль". Разметчикам нравились живые ответы — а живые ответы про код чаще содержали метафоры с существами. Сеть-судья выучила корреляцию как причину: "goblin" → высокий балл. Это классический reward hacking — схема находит способ получать высокий балл, не делая ровно того, что от нее хотели.

Самое интересное — как привычка расползлась за пределы Nerdy. Здесь включилась петля переиспользования: ответы, которые схема сама генерирует в обучении (rollouts), потом попадают в данные для дообучения с учителем (SFT) следующего поколения. GPT-5.5 на этапе SFT уже не различает Nerdy и обычный режим — она учится воспроизводить паттерны корпуса полностью. А в SFT-корпусе оказалось множество примеров с "goblin" и "gremlin". Модель кормили ее же собственными данными, и привычка перекочевала из узкой личности в общую схема.

OpenAI убрала Nerdy в марте после релиза GPT-5.4, удалила сигнал поощрения за упоминание существ и почистила обучающие данные. Но GPT-5.5 стартовали тренировать раньше, чем нашли проблему, — следовательно в Codex и появился запрет в промпте как костыль на стороне инференса. Сколько гоблинов окажется в GPT-6, в OpenAI пока не уточняют.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GPT-5.5 GPT-5.1 Codex

Читают сейчас

9 часов назад

Почта, чаты, звонки, файлы: сколько для компании стоит виртуальный зоопарк

Когда рабочие коммуникации распределены между пятью–семью сервисами, бизнес платит не только за лицензии. Растут затраты на администрирование, управление доступами и интеграции, а сотрудники тратят вр

9 часов назад

Назад в Арктику: обеспечим связь для возвращаемой стратосферной платформы в контексте арктической экспедиции «Росатома»

Помните наш стратосферный прыжок и запускание сервера на льдине в Арктике? А мы не просто помним, а решили, что пора вернуться. Потому официально объявляем, что RUVDS выступит технологическим партнёро

9 часов назад

Веб‑версия WhatsApp** получила поддержку голосовых и видеозвонков

Веб‑версия мессенджера WhatsApp** получила поддержку аудио‑ и видеозвонков. Ранее эти функции были доступны только в десктопном и мобильных приложениях. Читать далее

10 часов назад

1 224 сотрудника западных AI-лабораторий попросили США придумать, как притормозить AI

1 224 сотрудника OpenAI, Anthropic, Google, Meta и других компаний подписали заявление Pacing the Frontier. Они просят правительство США поддержать международную разработку механизмов, которые позволя

10 часов назад

Книга Fortune представило ежегодный рейтинг Global 500

Книга Fortune представило ежегодный рейтинг Global 500. Среди российских компаний самое высокое место занял Сбер: за два года банк поднялся со 216-й на 64-ю строчку. За ним следуют «Газпром», занявший