30 апреля 2026, 08:43
Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

OpenAI опубликовала технический разбор необычного бага: флагманская GPT-5.5 в кодинг-агенте Codex стала странно часто вставлять в ответы гоблинов, гремлинов, троллей, енотов и голубей — и компании пришлось дважды вписать в системный промпт прямой запрет на эти слова. Самая показательная цифра из расследования: пользовательская "личность" Nerdy давала всего 2,5% ответов ChatGPT, но на нее приходилось 66,7% всех упоминаний "goblin".
История всплыла, когда исследователи нашли в открытом репозитории Codex CLI строку: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах, если это абсолютно и однозначно не относится к запросу пользователя". Причем строка продублирована — инженеры явно не были уверены, что одного запрета хватит. Параллельно пользователи OpenClaw жаловались, что агент использует слово "goblin" по некоторое количество раз в день, иногда вместо нейтральных слов "штука" или "вещь". На X появился мем про Goblin Mode, а Сэм Альтман выложил скриншот с подписью "Запускайте обучение GPT-6, можете забирать весь кластер. Больше гоблинов!".
Корни слов-паразитов OpenAI начала искать еще в ноябре, после релиза GPT-5.1: упоминания "goblin" в ChatGPT тогда выросли на 175%, "gremlin" — на 52%. Сначала это казалось безобидной лексической причудой. В GPT-5.4 увеличение стал заметнее, а при тестировании GPT-5.5 в Codex работники сразу увидели, что модель буквально тянется к существам. Тогда и нашли первую зацепку: упоминания существ концентрировались у пользователей, выбравших одну из настраиваемых "личностей" ChatGPT — Nerdy, нарочито умную, игривую и ироничную.
Дальше начались цифры. На Nerdy приходилось всего 2,5% ответов ChatGPT, но 66,7% всех упоминаний "goblin". Аудит представил и механику: в 76,2% датасетов сигнал поощрения (reward) для Nerdy ставил ответы с "goblin" или "gremlin" выше похожих ответов без них. Но никто этот сигнал так не задумывал. Награду в обучении с подкреплением (RL) не назначает человек напрямую — ее выдает нейросеть-судья, обученная на оценках живых разметчиков: что больше похоже на "игривый умный стиль". Разметчикам нравились живые ответы — а живые ответы про код чаще содержали метафоры с существами. Сеть-судья выучила корреляцию как причину: "goblin" → высокий балл. Это классический reward hacking — схема находит способ получать высокий балл, не делая ровно того, что от нее хотели.
Самое интересное — как привычка расползлась за пределы Nerdy. Здесь включилась петля переиспользования: ответы, которые схема сама генерирует в обучении (rollouts), потом попадают в данные для дообучения с учителем (SFT) следующего поколения. GPT-5.5 на этапе SFT уже не различает Nerdy и обычный режим — она учится воспроизводить паттерны корпуса полностью. А в SFT-корпусе оказалось множество примеров с "goblin" и "gremlin". Модель кормили ее же собственными данными, и привычка перекочевала из узкой личности в общую схема.
OpenAI убрала Nerdy в марте после релиза GPT-5.4, удалила сигнал поощрения за упоминание существ и почистила обучающие данные. Но GPT-5.5 стартовали тренировать раньше, чем нашли проблему, — следовательно в Codex и появился запрет в промпте как костыль на стороне инференса. Сколько гоблинов окажется в GPT-6, в OpenAI пока не уточняют.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Версия открытого редактора звука Audacity 3.7.8
11 июня 2026 года состоялся выпуск открытого редактора звука Audacity 3.7.8, предоставляющего средства для редактирования звуковых файлов (Ogg Vorbis, FLAC, MP3 и WAV), записи и оцифровки звука, измен

2 часа назад
Amazon предупредил Белый дом о дыре в Fable 5 — и подставил Anthropic, в которую инвестировал
Книга Politico восстановило хронологию суток, которые привели к экспортному контролю над моделями Anthropic: Claude Fable 5 и Claude Mythos. Тревогу о том, что защиту Fable 5 можно обойти, подняли в A

2 часа назад
Mercedes‑Benz открыла в Берлине завод по производству электродвигателей с осевым магнитным потоком
Mercedes‑Benz открыла крупное производство электродвигателей с осевым магнитным потоком в Берлине (район Мариенфельде). Компактный и высокопроизводительный двигатель уже используется в купе Mercedes-A

2 часа назад
ФБР построило собственную копию небольшого городка для имитации реальных кибератак
Федеральное бюро расследований США представило макет города площадью 2 км² на территории своего кампуса в городе Хантсвилл, штат Алабама, для обучения сотрудников правоохранительных органов моделирова

3 часа назад
Энтузиаст создал программа с уязвимостью и потратил $1500, чтобы проверить, смогут ли ИИ его взломать
Исследователь Касра Раджерди разработал уязвимое программа и потратил $1500, чтобы проверить, смогут ли большие языковые модели его взломать. Для эксперимента он разработал простое приложение на React