2 часа назад
Как GPT-5.5 стала одержима гоблинами. OpenAI разобрала собственную ошибку в RL

OpenAI опубликовала технический разбор необычного бага: флагманская GPT-5.5 в кодинг-агенте Codex стала странно часто вставлять в ответы гоблинов, гремлинов, троллей, енотов и голубей — и компании пришлось дважды вписать в системный промпт прямой запрет на эти слова. Самая показательная цифра из расследования: пользовательская "личность" Nerdy давала всего 2,5% ответов ChatGPT, но на нее приходилось 66,7% всех упоминаний "goblin".
История всплыла, когда исследователи нашли в открытом репозитории Codex CLI строку: "Никогда не говори о гоблинах, гремлинах, енотах, троллях, ограх, голубях и других животных или существах, если это абсолютно и однозначно не относится к запросу пользователя". Причем строка продублирована — инженеры явно не были уверены, что одного запрета хватит. Параллельно пользователи OpenClaw жаловались, что агент использует слово "goblin" по некоторое количество раз в день, иногда вместо нейтральных слов "штука" или "вещь". На X появился мем про Goblin Mode, а Сэм Альтман выложил скриншот с подписью "Запускайте обучение GPT-6, можете забирать весь кластер. Больше гоблинов!".
Корни слов-паразитов OpenAI начала искать еще в ноябре, после релиза GPT-5.1: упоминания "goblin" в ChatGPT тогда выросли на 175%, "gremlin" — на 52%. Сначала это казалось безобидной лексической причудой. В GPT-5.4 увеличение стал заметнее, а при тестировании GPT-5.5 в Codex работники сразу увидели, что модель буквально тянется к существам. Тогда и нашли первую зацепку: упоминания существ концентрировались у пользователей, выбравших одну из настраиваемых "личностей" ChatGPT — Nerdy, нарочито умную, игривую и ироничную.
Дальше начались цифры. На Nerdy приходилось всего 2,5% ответов ChatGPT, но 66,7% всех упоминаний "goblin". Аудит представил и механику: в 76,2% датасетов сигнал поощрения (reward) для Nerdy ставил ответы с "goblin" или "gremlin" выше похожих ответов без них. Но никто этот сигнал так не задумывал. Награду в обучении с подкреплением (RL) не назначает человек напрямую — ее выдает нейросеть-судья, обученная на оценках живых разметчиков: что больше похоже на "игривый умный стиль". Разметчикам нравились живые ответы — а живые ответы про код чаще содержали метафоры с существами. Сеть-судья выучила корреляцию как причину: "goblin" → высокий балл. Это классический reward hacking — схема находит способ получать высокий балл, не делая ровно того, что от нее хотели.
Самое интересное — как привычка расползлась за пределы Nerdy. Здесь включилась петля переиспользования: ответы, которые схема сама генерирует в обучении (rollouts), потом попадают в данные для дообучения с учителем (SFT) следующего поколения. GPT-5.5 на этапе SFT уже не различает Nerdy и обычный режим — она учится воспроизводить паттерны корпуса полностью. А в SFT-корпусе оказалось множество примеров с "goblin" и "gremlin". Модель кормили ее же собственными данными, и привычка перекочевала из узкой личности в общую схема.
OpenAI убрала Nerdy в марте после релиза GPT-5.4, удалила сигнал поощрения за упоминание существ и почистила обучающие данные. Но GPT-5.5 стартовали тренировать раньше, чем нашли проблему, — следовательно в Codex и появился запрет в промпте как костыль на стороне инференса. Сколько гоблинов окажется в GPT-6, в OpenAI пока не уточняют.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

22 минуты назад
ЛидерТаск 29 апреля: уведомления 2.0, email-интеграция и исправление багов в мобильном и веб-приложении
Сегодня выходит апдейт мобильного и веб-приложения ЛидерТаск. В этом релизе — переработанная платформа уведомлений, интеграция с почтой и ряд исправлений, которые давно ждали пользователи. Читать дале

26 минут назад
Philips добавила в мониторы Evnia опцию синхронизации умной подсветки с игрой
Philips представила новые опции для мониторов Evnia, которые регулируют освещение в ходе гейминга и используют подсветку для усиления атмосферы. Компания применила технологию Ambiglow с поддержкой ИИ

45 минут назад
Microsoft опубликовала исходный исходник 86-DOS 1.00
Microsoft в сотрудничестве с энтузиастами из IBM выложила в открытый доступ исходный код 86-DOS 1.00, промежуточные версии ядра PC-DOS 1.00, утилиты, листинги ассемблера, бумажные распечатки и рукопис

50 минут назад
Microsoft: число платных пользователей Copilot достигло 20 млн
Количество платных пользователей помощника на базе искусственного интеллекта Copilot достигло 20 млн, пишет TechCrunch со ссылкой на заявление генерального директора Microsoft Сатьи Наделлы. По его сл
1 час назад
Sony разъяснила сроки DRM-защиты игр
Владельцы PlayStation 4 и PlayStation 5, приобретающие цифровые игры, столкнулись с новой проблемой. Похоже, последние обновления систем добавили 30-дневную проверку онлайн-лицензии для цифровых игр,