Почему ChatGPT думает о гоблинах — объясняет OpenAI
Оказалось, компания переборщила с обучением моделей.
В конце апреля выяснилось, что разработчикам OpenAI пришлось специально просить модель GPT-5.5 не говорить о гоблинах и других фантастических тварях. Теперь компания объяснила, в чем тут дело.
Оказалось, модели OpenAI любят гоблинов уже несколько версий. Сначала это выглядело как безобидная особенность стиля GPT-5.X, но со временем такие выражения стали появляться настолько часто, что компания провела внутреннее расследование.
Первый заметный всплеск числа упоминаний гоблинов зафиксировала после запуска GPT-5.1. На фоне жалоб пользователей на слишком фамильярный тон ChatGPT исследователи проверили языковые привычки модели и выяснилось, что употребление слова goblin выросло на 175%, а gremlin — на 52%.
При работе с GPT-5.4 компания обнаружила связь гоблинов с функцией настройки личности ChatGPT. Особенно часто гоблины встречались у пользователей, выбравших режим Nerdy: он давал лишь 2.5% всех ответов ChatGPT, но на него приходилось 66.7% всех упоминаний гоблинов.
Расследование показало, что все дело в механике обучения моделей. Один из сигналов вознаграждения, созданный для Nerdy, чаще поощрял ответы, где появлялись слова вроде goblin и gremlin. В 76.2% наборов данных такие ответы оценивались выше, чем аналогичные ответы без этих слов.
Поведение, усиленное в Nerdy, начало переноситься и в обычные ответы модели. OpenAI объясняет это тем, что обучение с подкреплением не гарантирует строгой изоляции таких «речевых привычек».
Во время проверки данных GPT-5.5 исследователи OpenAI нашли не только гоблинов и «гремлинов», но и другие повторяющиеся слова-образы: енотов, троллей, огров и почему-то голубей. При этом с лягушками все было в порядке.
После релиза GPT-5.4 OpenAI убрала проблемный сигнал вознаграждения и начала фильтровать обучающие данные, но на тот момент GPT-5.5 уже прошла обучение. Именно поэтому в промпт пришлось добавить отдельную просьбу не увлекаться гоблинами.
- Слух: ИИ-смартфон OpenAI ускорен и может выйти в 2027 году
- Гейб Ньюэлл оказался крупным ранним донором OpenAI
- Windrose улучшили: вышло большое обновление 0.10.0.4.268-9d2ca277
- Из-за войны США и Ирана строительство дата-центров на Ближнем Востоке начали ставить на паузу
- СМИ: OpenAI отказалась от собственной сети датацентров
- Агенту GPT-5.5 запрещено приплетать енотов и гоблинов



