GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

2 мин
GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.

Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.

Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила отчасти или отказалась. Проще говоря, показатель демонстрирует, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.

AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если схема не уверена.

Сама OpenAI пишет в System Card организация пишет, что GPT-5.5 стала практически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие практические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.

Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем совокупный балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Intel показала прототип ноутбука на базе чипа Wildcat Lake, который должен стать конкурентом MacBook Neo

2 часа назад

Intel показала прототип ноутбука на базе чипа Wildcat Lake, который должен стать конкурентом MacBook Neo

Intel представила журналистам прототип ноутбука на базе чипа Wildcat Lake. Компания делает упор на компактность, энергоэффективность и планирует конкурировать с MacBook Neo. Ознакомиться далее

DJI представила дроны Lito 1 и X1 с запись 4K HDR для начинающих пилотов

4 часа назад

DJI представила дроны Lito 1 и X1 с запись 4K HDR для начинающих пилотов

DJI анонсировала линейку дронов Lito, предназначенных для начинающих пилотов. Линейка состоит из двух дронов, которые различаются камерами. Цены в Европе начинаются от 350 евро. Читать далее

Tencent запустила тестирование ИИ-агента QClaw, но сильно ограничила к нему доступ

5 часов назад

Tencent запустила тестирование ИИ-агента QClaw, но сильно ограничила к нему доступ

Tencent запустила публичный бета-тест собственного ИИ-агента QClaw для пользователей по всему миру — приложение работает на Windows и Mac без сложной технической настройки, тем не менее на старте дост

OpenAI представили свежий флагман — GPT-5.5

5 часов назад

OpenAI представили свежий флагман — GPT-5.5

OpenAI выпустила GPT-5.5 — свежий флагман, который, по заявлению компании, помог оптимизировать собственный инференс-стек. В соответствии с заявлению компании, GPT-5.5 в кодинг-агенте Codex оптимизиро

Вышла GPT-5.5 — схема, которая сама создала часть своего инференса

5 часов назад

Вышла GPT-5.5 — схема, которая сама создала часть своего инференса

OpenAI выпустила GPT-5.5 — свежий флагман, который, по заявлению компании, сам помог переписать часть своего инференс-стека. Модель проанализировала недели продакшн-трафика и написала механизм баланси