24 апреля 2026, 00:45
GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.
Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.
Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила отчасти или отказалась. Проще говоря, показатель демонстрирует, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.
AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если схема не уверена.
Сама OpenAI пишет в System Card организация пишет, что GPT-5.5 стала практически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие практические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.
Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем совокупный балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

2 часа назад
Meta* признала и исправила проблему, в связи с которой любой мог завладеть чужим аккаунтом в Instagram
Организация Meta* признала и исправила проблему с безопасностью, из-за которой любой мог заставить чат-бота Meta* AI сбросить пароль в чужих аккаунтах Instagram** без двухфакторной аутентификации. Чит

8 часов назад
Grok все? Google арендует у Маска вычислительные мощности на почти $1 млрд в месяц
Google будет платить SpaceX $920 млн в месяц с октября 2026 по июнь 2029 за доступ около к 110 000 GPU NVIDIA, а равным образом к CPU, памяти и сопутствующей инфраструктуре. За цельный дедлайн это око

9 часов назад
Версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1
Состоялся версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1. Версия 3.0 проекта вышла в 2024 году. Ознакомиться далее

9 часов назад
Минцифры запускает единую программу исследований кибербезопасности ИИ
Минцифры России объявило о двух ключевых шагах в сфере кибербезопасности: формировании единой программы комплексных исследований и переходе к тестированию защищённости ИИ в государственных информацион

10 часов назад
Китайская Navee представила двухместный экранолёт WaveFly 5
Китайская организация NAVEE провела первый открытый полёт WaveFly 5X — нового двухместного электрического экранолёта (аппарата на воздушной подушке экранного эффекта), позиционируемого как первое потр