24 апреля 2026, 00:45
GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.
Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.
Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила отчасти или отказалась. Проще говоря, показатель демонстрирует, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.
AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если схема не уверена.
Сама OpenAI пишет в System Card организация пишет, что GPT-5.5 стала практически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие практические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.
Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем совокупный балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

3 часа назад
Meta* признала и исправила проблему, в связи с которой любой мог завладеть чужим аккаунтом в Instagram
Организация Meta* признала и исправила проблему с безопасностью, из-за которой любой мог заставить чат-бота Meta* AI сбросить пароль в чужих аккаунтах Instagram** без двухфакторной аутентификации. Чит

9 часов назад
Grok все? Google арендует у Маска вычислительные мощности на почти $1 млрд в месяц
Google будет платить SpaceX $920 млн в месяц с октября 2026 по июнь 2029 за доступ около к 110 000 GPU NVIDIA, а равным образом к CPU, памяти и сопутствующей инфраструктуре. За цельный дедлайн это око

10 часов назад
Версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1
Состоялся версия обновления открытого эмулятора ZX Spectrum под названием Glukalka 3.1. Версия 3.0 проекта вышла в 2024 году. Ознакомиться далее

10 часов назад
Минцифры запускает единую программу исследований кибербезопасности ИИ
Минцифры России объявило о двух ключевых шагах в сфере кибербезопасности: формировании единой программы комплексных исследований и переходе к тестированию защищённости ИИ в государственных информацион

11 часов назад
Китайская Navee представила двухместный экранолёт WaveFly 5
Китайская организация NAVEE провела первый открытый полёт WaveFly 5X — нового двухместного электрического экранолёта (аппарата на воздушной подушке экранного эффекта), позиционируемого как первое потр