24 апреля 2026, 00:45

GPT-5.5 возглавила рейтинг сильнейших ИИ с тревожной оговоркой

2 мин

Artificial Analysis поставила GPT-5.5 на первое место в своем Intelligence Index. По оценке компании, новая модель OpenAI обошла ближайших конкурентов на 3 пункта и прервала ничью между OpenAI, Anthropic и Google. Artificial Analysis получила предварительный доступ к модели и протестировала все пять уровней рассуждения: xhigh, high, medium, low и non-reasoning.

Но в результатах есть важная оговорка. На AA-Omniscience, бенчмарке на знание фактов и склонность к галлюцинациям, GPT-5.5 xhigh показала лучший результат по точности — 57% правильных ответов на предельно сложные вопросы. Однако hallucination rate у нее составил тревожные 86% — против 36% у Claude Opus 4.7 max и 50% у Gemini 3.1 Pro Preview.

Это не значит, что GPT-5.5 галлюцинирует в 86% всех ответов. В методологии Artificial Analysis hallucination rate — это доля неправильных ответов среди всех случаев, где модель не дала полностью правильный ответ: ошиблась, ответила отчасти или отказалась. Проще говоря, показатель демонстрирует, как часто модель выбирает уверенный неверный ответ вместо того, чтобы признать незнание.

AA-Omniscience устроен именно вокруг этой проблемы. В тесте 6000 вопросов по 42 темам из шести областей: бизнес, гуманитарные и социальные науки, здоровье, право, программная инженерия, наука, техника и математика. Модели отвечают без поиска и внешних инструментов, а оценка поощряет правильные ответы, штрафует неверные и не наказывает за отказ, если схема не уверена.

Сама OpenAI пишет в System Card организация пишет, что GPT-5.5 стала практически точнее GPT-5.4 на выборке разговоров ChatGPT, которые пользователи ранее отмечали как содержащие практические ошибки: отдельные утверждения были на 23% чаще корректными, а ответы на 3% реже содержали фактическую ошибку. Но компания уточняет, что это не репрезентативный срез всего трафика, а специально сложные для фактологичности случаи.

Получается парадоксальная картина: GPT-5.5 выглядит сильнейшей универсальной моделью по независимому рейтингу и действительно знает больше конкурентов в AA-Omniscience, но хуже калибрует собственную уверенность. Для задач вроде фактчекинга, ресерча, юридических и медицинских справок это может быть не менее важно, чем совокупный балл в рейтинге: убедительный ответ сильной модели все равно нужно проверять, особенно если она работает без источников и внешних инструментов.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

GPT-5.5 Codex ChatGPT

Читают сейчас

46 минут назад

Вышел Visual Studio Code 1.130: отдельный процедура для ИИ-агентов и упрощённая тест правок

Microsoft выпустила Visual Studio Code 1.130. Основные изменения затронули работу с ИИ-агентами: их сессии постепенно переносят в отдельный процедура, а оболочку просмотра сгенерированных изменений сд

1 час назад

Датамайнеры обнаружили эмулятор Xbox 360, скрытый в контексте обратной совместимости оригинальной Xbox с ПК

Во второй половине июля Microsoft объявила о запуске программы обратной совместимости Xbox Backward Compatibility on PC, которая позволяет запускать игры с оригинальной Xbox на ПК и портативных устрой

1 час назад

OpenAI сделала ChatGPT Health доступным для всех пользователей в США

OpenAI объявила о полном запуске сервиса ChatGPT Health в США. Теперь воспользоваться им могут все авторизованные пользователи старше 18 лет нев зависимости от тарифа — Free, Go, Plus или Pro. Функция

1 час назад

Selectel дарит домены новым клиентам VDS

При аренде VDS в Selectel до 30 сентября 2026 года все новые клиенты могут получить в подарок адрес сайта в зоне .ru или .рф. Подробности под катом. Читать далее

1 час назад

Евросоюз ввёл санкции против банков WB, Ozon, «Яндекса», МТС и десятков других финансовых организаций

Евросоюз согласовал и утвердил 21-й пакет санкций против России, они коснутся сфер финансов, энергетики, торговли и криптовалюты, заявил глава Европейского совета Антониу Кошта. В соответствии с публи