Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

2 мин
Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

По данным Artificial Analysis Intelligence Index v4.0, рассуждающая релиз Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. Одновременно в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.

Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 представил 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.

Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для api. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

В Steam одновременно вышли две инди-игры с одинаковым названием

12 минут назад

В Steam одновременно вышли две инди-игры с одинаковым названием

В Steam практически одновременно появилось две никак не связанные друг с другом инди-игры с идентичным названием — Piece by Piece. Одновременно сами разработчики не стали конфликтовать, а решили извле

Microsoft может отказаться от обязательных учётных записей в Windows 11

32 минуты назад

Microsoft может отказаться от обязательных учётных записей в Windows 11

Некоторые высокопоставленные инженеры Microsoft выступили за функция отказа от обязательного использования учётных записей при входе в систему в Windows 11. Читать далее

Opensophy Hub — начальный open-source инициатива от Opensophy: гибридная система для документации с богатым Markdown

1 час назад

Opensophy Hub — начальный open-source инициатива от Opensophy: гибридная система для документации с богатым Markdown

Opensophy выпустила свой начальный открытый open-source проект — Hub, гибридную SSG+SPA платформу для публикации технических знаний, статей и документации. Ознакомиться с проектом

НИЯУ МИФИ в партнёрстве с Яндекс Практикумом проводит День открытых дверей онлайн-магистратуры для DE, ML, CV и NLP

1 час назад

НИЯУ МИФИ в партнёрстве с Яндекс Практикумом проводит День открытых дверей онлайн-магистратуры для DE, ML, CV и NLP

Привет, это команда Яндекс Практикума! Приглашаем вас на День открытых дверей онлайн-магистратуры «Специалист по работе с данными и применению ИИ» НИЯУ МИФИ в партнёрстве с Практикумом. На встрече мы

Инициатива Crypto.com заявил о сокращении приблизительно 12% сотрудников на фоне масштабного внедрения ИИ в бизнес-процессы

1 час назад

Инициатива Crypto.com заявил о сокращении приблизительно 12% сотрудников на фоне масштабного внедрения ИИ в бизнес-процессы

Криптовалютная система Crypto.com сократила приблизительно 12% своего персонала в связи с масштабного внедрения искусственного интеллекта в бизнес-процессы, сообщил основатель и генеральный директор п