19 марта 2026, 09:25

Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

2 мин

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

По данным Artificial Analysis Intelligence Index v4.0, рассуждающая релиз Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. Одновременно в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.

Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 представил 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.

Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для api. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Grok Grok 4.20

Читают сейчас

13 минут назад

Вышел VidCoder 12.20 — публичный инициатива для копирования DVD/Blu-ray и перекодирования видео для ПК на Windows

17 июня 2026 года состоялся релиз инструментария VidCoder 12.20. Это публичный инициатива для копирования DVD/Blu‑ray и перекодирования видео для ПК на Windows. Исходный код решения написан на C# и оп

2 часа назад

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

Президент США Дональд Трамп больше не полагает Anthropic угрозой национальной безопасности. В интервью "The Axios Show", опубликованном 19 июня, на прямой вопрос, представляют ли угрозу сама компания

2 часа назад

Вышла релиз Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

В середине июня 2026 года состоялся версия обновления проекта Glow 26.10. Это публичный инструмент для системного анализа и тестирования аппаратных и программных возможностей ПК на Windows 10/11. Исхо

4 часа назад

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

Перевод ЦОД на жидкостное охлаждение требует множество времени и больших капиталовложений. Google решили эту проблему, представив нам Brazos — замкнутую СЖО модульного типа. Под катом взглянем на архи

4 часа назад

Пользователи заявили о баге с исчезающими виджетами в Android 17

Некоторые владельцы Google Pixel, обновившиеся до Android 17, пожаловались на баги с исчезающими виджетами на главном экране. При этом вернуть значки не получается. Ознакомиться далее