19 марта 2026, 09:25
Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

xAI официально вывела Grok 4.20 из статуса беты. Модель, которая тестировалась с 17 февраля, теперь доступна в четырех режимах: Auto (автоматический выбор между быстрым и экспертным), Fast (быстрые ответы), Expert (глубокие рассуждения) и Heavy (мультиагентный режим с четырьмя параллельными агентами). Новинка достпна через веб-версию, мобильное приложение и специальный раздел в X.

По данным Artificial Analysis Intelligence Index v4.0, рассуждающая релиз Grok 4.20 набирает 48 баллов — это 8-е место среди всех протестированных моделей. Лидируют Gemini 3.1 Pro Preview и GPT-5.4 с 57 баллами, а прямой конкурент Claude Opus 4.6 набирает 53. Одновременно в отдельных тестах картина иная: на бенчмарке IFBench (следование инструкциям) Grok 4.20 занял первое место с результатом 83%, а на τ²-Bench Telecom (агентное использование инструментов) — второе с 97%, уступив лишь GLM-5.
Но главный козырь модели — фактическая достоверность. В тесте AA-Omniscience, который измеряет склонность модели выдумывать ответы, Grok 4.20 представил 78% (количество случаев, когда модель честно говорила, что не знает ответ) — абсолютный рекорд среди всех протестированных ИИ. Иными словами, Grok врёт реже всех, но думает не лучше всех.
Месяц бета-тестирования прошел с тремя обновлениями: Beta 2 от 3 марта улучшила следование инструкциям и добавила поддержку LaTeX, а билд 0309 от 10 марта стал стабильной версией для api. xAI обещает дальнейшие улучшения — в частности, кодинга для игр и интеграции с X в реальном времени.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

31 минуту назад
У чат-бота Grok в X украли $175 тыс. с помощью азбуки Морзе
4 мая атакующий через адрес ilhamrafli.base.eth вывел из ИИ-кошелька, привязанного к аккаунту Grok в X, приблизительно $175 тысяч в токенах DRB на сети Base. Ни одной строчки эксплойт-кода не понадоби

36 минут назад
Только 20% российских компаний имеют фактический план действий на случай аварий в ИТ: исследование Linx Cloud и Global CIO
Облачный провайдер Linx Cloud совместно с сообществом ИТ-лидеров Global CIO провели исследование отказоустойчивости крупного и среднего российского бизнеса. Цель исследования – понять текущую зрелость

46 минут назад
Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge
21 мая пройдёт Yandex ML Challenge — масштабное соревнование для всех, кто интересуется ML и готов помериться силами в решении разных задач: от работы с LLM до Reinforcement Learning. Участников ждёт

46 минут назад
РБК: некоторое количество топ-чиновников Минцифры могут покинуть ведомство на фоне реорганизации
Заместитель главы Минцифры Сергей Кучушев рассматривает функция ухода из министерства, сейчас чиновник курирует три направления: департамент экономики и финансов, департамент развития IT-отрасли и деп
1 час назад
Минпромторг поддержал введение НДС в 22% на зарубежные интернет-заказы
Минпромторг России поддержал введение с 1 января 2027 года налога на добавленную стоимость (НДС) на иностранные товары, приобретаемые через интернет, в размере 22%, сообщили ТАСС в министерстве. Ознак