Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

2 мин
Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собрать приложение с нуля" она показала 87,8%, обойдя GPT-5.5 от OpenAI (86,5%). Бенчмарк ведет команда из платформы вайб-кодинга Replit наряду с Georgian AI Lab и Университетом Карнеги — Меллона.

ViBench отличается от привычных тестов вроде SWE-bench тем, что измеряет не умение дописать код или починить дефект, а способность агента собрать работающее приложение полностью — с базой данных, авторизацией и интерфейсом. Проверяет результат не набор юнит-тестов, а отдельный ИI-агент, который открывает готовое приложение в браузере и кликает по нему так, как это делал бы живой потребитель. Показатель Pass@1 показывает долю приложений, которые с первой попытки работают идеально, без единого бага и пропущенной функции. ViBench был представлен публике на конференции CAIS '26 и стал первым открытым бенчмарком такого рода.

В свежем прогоне Opus 4.8 и GPT-5.5 образуют отдельную лигу: между ними меньше двух процентных пунктов, а дальше идет резкий обрыв. Третье место с большим отставанием у GLM 5.1 (66,2%), за ним кучно расположились GPT-5.4 Mini, Gemini 3.5 Flash, Kimi K2.6 и DeepSeek V4 Pro — все в районе 60%. Замыкает список MiniMax M2.7 с 17,6%, но эта же модель оказалась в разы дешевле всех остальных: один прогон обходится в 14 центов против двух долларов у лидеров.

Важная оговорка: этот снапшот покрывает только задачу создания с нуля (Zero-to-One) и прогнан на расширенном наборе из 24 приложений, тогда как в исходной статье их было 15. Часть новых приложений разработчики сами называли по сравнению с простыми, а две другие задачи бенчмарка — доработка фич поверх готового кода — в этом прогоне еще не выложены. В первой версии бенчмарка даже лидеры — Opus 4.6 и GPT-5.2 — не дотягивали до 50% Pass@1 на всех задачах сразу, а ни одна открытая схема не брала и 12%. Отдельно авторы отмечали, что модели накапливают ошибки, когда дорабатывают собственный сгенерированный исходник. Насколько быстро новое поколение закрывает эти провалы, станет видно, когда на лидерборд подъедут остальные срезы.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Copilot больше не в моде: Microsoft представила AI-агента Scout на базе OpenClaw

1 час назад

Copilot больше не в моде: Microsoft представила AI-агента Scout на базе OpenClaw

Microsoft представила Scout — AI-агента для рабочих задач, который интегрирован в экосистему Microsoft 365. Нейросетевой помощник построен на базе OpenClaw, работает автономно, может держать в контекс

Microsoft представила Coreutils для Windows

1 час назад

Microsoft представила Coreutils для Windows

Организация Microsoft представила порт набора утилит Coreutils для платформы Windows. Исходный исходник написан на Rust и PowerShell, и распространяется под лицензией MIT. Ознакомиться далее

Creality анонсировала KliTek — систему быстрой смены сопел для печати несколькими цветами и материалами

2 часа назад

Creality анонсировала KliTek — систему быстрой смены сопел для печати несколькими цветами и материалами

Creality анонсировала KliTek — систему для 3D-печати несколькими соплами. Это позволяет экономить филамент и ускоряет процесс печати несколькими цветами и материалами. Платформа дебютирует в принтере

4 часа назад

СМИ:«Сети 5G в России получат диапазон 4,63–4,99 ГГц с переходом на отечественное оборудование и ростом покрытия»

В России готовятся к запуску сетей связи пятого поколения. В конце июня 2026 года государство планирует выделить операторам «Вымпелком», МТС, «Мегафон» и Т2 диапазон 4,63–4,99 ГГц. Это позволит развор

В МАХ подтвердили, что программа мессенджера на текущий момент недоступно в AppStore

4 часа назад

В МАХ подтвердили, что программа мессенджера на текущий момент недоступно в AppStore

В магазине приложений App Store удалили программа MAX. При переходе по ссылке с официального сайта выдаёися ошибка, а в поиске программа не найти. Читать далее