GPT-5.4 стал лучшим ИИ для вайб-кодинга

2 мин
GPT-5.4 стал лучшим ИИ для вайб-кодинга

GPT-5.4 занял первое место на Vibe Code Bench v1.1 с результатом 67,42% — на 5,7 п.п. выше предыдущего лидера GPT-5.3 Codex (61,77%). Третье место — у Claude Opus 4.6 без режима рассуждений с 57,57%. Бенчмарк измеряет не умение дописать функцию или починить баг, а способность модели собрать работающее веб-приложение целиком — от пустой папки до развернутого сервиса — по текстовому описанию.

Набор включает 100 промптов на приложения, разделенных на публичную и тестовую части. Каждая задача предполагает, что схема с нуля строит программа в изолированной среде с доступом к браузеру, терминалу и типичным продакшен-сервисам — аутентификации, базам данных, платежным системам и почте arXiv. Среди заданий — аналоги популярных сервисов (например, социальная сеть Zeeter, напоминающая X), трекеры привычек и порталы управления классом. На каждое приложение модели дается до пяти часов. Готовый результат проверяет отдельный агент-оценщик: он пытается пользоваться приложением как человек и выставляет балл по числу работающих функций.

Отдельный занимательный срез — стоимость одной попытки. Vals AI приводят кривые "точность — стоимость" и "точность — задержка": больше денег и времени повышают итог, но с убывающей отдачей. Одновременно Claude Opus 4.6 добирается до результатов, близких к топу, при меньших затратах и задержках, чем GPT-5.3 Codex и GPT-5.4. Иными словами, лидерство GPT-5.4 по точности не означает лидерство по эффективности — для разработчиков, считающих токены, это значимый нюанс.

Но даже у лидера картина далека от "вайб-кодинг решен". Приблизительно треть решений у GPT-5.4 все еще проваливается, а распределение результатов по приложениям следующее: они либо работают хорошо (87–100 процентов тестов), либо не работают почти полностью (0–12,5%). Однако скорость прогресса в бенчмарке впечатляет — еще полгода назад лучший итог был вдвое ниже.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

TechRadar для Java-разработчиков возвращается

17 минут назад

TechRadar для Java-разработчиков возвращается

77% разработчиков используют Spring Boot 3, Cursor — всего у 2%, а средняя желаемая зарплата — 500 000 ₽ в месяц. Это были цифры за прошлый год. Сейчас картина уже другая: появились новые IDE, в повсе

Еще больше разговоров об ИИ на KARPOV.CONF

23 минуты назад

Еще больше разговоров об ИИ на KARPOV.CONF

28 апреля команда kаrpov.cоurses проведет бесплатную онлайн-конференцию KARPOV.CONF. Это целый день про ИИ и то, как эффективно внедрять его в бизнес. О том, как принять участие, можно узнать у органи

Вышла ChatGPT Image 2: новая нейросеть от OpenAI, которая разматывает конкурентов в генерации изображений

40 минут назад

Вышла ChatGPT Image 2: новая нейросеть от OpenAI, которая разматывает конкурентов в генерации изображений

Мир нейросетей снова встряхнуло. Организация OpenAI представила GPT Image 2 – и это не просто очередной апдейт, а мощный скачок вперед. Если раньше генерация изображений требовала танцев с промптами и

Cloudflare подвела итоги Agents Week 2026: что выкатили для агентных систем

52 минуты назад

Cloudflare подвела итоги Agents Week 2026: что выкатили для агентных систем

Агенты перестают быть экспериментами на уровне прототипов и начинают требовать полноценной инфраструктуры: с изоляцией, состоянием, доступом к внутренним сервисам и понятным путём в продакшен. На Agen

OpenAI релизнула GPT Image 2. Что изменилось и когда ждать программный оболочку

1 час назад

OpenAI релизнула GPT Image 2. Что изменилось и когда ждать программный оболочку

21 апреля 2026 года OpenAI запустила фазовый роллаут GPT Image 2 - следующей версии нативной модели генерации изображений, встроенной в экосистему Chat GPT. Пока доступ ограничен подписчиками Plus, Te