5 мая 2026, 22:05

Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

2 мин

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае схема получает бинарные файлы и документацию ряда приложений (включая FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. Одновременно условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет (хотя живому разработчику без возможности погуглить было бы сложно справиться с подобным).

Разработчики ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить определённый баг». Тем не менее в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в подобной всесторонней деятельности ранее почти не измерялись систематически.

Сейчас результаты оказались такими. Ни одна текущая схема не справляется с задачами полностью (так, чтобы получившееся программа проходило 100% тестов). Во многих случаях проходит часть тестов, этот итог выше при воссоздании простых CLI-приложений вроде утилиты fzf, но низкий у сложных вроде FFmpeg:

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:

#		Model	Agent	Resolved help_outline	Almost resolved help_outline
1	Anthropic	Claude Opus 4.7 Anthropic	mini-SWE-agent	0%	3.0%
2	Anthropic	Claude Opus 4.6 Anthropic	mini-SWE-agent	0%	2.5%
3	Anthropic	Claude Sonnet 4.6 Anthropic	mini-SWE-agent	0%	1.0%
4	OpenAI	GPT 5.4 OpenAI	mini-SWE-agent	0%	0.0%
5	Google	Gemini 3.1 Pro Google	mini-SWE-agent	0%	0.0%
6	Google	Gemini 3 Flash Google	mini-SWE-agent	0%	0.0%
7	Anthropic	Claude Haiku 4.5 Anthropic	mini-SWE-agent	0%	0.0%
8	OpenAI	GPT 5.4 mini OpenAI	mini-SWE-agent	0%	0.0%
9	OpenAI	GPT 5 mini OpenAI	mini-SWE-agent	0%	0.0%

Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы околонулевыми. И порой возникает вопрос, считать ли такой тест производительности решаемым в целом. Авторы отвечают, что он намеренно сделан очень сложным, однако решаемым.

В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, тест производительности переставал отражать различия моделей. Из-за сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.

ИИ бенчмарк

Читают сейчас

46 минут назад

Открытая GLM-5.2 обошла Fable 5 в дизайне — в Design Arena раскрыли секрет успеха

Открытая модель GLM-5.2 от Z.ai заняла первое место в single-turn веб-дизайне на Design Arena, обойдя Claude Fable 5 и Opus 4.8 — модели Anthropic, которая держала вершину этой категории месяцами. Но

1 час назад

Фанат Fallout сделал оболочку бортовой системы своего автомобиля в стиле Pip‑Boy

Разработчик под ником ShadCimm и фанат Fallout превратил бортовую систему своего автомобиля Hyundai Accent в стиле Fallout Pip‑Boy. Он сделал открытый инициатива под названием UNIT 99-E OS. Это лаунче

1 час назад

Имплант для мозга помог пациенту с БАС, неспособному говорить, вернуться к работе и общению

Учёные Калифорнийского университета в Дейвисе опубликовали статью о том, как пациент с боковым амиотрофическим склерозом (БАС) Кейси Харрелл смог вернуться к работе на цельный день за счёт имплантиров

1 час назад

Алгоритм «бери или плати» на оптовом рынке э/э введут постепенно

Минэнерго смягчило позицию, для крупных ЦОД от 50 МВт переход к 70% от максимальной мощности растянут на 6 лет. Это лучше чем 90% с первого дня которые обсуждались раньше, но не убирает риски полность

2 часа назад

Из Google ушел Джон Джампер — нобелевский лауреат и глава AlphaFold

Нобелевский лауреат Джон Джампер объявил, что покидает Google DeepMind после почти девяти лет работы и переходит в Anthropic. Об уходе он создал текст у себя в X 19 июня: сначала возьмет паузу, чтобы