Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

2 мин
Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае схема получает бинарные файлы и документацию ряда приложений (включая FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. Одновременно условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет (хотя живому разработчику без возможности погуглить было бы сложно справиться с подобным).

Разработчики ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить определённый баг». Тем не менее в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в подобной всесторонней деятельности ранее почти не измерялись систематически.

Сейчас результаты оказались такими. Ни одна текущая схема не справляется с задачами полностью (так, чтобы получившееся программа проходило 100% тестов). Во многих случаях проходит часть тестов, этот итог выше при воссоздании простых CLI-приложений вроде утилиты fzf, но низкий у сложных вроде FFmpeg:

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:

#

Model

Agent

Resolved help_outline

Almost resolved help_outline

1

Anthropic

Claude Opus 4.7 Anthropic

mini-SWE-agent

0%

3.0%

2

Anthropic

Claude Opus 4.6 Anthropic

mini-SWE-agent

0%

2.5%

3

Anthropic

Claude Sonnet 4.6 Anthropic

mini-SWE-agent

0%

1.0%

4

OpenAI

GPT 5.4 OpenAI

mini-SWE-agent

0%

0.0%

5

Google

Gemini 3.1 Pro Google

mini-SWE-agent

0%

0.0%

6

Google

Gemini 3 Flash Google

mini-SWE-agent

0%

0.0%

7

Anthropic

Claude Haiku 4.5 Anthropic

mini-SWE-agent

0%

0.0%

8

OpenAI

GPT 5.4 mini OpenAI

mini-SWE-agent

0%

0.0%

9

OpenAI

GPT 5 mini OpenAI

mini-SWE-agent

0%

0.0%

Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы околонулевыми. И порой возникает вопрос, считать ли такой тест производительности решаемым в целом. Авторы отвечают, что он намеренно сделан очень сложным, однако решаемым.

В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, тест производительности переставал отражать различия моделей. Из-за сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.

Читают сейчас

Актёры и сценарии, созданные с помощью искусственного интеллекта, теперь не смогут претендовать на «Оскар»

1 час назад

Актёры и сценарии, созданные с помощью искусственного интеллекта, теперь не смогут претендовать на «Оскар»

1 мая компания, ответственная за вручение премии «Оскар», опубликовала новые правила для 99-й церемонии в 2027 году, в том числе касающиеся использования искусственного интеллекта, пишет TechCrunch. О

Хакатон-дайджест №34 на май

1 час назад

Хакатон-дайджест №34 на май

Ежемесячная подборка хакатонов! Майский выпуск: ловите подборку ИТ-соревновании, где ваш исходник, аналитика и креатив превращаются в призовые, офферы и строчки в портфолио. В этом месяце — амбициозны

AvitoTech едет в Екатеринбург: дринкап для тимлидов

2 часа назад

AvitoTech едет в Екатеринбург: дринкап для тимлидов

28 мая мы в первый раз проводим ивент на Урале — собираем тимлидов, техлидов и руководителей IT-команд из Екатеринбурга на неформальный вечер в центре города. Формат — дискуссионные круглые столы с эк

Chrome может незаметно загрузить на диск локальную ИИ-модель Gemini Nano на 4GB

3 часа назад

Chrome может незаметно загрузить на диск локальную ИИ-модель Gemini Nano на 4GB

Прямо сейчас эта новость форсится под заголовком "Google Украл на вашем диску ЦЕЛЫХ 4GB без вашего ведова!!!", но бояться совсем нечего. Официальная документы Chrome прямо говорит, что Prompt программ

На 52,5% галлюцинаций меньше: вышла GPT-5.5 Instant

3 часа назад

На 52,5% галлюцинаций меньше: вышла GPT-5.5 Instant

OpenAI обновила базовую схема ChatGPT: на смену GPT-5.3 Instant пришла GPT-5.5 Instant. Схема включается по умолчанию на бесплатном тарифе, а платным подписчикам пригодится для быстрых ответов. Ознако