1 час назад
Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае схема получает бинарные файлы и документацию ряда приложений (включая FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью. Одновременно условия сделаны намеренно жёсткими: например, моделям не дают доступ в интернет (хотя живому разработчику без возможности погуглить было бы сложно справиться с подобным).
Разработчики ProgramBench обращают внимание, что обычно известные бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах: например, «исправить определённый баг». Тем не менее в реальности люди применяют ИИ и для полного создания проекта с нуля, порой почти безнадзорного, когда архитектурные решения оказываются за моделью. И способности в подобной всесторонней деятельности ранее почти не измерялись систематически.
Сейчас результаты оказались такими. Ни одна текущая схема не справляется с задачами полностью (так, чтобы получившееся программа проходило 100% тестов). Во многих случаях проходит часть тестов, этот итог выше при воссоздании простых CLI-приложений вроде утилиты fzf, но низкий у сложных вроде FFmpeg:

В бенчмарке решили ввести отдельную оценку «почти получилось» для случаев, когда проходят 95% тестов. И сейчас у лидера, Opus 4.7, получилось набрать это в 3% из всех заданий. А общий лидерборд выглядит так:
# | Model | Agent | Resolved help_outline | Almost resolved help_outline | |
|---|---|---|---|---|---|
1 | Anthropic | Claude Opus 4.7 Anthropic | mini-SWE-agent | 0% | 3.0% |
2 | Anthropic | Claude Opus 4.6 Anthropic | mini-SWE-agent | 0% | 2.5% |
3 | Anthropic | Claude Sonnet 4.6 Anthropic | mini-SWE-agent | 0% | 1.0% |
4 | OpenAI | GPT 5.4 OpenAI | mini-SWE-agent | 0% | 0.0% |
5 | Gemini 3.1 Pro Google | mini-SWE-agent | 0% | 0.0% | |
6 | Gemini 3 Flash Google | mini-SWE-agent | 0% | 0.0% | |
7 | Anthropic | Claude Haiku 4.5 Anthropic | mini-SWE-agent | 0% | 0.0% |
8 | OpenAI | GPT 5.4 mini OpenAI | mini-SWE-agent | 0% | 0.0% |
9 | OpenAI | GPT 5 mini OpenAI | mini-SWE-agent | 0% | 0.0% |
Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы околонулевыми. И порой возникает вопрос, считать ли такой тест производительности решаемым в целом. Авторы отвечают, что он намеренно сделан очень сложным, однако решаемым.
В этом контексте полезно вспомнить, что с рядом других бенчмарков ранее происходила сатурация. При их создании модели показывали невысокие результаты, но позже новые модели начинали справляться с задачами, которые ранее считались сложными. Когда это происходило массово, тест производительности переставал отражать различия моделей. Из-за сатурацию периодически создаются более сложные бенчмарки, поднимающие планку выше, и ProgramBench — один из подобных шагов.
Читают сейчас

1 час назад
Актёры и сценарии, созданные с помощью искусственного интеллекта, теперь не смогут претендовать на «Оскар»
1 мая компания, ответственная за вручение премии «Оскар», опубликовала новые правила для 99-й церемонии в 2027 году, в том числе касающиеся использования искусственного интеллекта, пишет TechCrunch. О

1 час назад
Хакатон-дайджест №34 на май
Ежемесячная подборка хакатонов! Майский выпуск: ловите подборку ИТ-соревновании, где ваш исходник, аналитика и креатив превращаются в призовые, офферы и строчки в портфолио. В этом месяце — амбициозны

2 часа назад
AvitoTech едет в Екатеринбург: дринкап для тимлидов
28 мая мы в первый раз проводим ивент на Урале — собираем тимлидов, техлидов и руководителей IT-команд из Екатеринбурга на неформальный вечер в центре города. Формат — дискуссионные круглые столы с эк

3 часа назад
Chrome может незаметно загрузить на диск локальную ИИ-модель Gemini Nano на 4GB
Прямо сейчас эта новость форсится под заголовком "Google Украл на вашем диску ЦЕЛЫХ 4GB без вашего ведова!!!", но бояться совсем нечего. Официальная документы Chrome прямо говорит, что Prompt программ

3 часа назад
На 52,5% галлюцинаций меньше: вышла GPT-5.5 Instant
OpenAI обновила базовую схема ChatGPT: на смену GPT-5.3 Instant пришла GPT-5.5 Instant. Схема включается по умолчанию на бесплатном тарифе, а платным подписчикам пригодится для быстрых ответов. Ознако