27 мая 2026, 13:49

Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

2 мин

Новый тест производительности DeepSWE представил, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — тест производительности от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.

Разработчики также провели аудит самого SWE-Bench Pro. Судья на основе LLM не согласился с верификатором SWE-Bench Pro в 32% случаев — против 1.4% у DeepSWE. Часть расхождений объясняется неожиданным поведением Claude: в контейнере SWE-Bench Pro хранится полная история .git, и Claude Opus 4.7 извлекал готовое подход из git-истории около в 18% случаев, когда проходил задачу. GPT и Gemini такого поведения не демонстрировали.

По стоимости: GPT-5.5 обходится в $5.8 за задачу при результате 70 процентов, GPT-5.4 — $3.3 при 56%. Claude Opus 4.7 в таблицу затрат попал, но точная цифра не публикуется отдельно.

Корпус охватывает 113 задач из 91 репозитория на TypeScript, Go, Python, JavaScript и Rust. Java и C++ пока отсутствуют. Все модели запускались через один и тот же mini-swe-agent, без нативных инструментов вроде Claude Code или Codex CLI.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

бенчмарк GPT-5.5 Claude Opus SWE-bench coding agent DeepSWE лидерборд AI-агенты git-история

Читают сейчас

2 часа назад

AM4 живее всех живых: AMD тихо выпустила 8-ядерный Ryzen 7 4700LE на базе Zen 2

Сокет AM4, представленный еще в 2016 году, продолжает бить все рекорды долговечности. AMD в очередной раз решила задействовать свои кремниевые запасы прошлых лет и без лишнего шума добавила в каталог

2 часа назад

Apple подаёт в суд на OpenAI за кражу коммерческой тайны

Apple подала иск в федеральный суд Северной Калифорнии против OpenAI, обвинив компанию в систематической краже коммерческой тайны для ускорения разработки собственного потребительского «железа». В иск

3 часа назад

Нью-Йорк станет первым городом в США, запретившим обманные методы оформления подписки

Власти города Нью-Йорк одобрили правило, запрещающее компаниям применять обманные методы оформления подписок, чтобы заставить клиентов платить за абонементы в спортзалы, стриминговые сервисы и другие

4 часа назад

SpaceX подала заявку на запускание ещё 100 тысяч спутников Starlink для стократного роста пропускной способности системы

Космическая компания SpaceX подала заявку в Федеральную комиссию по связи США (FCC) для получения разрешения на запуск дополнительных 100 тыс. спутников третьего поколения интернет-системы Starlink. Т

5 часов назад

HMD представила телефон HMD Arc 2 на базе Android 14 Go Edition

Финская HMD Global представила смартфон HMD Arc 2 на базе операционной системы Android 14 Go Edition. Дизайн и основные характеристики новинки не сильно отличаются от оригинального HMD Arc, дебютирова