Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

2 мин
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый тест производительности DeepSWE представил, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — тест производительности от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.

Разработчики также провели аудит самого SWE-Bench Pro. Судья на основе LLM не согласился с верификатором SWE-Bench Pro в 32% случаев — против 1.4% у DeepSWE. Часть расхождений объясняется неожиданным поведением Claude: в контейнере SWE-Bench Pro хранится полная история .git, и Claude Opus 4.7 извлекал готовое подход из git-истории около в 18% случаев, когда проходил задачу. GPT и Gemini такого поведения не демонстрировали.

По стоимости: GPT-5.5 обходится в $5.8 за задачу при результате 70 процентов, GPT-5.4 — $3.3 при 56%. Claude Opus 4.7 в таблицу затрат попал, но точная цифра не публикуется отдельно.

Корпус охватывает 113 задач из 91 репозитория на TypeScript, Go, Python, JavaScript и Rust. Java и C++ пока отсутствуют. Все модели запускались через один и тот же mini-swe-agent, без нативных инструментов вроде Claude Code или Codex CLI.

Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!

Читают сейчас

PGMeetup: Postgres Pro AXE — анализ без «зоопарка» технологий

16 минут назад

PGMeetup: Postgres Pro AXE — анализ без «зоопарка» технологий

28 мая компания Postgres Professional проведёт бесплатный вебинар, посвящённый новому продукту для корпоративной аналитики — Postgres Pro AXE. На встрече эксперты представят подробный обзор решения, к

28 мая, 11:00 МСК — вебинар о новинках InfoWatch

22 минуты назад

28 мая, 11:00 МСК — вебинар о новинках InfoWatch

Привет! Уже завтра мы проведём вебинар, на котором расскажем о том, как противодействовать новым угрозам (которых, увы, становится больше около с каждым днём). Участие бесплатное, главное — зарегистри

Умные очки как инструмент поиска человека, автомобиля, собаки или чего угодно

25 минут назад

Умные очки как инструмент поиска человека, автомобиля, собаки или чего угодно

Спецлаб внедрил протокол Умных очков в видеоблейзер, который в свою очередь можно обучить на любую нейросеть, а равным образом производить поиск по встроенной (собственной) базе лиц и номеров автомоби

Чек-лист для оценки безопасности навыков AI-агентов

28 минут назад

Чек-лист для оценки безопасности навыков AI-агентов

Навыки AI-агента — это переносимые модули процедурной памяти, включающие инструкции, критерии и ресурсы, которые агент подгружает по мере необходимости для выполнения задач. Примеры: доступ к браузеру

Апдейт HP сломало принтер OfficeJet, в техподдержке посоветовали апдейтнуть девайс

30 минут назад

Апдейт HP сломало принтер OfficeJet, в техподдержке посоветовали апдейтнуть девайс

Владелец HP OfficeJet 4650 из Квебека рассказал, что HP удалённо вывела из строя его пятилетний принтер после обновления прошивки. После нескольких недель общения с техподдержкой в компании признали,