1 час назад
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый тест производительности DeepSWE представил, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое место с 64%, а GPT-5.5 шёл следом с 59%.

DeepSWE — тест производительности от команды Datacurve. В отличие от SWE-Bench, все задачи в нём написаны с нуля: никаких адаптаций существующих PR и коммитов. Средняя задача требует написать 668 строк кода и затронуть 7 файлов — против 120 строк и 5 файлов в SWE-Bench Pro. Верификаторы тестируют поведение, а не реализацию, поэтому правильный ответ не привязан к конкретной структуре кода.
Разработчики также провели аудит самого SWE-Bench Pro. Судья на основе LLM не согласился с верификатором SWE-Bench Pro в 32% случаев — против 1.4% у DeepSWE. Часть расхождений объясняется неожиданным поведением Claude: в контейнере SWE-Bench Pro хранится полная история .git, и Claude Opus 4.7 извлекал готовое подход из git-истории около в 18% случаев, когда проходил задачу. GPT и Gemini такого поведения не демонстрировали.
По стоимости: GPT-5.5 обходится в $5.8 за задачу при результате 70 процентов, GPT-5.4 — $3.3 при 56%. Claude Opus 4.7 в таблицу затрат попал, но точная цифра не публикуется отдельно.

Корпус охватывает 113 задач из 91 репозитория на TypeScript, Go, Python, JavaScript и Rust. Java и C++ пока отсутствуют. Все модели запускались через один и тот же mini-swe-agent, без нативных инструментов вроде Claude Code или Codex CLI.
Русскоязычное сообщество про AI в разработке

Друзья! Эту новость подготовила команда ТГК «AI for Devs» — канала, где мы рассказываем про AI-агентов, плагины для IDE, делимся фактическими кейсами и свежими новостями из мира ИИ. Подписывайтесь, чтобы быть в курсе и ничего не упустить!
Читают сейчас

16 минут назад
PGMeetup: Postgres Pro AXE — анализ без «зоопарка» технологий
28 мая компания Postgres Professional проведёт бесплатный вебинар, посвящённый новому продукту для корпоративной аналитики — Postgres Pro AXE. На встрече эксперты представят подробный обзор решения, к

22 минуты назад
28 мая, 11:00 МСК — вебинар о новинках InfoWatch
Привет! Уже завтра мы проведём вебинар, на котором расскажем о том, как противодействовать новым угрозам (которых, увы, становится больше около с каждым днём). Участие бесплатное, главное — зарегистри

25 минут назад
Умные очки как инструмент поиска человека, автомобиля, собаки или чего угодно
Спецлаб внедрил протокол Умных очков в видеоблейзер, который в свою очередь можно обучить на любую нейросеть, а равным образом производить поиск по встроенной (собственной) базе лиц и номеров автомоби

28 минут назад
Чек-лист для оценки безопасности навыков AI-агентов
Навыки AI-агента — это переносимые модули процедурной памяти, включающие инструкции, критерии и ресурсы, которые агент подгружает по мере необходимости для выполнения задач. Примеры: доступ к браузеру

30 минут назад
Апдейт HP сломало принтер OfficeJet, в техподдержке посоветовали апдейтнуть девайс
Владелец HP OfficeJet 4650 из Квебека рассказал, что HP удалённо вывела из строя его пятилетний принтер после обновления прошивки. После нескольких недель общения с техподдержкой в компании признали,