
27 мая 2026, 13:49
Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%
Новый тест производительности DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое

5 мая 2026, 22:05
Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg
Свежий бенчмарк ProgramBench использует нестандартный решение к измерению способностей LLM. Схема получает бинарные файлы и документацию ряда приложений (включая FFMpeg), а затем должна самостоятельно

18 апреля 2026, 18:14
Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark
Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документация. Читать далее

7 апреля 2026, 16:09
Милла Йовович выпустила open-source ИИ-инструмент, набравший 100% в бенчмарке
Актриса Милла Йовович наряду с другом, разработчиком Беном Сигманом, выпустила open-source инструмент для долгосрочной памяти ИИ-агентов — MemPalace. Читать далее

23 февраля 2026, 21:24
Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения
Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со