Статьи по тегу

13 июля 2026, 13:25

Google обновила Android Bench — тест производительности для оценки LLM в задачах Android-разработки

Google обновила Android Bench — бенчмарк для оценки LLM в задачах Android-разработки. Инженеры компании полностью переработали методологию тестирования, добавили новые модели и предоставили функция ра

9 июня 2026, 23:49

Выпущен тест производительности FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Организация Cognition выпустила свежий тест производительности FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно

27 мая 2026, 13:49

Свежий тест производительности DeepSWE: GPT-5.5 — 70%, Opus 4.7 — 54%

Новый тест производительности DeepSWE показал, что GPT-5.5 решает 70% задач по разработке ПО, тогда как Claude Opus 4.7 — 54%. На SWE-Bench Pro картина была ровно обратной: там Opus 4.7 занимал первое

5 мая 2026, 22:05

Выпущен тест производительности, проверяющий способность ИИ воссоздать FFmpeg

Свежий бенчмарк ProgramBench использует нестандартный решение к измерению способностей LLM. Схема получает бинарные файлы и документацию ряда приложений (включая FFMpeg), а затем должна самостоятельно

18 апреля 2026, 18:14

Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark

Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документация. Читать далее

7 апреля 2026, 16:09

Милла Йовович выпустила open-source ИИ-инструмент, набравший 100% в бенчмарке

Актриса Милла Йовович наряду с другом, разработчиком Беном Сигманом, выпустила open-source инструмент для долгосрочной памяти ИИ-агентов — MemPalace. Читать далее

23 февраля 2026, 21:24

Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения

Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со