
18 апреля 2026, 18:14
Opus 4.7 vs Opus 4.6 на Veai Agent Benchmark
Anthropic выкатили новую версию — мы не стали ждать и прогнали внутренний тест производительности на боевых workflow: миграция, рефакторинг, тесты, документация. Читать далее

7 апреля 2026, 16:09
Милла Йовович выпустила open-source ИИ-инструмент, набравший 100% в бенчмарке
Актриса Милла Йовович наряду с другом, разработчиком Беном Сигманом, выпустила open-source инструмент для долгосрочной памяти ИИ-агентов — MemPalace. Читать далее

23 февраля 2026, 21:24
Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения
Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со