
23 февраля 2026 г.
Модели набирали 80% на бенчмарке OpenAI. Оказалось, они просто запомнили решения
Компания OpenAI перестала применять SWE-bench Verified — один из самых популярных бенчмарков для оценки того, насколько хорошо ИИ справляется с реальными задачами по программированию. Компания сама со

21 февраля 2026 г.
Полгода назад ИИ не мог нарисовать часы. Теперь — 5 из 5 попыток идеальны
Исследователь из Goodeye Labs Рэнди Олсон дал 22 ИИ-моделям — от GPT-3. 5 (2023) до свежих релизов 2026 года — один и тот же промпт: создать в одном HTML-файле работающие аналоговые часы с тремя стрел