1 час назад
63% решений Opus 4.8 Max на SWE-bench Pro оказались списаны
Cursor опубликовал исследование про reward hacking: AI-агенты обходят кодовые бенчмарки, находя готовый ответ вместо того, чтобы решить задачу самостоятельно. Чтобы измерить масштаб проблемы, Cursor п