1 час назад
GPT 5.6 Sol жульничает на тестах
METR провели предрелизный аудит. И обнаружили, что Sol — чемпион по читерству среди всех публичных моделей, которые они тестировали. Схема не просто решала задачи. Она взламывала тестовую среду. Ознак