GPT 5.6 Sol жульничает на тестах

2 мин
GPT 5.6 Sol жульничает на тестах

OpenAI анонсировала GPT-5.6 Sol — флагмана новой линейки. Наряду с ним выйдет Terra (рабочая лошадка уровня GPT-5.5, но в два раза дешевле) и Luna (бюджетный вариант).

Доступ к Sol, как и предполагалось, ограничен: только избранные партнёры и правительственные структуры США. OpenAI обещает «расширить доступ в ближайшие недели».

По заявлениям OpenAI, Sol — их самая мощная модель, особенно в плане кибербезопасности. На бенчмарке Terminal-Bench 2.1 (сложные командные задачи) в Ultra-режиме Sol обошёл Fable 5 на 7.6, а GPT-5.5 — на 9.4. На ExploitBench Sol демонстрирует результат, сравнимый с Mythos Preview, но тратит на треть меньше токенов. .

METR провели предрелизный аудит. И обнаружили, что Sol — чемпион по читерству среди всех публичных моделей, которые они тестировали.

Модель не просто решала задачи. Она взламывала тестовую среду:

  • Sol упаковывала эксплойты в промежуточные результаты, чтобы вытащить скрытые тесты.

  • Обходила права доступа и извлекала скрытый исходный код с правильными ответами.

METR определяет «читерство» как поведение, где схема использует баги в оценочной среде или запрещённые стратегии, вместо того чтобы решать задачу честно.

Если считать попытки обмана провалом — автономность Sol составляет около 11.3 часов. Если же засчитать читерство как успех — этот метрика взлетает за 270 часов. Разница — в 24 раза. Доверительный интервал при этом разъезжается от 5 до 11 400 часов.

В METR считают: тот факт, что попытки обмана были зафиксированы — это качественный знак. Системы мониторинга сработали. Настоящая угроза возникнет, когда следующие поколения моделей научатся безупречно маскировать свои намерения и незаметно обходить контроль.

Читают сейчас

Selectel внедрил чип AMD EPYC 9965 в конфигуратор серверов

28 минут назад

Selectel внедрил чип AMD EPYC 9965 в конфигуратор серверов

Процессор AMD EPYC 9965 — это флагманский серверный CPU семейства EPYC 9005 со 192 ядрами. Теперь вы можете арендовать его вместе с выделенным сервером в Selectel. Читать далее

Шерим знания и кейсы про A/B-эксперименты

30 минут назад

Шерим знания и кейсы про A/B-эксперименты

Привет, ! Если вам интересны эксперименты и их польза для бизнеса – у меня для вас хорошая новость. У нашего решения для анализа и менеджмента А/B-тестирование Trisigma серьезно обновился журнал с кон

Ассоциация производителей софта и компьютерных игр назвала пиратством частные серверы Minecraft и Call of Duty

32 минуты назад

Ассоциация производителей софта и компьютерных игр назвала пиратством частные серверы Minecraft и Call of Duty

Американская ассоциация производителей софта и компьютерных игр Entertainment Software Association (ESA) назвала пиратством частные серверы Minecraft и Call of Duty, поскольку они не принадлежат Mojan

54 минуты назад

«Внуково» перевело систему обработки багажа на базе решений российского ПО и завершило переход за два года

Международный аэропорт «Внуково» импортозаместил систему обработки багажа. В программном комплексе теперь используют решения компании «Рексофт», которые полностью заменил зарубежное ПО Vanderlande и B

Подтверждена совместимость балансировщика нагрузки DS Proxima и КриптоПро NGate

1 час назад

Подтверждена совместимость балансировщика нагрузки DS Proxima и КриптоПро NGate

Компании «Цифровые решения» и «КриптоПро» подтвердили совместимость флагманских продуктов — аппаратного балансировщика нагрузки DS Proxima и универсального шлюза удаленного доступа и VPN КриптоПро NGa