Математики потратили $550 000 на проверка, который ИИ не может решить

2 мин
Математики потратили $550 000 на проверка, который ИИ не может решить

Группа из 64 математиков — профессора, постдоки, аспиранты и медалисты международных олимпиад — создала тест производительности SOOHAK из 439 задач исследовательского уровня. Каждая проблема написана с нуля, без использования ИИ, и прошла пятиступенчатую проверку: от автоматического скрининга до ручного аудита. Бюджет проекта — $550 000 из средств Министерства науки Южной Кореи. Лучшая схема, Gemini 3 Pro, решает лишь 30% задач основного подмножества Challenge.

GPT-5 набрала 26,4%, Claude Opus 4.5 — 10,4%. Открытые модели отстают еще сильнее: лучший итог среди них — 13,9% у Kimi-2.5, а Qwen3-235B и GPT-OSS-120B не дотягивают до 12%. Одновременно на более легком подмножестве SOOHAK-Mini, где собраны олимпиадные задачи и задачи уровня бакалавриата, разрыв между закрытыми и открытыми моделями куда меньше — GPT-5 набирает 72%, Kimi-2.5 — 66%. Провал начинается именно там, где математика выходит за пределы опубликованных учебников и статей.

Но, пожалуй, самая интересная часть бенчмарка — подмножество Refusal из 99 задач. Это задачи-ловушки: некорректно поставленные, с противоречивыми условиями или без единственного ответа. Правильная реакция модели — отказаться решать и объяснить, в чем проблема. Ни одна модель не преодолела порог в 50%. Лучший итог показала открытая GLM-5 (49,5%), обогнав все закрытые системы. А семейство Qwen3 оказалось аутсайдером — модели упорно пытались решить нерешаемое, выдавая уверенные, но бессмысленные ответы.

Для калибровки результатов разработчики собрали пять команд из 25 человек — от золотых медалистов IMO до PhD-исследователей — и дали им 4,5 часа на 79 задач. Суммарное покрытие всех команд — 50,6%. Единственная модель, которая превысила этот порог, — Gemini-3-Pro с 60,8%. Любопытно, что олимпиадники с математическим образованием решали лучше PhD-исследователей: формат бенчмарка с жестким дедлайном награждает скорость, а не глубину специализации.

Для индустрии это сигнал: олимпиадная математика для топовых моделей уже почти решена, а вот задачи исследовательского уровня — и особенно умение отказываться решать то, что решить нельзя, — остаются за горизонтом.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

5 минут назад

«Не сетка»: ИИ впервые в истории сам решил центральную проблему геометрии

OpenAI сообщила, что ее внутренняя схема опровергла гипотезу Эрдёша 1946 года о единичных расстояниях — одну из самых известных задач комбинаторной геометрии. Это первый случай, когда центральная откр

1 час назад

СМИ: «Минпромторг РФ хочет привлечь экспертов ВНИИР к проверке процессоров „Иртыш“ для попадания в реестр»

Издание Cnews сообщило, что Минпромторг РФ потребовал привлечь дополнительных экспертов к проверке новых процессоров «Иртыш» российского разработчика «Трамплин электроникс». По мнению ведомства, испол

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

1 час назад

GitHub Mobile теперь даёт возможность разрабатывать новые проекты прямо с устройств на iOS и Android

GitHub Mobile главным образом использовался для просмотра существующих репозиториев. Теперь пользователи мобильного приложения могут создавать новые проекты прямо со своих устройств на iOS и Android.

«Уэбб» обнаружил одну из первых галактик Вселенной

2 часа назад

«Уэбб» обнаружил одну из первых галактик Вселенной

Учёные сумели разглядеть галактику в том виде, в каком она существовала 13 миллиардов лет назад, всего через 800 миллионов лет после Большого взрыва. Они надеются найти свидетельства существования пер

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

3 часа назад

Представлен публике цифровой музей, в котором собраны практически все возможные операционные системы (570 штук)

В открытом доступе представлен в интернете инициатива виртуального музея с несколькими сотнями операционных систем, которые когда-либо выходили. Виртуальный археолог собирал эту коллекцию 23 года. Для