ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

3 мин
ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианная стоимость успешной попытки — приблизительно $200, разброс от $20 до $800.

Среди решенных — задача #12 Эрдёша и Шаркози из 1970 года, которая была открыта 56 лет: построить бесконечное множество натуральных чисел, в котором ни одно число не делит сумму двух больших. И проблема #125 из 1996-го — про плотность сумм специально построенных множеств в системах счисления с основаниями 3 и 4. Доказательства не банальные: например, для #125 агент построил аргумент, опирающийся на близость степеней тройки и четверки (3^m ≈ 4^k).

Эрдёшем агент не ограничился. По другим направлениям результаты такие:

  • 44 из 492 открытых гипотез из онлайн-энциклопедии целочисленных последовательностей OEIS;

  • 15-летняя проблема о функциях Гильберта в алгебраической геометрии;

  • улучшенная оценка сходимости для одного из алгоритмов выпуклой оптимизации;

  • проблема #57 из известного списка открытых задач британского математика Бена Грина;

  • текущие исследования по квантовой оптике с Марио Кренном и по теории графов.

Архитектура простая. На вход агент получает Lean-файл с теоремой, где вместо доказательства стоит пустая заглушка. Gemini 3.1 Pro генерирует наброски доказательства, Lean-компилятор проверяет каждый шаг и возвращает ошибки обратно в модель, цикл повторяется. В полной версии поверх работает эволюционный механизм: пул субагентов берет наброски из общей базы, а отдельные экземпляры Gemini 3.0 Flash сравнивают эти наброски между собой и выставляют им Elo-рейтинги — как в шахматах. Дополнительно агент может вызывать AlphaProof, олимпиадную систему DeepMind на обучении с подкреплением, как средство для отдельных подцелей.

Самое интересное в препринте — раздел, где DeepMind проверяет, нужны ли вообще все навороты их архитектуры. Они взяли те же 9 задач и прогнали на них упрощённые версии агента: без эволюционного алгоритма, без вызова AlphaProof, на меньших моделях. Результат неудобный для самих авторов: связка из одного Gemini 3.1 Pro и Lean-компилятора закрыла все 9 задач — на сложных дороже, но закрыла. Сам AlphaProof в одиночку, без LLM сверху, не решил ни одной даже при бюджете $60 на задачу. Меньшие модели (Gemini 3.0 Flash и Flash-Lite) тоже не справились ни с чем. Разработчики прямо пишут о "сдвиге от специализированных обученных систем к простым агентным циклам по мере роста возможностей LLM". На фоне того, что за последние четыре месяца задачи Эрдёша уже закрывали GPT-5.2 в связке с Aristotle, внутренняя модель OpenAI, агент Aletheia от того же DeepMind и даже любитель с ChatGPT Pro за подписку $200 в месяц, формулировка звучит как тихое признание: специализированные доказательные системы свою эпоху отыгрывают.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

43 минуты назад

Объявлены победители 10 сезона Всероссийской киберспортивной студенческой лиги «ГигаЧат»

Завершился десятый сезон Всероссийской киберспортивной студенческой лиги «ГигаЧат». Команды высших и средних профессиональных учебных заведений со всей страны боролись за основной трофей и призовой фо

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

2 часа назад

Эксперты обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США

Эксперты из GitGuardian обнаружили утечку данных из GitHub Агентства по кибербезопасности и защите инфраструктуры США (CISA). Публичный репозиторий под названием Private-CISA содержал 844 МБ данных, в

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

2 часа назад

«Все, кто внутри, понимают — это фейк»: TechCrunch вскрыл главную уловку AI-индустрии

"$1 млрд ARR за два года" — стандартный темп AI-эпохи. Cursor, Harvey, десятки других стартапов отчитываются о миллиардах годовой повторяющейся выручки (ARR) за два-три года с момента основания. Рассл

RxJS Ninja 2.0: обновлённый бесплатный курс по RxJS

2 часа назад

RxJS Ninja 2.0: обновлённый бесплатный курс по RxJS

Выкатил RxJS Ninja v2.0 - большое апдейт моего обучающего проекта по RxJS. Если давно собирались разобраться с RxJS или хотите освежить знания - заходите, буду рад фидбеку и предложениям. Стать ниндзя

Торвальдс рассказал о влиянии ИИ на поиск ошибок в ядре Linux

2 часа назад

Торвальдс рассказал о влиянии ИИ на поиск ошибок в ядре Linux

На конференции Open-Source Summit 2026 Линус Торвальдс выделил основные тренды в использовании ИИ-инструментов при разработке ядра Linux. Он подчеркнул, что за последние полгода объём коммитов значите