24 мая 2026, 14:37

ИИ-агент DeepMind закрыл 9 математических задач. Цена — приблизительно $200 на задачу

3 мин

Google DeepMind опубликовал препринт про агента AlphaProof Nexus, который автономно нашел формальные доказательства для 9 из 353 открытых задач из каталога венгерского математика Пола Эрдёша. Медианная стоимость успешной попытки — приблизительно $200, разброс от $20 до $800.

Среди решенных — задача #12 Эрдёша и Шаркози из 1970 года, которая была открыта 56 лет: построить бесконечное множество натуральных чисел, в котором ни одно число не делит сумму двух больших. И проблема #125 из 1996-го — про плотность сумм специально построенных множеств в системах счисления с основаниями 3 и 4. Доказательства не банальные: например, для #125 агент построил аргумент, опирающийся на близость степеней тройки и четверки (3^m ≈ 4^k).

Эрдёшем агент не ограничился. По другим направлениям результаты такие:

44 из 492 открытых гипотез из онлайн-энциклопедии целочисленных последовательностей OEIS;
15-летняя проблема о функциях Гильберта в алгебраической геометрии;
улучшенная оценка сходимости для одного из алгоритмов выпуклой оптимизации;
проблема #57 из известного списка открытых задач британского математика Бена Грина;
текущие исследования по квантовой оптике с Марио Кренном и по теории графов.

Архитектура простая. На вход агент получает Lean-файл с теоремой, где вместо доказательства стоит пустая заглушка. Gemini 3.1 Pro генерирует наброски доказательства, Lean-компилятор проверяет каждый шаг и возвращает ошибки обратно в модель, цикл повторяется. В полной версии поверх работает эволюционный механизм: пул субагентов берет наброски из общей базы, а отдельные экземпляры Gemini 3.0 Flash сравнивают эти наброски между собой и выставляют им Elo-рейтинги — как в шахматах. Дополнительно агент может вызывать AlphaProof, олимпиадную систему DeepMind на обучении с подкреплением, как средство для отдельных подцелей.

Самое интересное в препринте — раздел, где DeepMind проверяет, нужны ли вообще все навороты их архитектуры. Они взяли те же 9 задач и прогнали на них упрощённые версии агента: без эволюционного алгоритма, без вызова AlphaProof, на меньших моделях. Результат неудобный для самих авторов: связка из одного Gemini 3.1 Pro и Lean-компилятора закрыла все 9 задач — на сложных дороже, но закрыла. Сам AlphaProof в одиночку, без LLM сверху, не решил ни одной даже при бюджете $60 на задачу. Меньшие модели (Gemini 3.0 Flash и Flash-Lite) тоже не справились ни с чем. Разработчики прямо пишут о "сдвиге от специализированных обученных систем к простым агентным циклам по мере роста возможностей LLM". На фоне того, что за последние четыре месяца задачи Эрдёша уже закрывали GPT-5.2 в связке с Aristotle, внутренняя модель OpenAI, агент Aletheia от того же DeepMind и даже любитель с ChatGPT Pro за подписку $200 в месяц, формулировка звучит как тихое признание: специализированные доказательные системы свою эпоху отыгрывают.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

google deepmind gemini 3.1 pro

Читают сейчас

1 час назад

В Китае начался суд в связи с смерти 32-летнего программиста, который, по заявлению семьи, умер после длительных переработок

В китайском Гуанчжоу началось судебное разбирательство по иску родственников 32-летнего программиста, который, как утверждают члены его семьи, умер в результате длительных переработок, сообщает China

3 часа назад

Вышел Grok 4.5 — схема доступна бесплатно в Cursor и Grok Build

SpaceXAI (так теперь называется xAI после слияния со SpaceX) открыла доступ к Grok 4.5. Схема стала вариантом по умолчанию в агенте Grok Build и появилась в Cursor на всех тарифах — там ее можно попро

3 часа назад

СМИ:«„Яндекс Маркет“ сокращает штат и бюджет»

«Яндекс Маркет» планирует сократить бюджет и штат. Об этом сообщило издание «Ведомости» со ссылкой на неназванные источники. По словам источников, сообщается о снижении бюджета с 14 млрд до 2 млрд руб

3 часа назад

Госдума приняла закон о поддержке Почты России сразу в двух чтениях

Госдума 8 июля 2026 года приняла закон о поддержке Почты России во втором и третьем чтениях. Документ закрепляет новые правила работы оператора и вводит электронную почтовую систему для доставки юриди

3 часа назад

Cursor выпустили Grok 4.5: флагман уровня Opus, обучали вместе со SpaceXAI

xAI называют её самой мощной моделью на сегодня и первой, которую строили не только под разработку софта. Модель уже доступна в Cursor и на первую неделю дают двойные лимиты использования. Отдельно ут