Google собрал ИИ-математика — и тот закрыл открытую задачу из Куровской тетради

3 мин
Google собрал ИИ-математика — и тот закрыл открытую задачу из Куровской тетради

Google DeepMind показал AI co-mathematician — агентную систему на базе Gemini 3.1, которая работает не как чатбот, а как рабочее пространство для математика с командой ИИ-агентов. С ее помощью топологист Марк Лакенби закрыл проблему 21.10 из Куровской тетради — сборника открытых задач по теории групп, который ведется в Новосибирске с 1965 года. Параллельно платформа поставила свежий рекорд на самом сложном математическом бенчмарке FrontierMath Tier 4 — 48% правильных ответов.

Сама проблема формулируется так: имеет ли каждая конечная группа "просто конечное" представление — такое, в котором исключение любого соотношения превращает группу в бесконечную. Лакенби загрузил вопрос в систему и попросил параллельно атаковать его с двух сторон, доказать и опровергнуть. Первый "доказательный" документ AI co-mathematician сам пометил как некорректный: один из агентов-ревьюеров нашел в аргументе дыру. Но Лакенби, прочитав текст, увидел в нем "очень-очень умную стратегию", а в критике ревьюера — подсказку, как закрыть пробел. Он указал направление в чате, и платформа собрала полное доказательство. Финальную версию математик дополнил примерами и прогнал через еще один круг ревью — агенты нашли и поправили две мелкие ошибки. Это уже не первое сотрудничество Лакенби с DeepMind: в 2021 году он работал с командой над открытиями в теории узлов.

Сама система — не диалоговый оболочку, а рабочее пространство с иерархией агентов. На верхнем уровне сидит project coordinator: он общается с пользователем и распределяет работу. Под ним — координаторы воркстримов, каждый ведет одну линию исследования (обзор литературы, создание вычислительной библиотеки, поиск контрпримера). На нижнем уровне — узкоспециализированные субагенты: поисковик по статьям, кодовый агент, Gemini Deep Think в роли пруфера. По духу это похоже на Claude Code или Google Antigravity, только переориентировано с разработки на математические артефакты.

Ключевые отличия от обычного агента:

  • Жесткие программные ограничения: кодовый агент не может пометить работу как готовую, пока не пройдут тесты и пока ревьюер не одобрит код и эталонные значения.

  • Тупики не стираются — провалившиеся попытки сохраняются в файловой системе как полноценный артефакт, и новые воркстримы стартуют с учетом того, что уже не сработало.

  • Каждое утверждение в финальном LaTeX-документе сопровождается маргиналиями — пометками на полях с источником числа, ссылкой на лемму или указанием, что направление подсказал пользователь.

  • Перед закрытием воркстрима обязателен круг ревью несколькими агентами: они проверяют ссылки, прогоняют исходник и спорят между собой о логике, пока не сойдутся.

С системой работали и другие математики. Гергели Берци использовал ее для проверки гипотез о коэффициентах Стирлинга — она нашла два доказательства, которые сейчас проходят детальную ручную проверку. Семен Резчиков получил элегантную лемму в задаче о возмущениях гамильтоновых диффеоморфизмов и резюмировал так: "эстетически я бы поставил ее стиль доказательств на первое место среди всех моделей, которыми пользовался". Сами разработчики признают ограничения: ревьюеры иногда сходятся на правдоподобной, но ошибочной аргументации, а в обратной ситуации зацикливаются в бесконечных пересмотрах — "спираль смерти" (death spiral). Доступ к системе пока ограничен узким кругом тестировщиков, но DeepMind задумывает архитектуру как контейнер, куда можно вставлять более сильные движки вроде AlphaProof или AlphaEvolve. Главная идея — не "ИИ-оракул, который выдает подход одним выстрелом", а средство, который держит контекст исследования неделями и работает с математиком в паре.

P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.

Читают сейчас

14 минут назад

Точка Банк запустил публичную программу багбаунти с выплатами до 450 тыс. рублей

Точка Банк запустил публичную программу поиска уязвимостей на площадке Standoff Bug Bounty. Независимые исследователи безопасности будут тестировать цифровые сервисы банка и получать вознаграждение за

От базы к зрелости: исследование рынка SIEM совместно с проектом Кибердом

37 минут назад

От базы к зрелости: исследование рынка SIEM совместно с проектом Кибердом

Опрос 223 компаний, использующих SIEM, демонстрирует: 84% организаций применяют систему для мониторинга событий в реальном времени, 81 процентов — для расследования инцидентов, 80% — для корреляции и

Акции Getty Images выросли на 145% после сообщения о заключении сделки с OpenAI

39 минут назад

Акции Getty Images выросли на 145% после сообщения о заключении сделки с OpenAI

Акции Getty Images Holdings выросли на 145% после объявления о заключении сделки с OpenAI, пишет Bloomberg. Изображения из библиотеки Getty Images будут показывать в функциях поиска и обнаружения конт

ByteDance анонсировала Seedance 2.5: 30 секунд видео за один проход и нативный 4K

47 минут назад

ByteDance анонсировала Seedance 2.5: 30 секунд видео за один проход и нативный 4K

23 июня на конференции Volcengine FORCE президент облачного подразделения ByteDance Тань Дай представил новую версию генератора видео — Seedance 2.5. Схема пока проходит закрытое корпоративное тестиро

Пользователи из РФ сообщили, что у них перестал функционировать доступ к трансляциям Twitch

56 минут назад

Пользователи из РФ сообщили, что у них перестал функционировать доступ к трансляциям Twitch

23 июня 2026 года пользователи из РФ сообщили, что у них перестал работать доступ к трансляциям Twitch. Также без сетевых средств обхода нельзя подключиться к Discord и PUBG: Battlegrounds. Ознакомить