1 час назад
Google собрал ИИ-математика — и тот закрыл открытую задачу из Куровской тетради

Google DeepMind показал AI co-mathematician — агентную систему на базе Gemini 3.1, которая работает не как чатбот, а как рабочее пространство для математика с командой ИИ-агентов. С ее помощью топологист Марк Лакенби закрыл проблему 21.10 из Куровской тетради — сборника открытых задач по теории групп, который ведется в Новосибирске с 1965 года. Параллельно платформа поставила свежий рекорд на самом сложном математическом бенчмарке FrontierMath Tier 4 — 48% правильных ответов.
Сама проблема формулируется так: имеет ли каждая конечная группа "просто конечное" представление — такое, в котором исключение любого соотношения превращает группу в бесконечную. Лакенби загрузил вопрос в систему и попросил параллельно атаковать его с двух сторон, доказать и опровергнуть. Первый "доказательный" документ AI co-mathematician сам пометил как некорректный: один из агентов-ревьюеров нашел в аргументе дыру. Но Лакенби, прочитав текст, увидел в нем "очень-очень умную стратегию", а в критике ревьюера — подсказку, как закрыть пробел. Он указал направление в чате, и платформа собрала полное доказательство. Финальную версию математик дополнил примерами и прогнал через еще один круг ревью — агенты нашли и поправили две мелкие ошибки. Это уже не первое сотрудничество Лакенби с DeepMind: в 2021 году он работал с командой над открытиями в теории узлов.
Сама система — не диалоговый оболочку, а рабочее пространство с иерархией агентов. На верхнем уровне сидит project coordinator: он общается с пользователем и распределяет работу. Под ним — координаторы воркстримов, каждый ведет одну линию исследования (обзор литературы, создание вычислительной библиотеки, поиск контрпримера). На нижнем уровне — узкоспециализированные субагенты: поисковик по статьям, кодовый агент, Gemini Deep Think в роли пруфера. По духу это похоже на Claude Code или Google Antigravity, только переориентировано с разработки на математические артефакты.
Ключевые отличия от обычного агента:
Жесткие программные ограничения: кодовый агент не может пометить работу как готовую, пока не пройдут тесты и пока ревьюер не одобрит код и эталонные значения.
Тупики не стираются — провалившиеся попытки сохраняются в файловой системе как полноценный артефакт, и новые воркстримы стартуют с учетом того, что уже не сработало.
Каждое утверждение в финальном LaTeX-документе сопровождается маргиналиями — пометками на полях с источником числа, ссылкой на лемму или указанием, что направление подсказал пользователь.
Перед закрытием воркстрима обязателен круг ревью несколькими агентами: они проверяют ссылки, прогоняют исходник и спорят между собой о логике, пока не сойдутся.
С системой работали и другие математики. Гергели Берци использовал ее для проверки гипотез о коэффициентах Стирлинга — она нашла два доказательства, которые сейчас проходят детальную ручную проверку. Семен Резчиков получил элегантную лемму в задаче о возмущениях гамильтоновых диффеоморфизмов и резюмировал так: "эстетически я бы поставил ее стиль доказательств на первое место среди всех моделей, которыми пользовался". Сами разработчики признают ограничения: ревьюеры иногда сходятся на правдоподобной, но ошибочной аргументации, а в обратной ситуации зацикливаются в бесконечных пересмотрах — "спираль смерти" (death spiral). Доступ к системе пока ограничен узким кругом тестировщиков, но DeepMind задумывает архитектуру как контейнер, куда можно вставлять более сильные движки вроде AlphaProof или AlphaEvolve. Главная идея — не "ИИ-оракул, который выдает подход одним выстрелом", а средство, который держит контекст исследования неделями и работает с математиком в паре.
P.S. Поддержать меня можно подпиской на канал "сбежавшая нейросеть", где я рассказываю про ИИ с творческой стороны.
Читают сейчас

1 час назад
Mythos от Anthropic подняла панику в банках. Что говорят эксперты?
Anthropic ограничила релиз модели Mythos четырьмя крупными компаниями — Apple, Amazon, JPMorgan Chase и Palo Alto Networks — в связи с того, что она нашла «тысячи ранее неизвестных уязвимостей» в миро

3 часа назад
Версия версии OpenWrt 25.12.3 с патчем против уязвимости Copy Fail
7 мая 2026 года состоялся разработчики проекта OpenWrt для сетевых устройств, включая маршрутизаторы, коммутаторы и точки доступа, представили выпуск дистрибутива OpenWrt 25.12.3, в том числе патчи пр

3 часа назад
Для Linux представлен публике Killswitch
Разработчик Саша Левин (Sasha Levin), который занимается сопровождением LTS‑веток (с долгосрочной поддержкой) ядра Linux и входит в консультативный совет организации Linux Foundation, представил набор

4 часа назад
Выпуск менеджера файлов Total Commander 11.57
7 мая 2026 года состоялся релиз менеджера файлов Total Commander 11.57 со встроенным FTP‑клиентом с FXP, анализатором дискового пространства, синхронизатором файлов, поддержкой работы с архивами (ZIP,

10 часов назад
DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев
После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные заме