Mistral AI показала Leanstral: кодинг, который можно не проверять

2 мин
Mistral AI показала Leanstral: кодинг, который можно не проверять

Французская Mistral AI представила Leanstral – открытого ИИ-агента, который не просто генерирует, а ещё и формально доказывает корректность своих же творений. Это помощник, который работает в связке с инструментом формального доказательства Lean 4. Его проблема – помогать в “инженерии доказательств”, то есть строго проверять математические выкладки и программные спецификации.

В Mistral рассудили здраво: зачем нам просто “умная” нейросеть? Будущее – за агентами, которые умеют не только выполнять задачи, но и расписываться за каждую строчку, строго следуя спецификациям. Leanstral стал первым крупным шагом в этом направлении.

Leanstral построен на архитектуре состава экспертов (MoE), которую оптимизировали специально для задач доказательства. Секрет в том, что схема использует лишь часть своих параметров (активных – около 6 миллиардов), выбирая нужные экспертные модули для конкретной задачи. Это позволяет ей быть одновременно производительной и экономичной. За счёт тому что Lean выступает в роли идеального верификатора, Leanstral может параллельно генерировать и проверять кучу вариантов решений.

Авторы уже сравнили своего новичка с другими моделями. Для теста использовали бенчмарк FLTEval, который оценивает завершение формальных доказательств и корректное определение новых математических концепций.

Сравнение Leanstral с открытыми гигантами. Даже самому мощному конкуренту Qwen3.5 нужно 4 попытки, чтобы достичь результата, который Leanstral показывает за 2
Сравнение Leanstral с открытыми гигантами. Даже самому мощному конкуренту Qwen3.5 нужно 4 попытки, чтобы достичь результата, который Leanstral показывает за 2

Как видно на графике, даже самый мощный из открытых соперников, Qwen3.5 (397B-A17B), добрался до отметки 25,4 за 4 попытки. Leanstral же (притом что у него всего 120B параметров с учётом всех экспертов и 6B активных) за 2 попытки выдаёт 26,3, а за 4 попытки и вовсе улетает к 29,3.

Но самое интересное – это сравнение с коллегами из семейства Claude. Leanstral оказался не просто конкурентоспособным, а невероятно экономичным. Claude Sonnet 4.6 стоит 549 $ и выдаёт скромные 23,7 балла. Leanstral за 36 $ (pass@2) набирает 26,3 балла, обгоняя его почти на 3 пункта и одновременно оказываясь в 15 раз дешевле. Но Claude Opus 4.6 с его 39,6 балла всё ещё впереди.

Подробности на официальном сайте Mistral AI и в документации.

Читают сейчас

У чат-бота Grok в X украли $175 тыс. с помощью азбуки Морзе

29 минут назад

У чат-бота Grok в X украли $175 тыс. с помощью азбуки Морзе

4 мая атакующий через адрес ilhamrafli.base.eth вывел из ИИ-кошелька, привязанного к аккаунту Grok в X, приблизительно $175 тысяч в токенах DRB на сети Base. Ни одной строчки эксплойт-кода не понадоби

Только 20% российских компаний имеют фактический план действий на случай аварий в ИТ: исследование Linx Cloud и Global CIO

34 минуты назад

Только 20% российских компаний имеют фактический план действий на случай аварий в ИТ: исследование Linx Cloud и Global CIO

Облачный провайдер Linx Cloud совместно с сообществом ИТ-лидеров Global CIO провели исследование отказоустойчивости крупного и среднего российского бизнеса. Цель исследования – понять текущую зрелость

Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge

44 минуты назад

Машинное обучение в реальных условиях: проверьте свои силы на Yandex ML Challenge

21 мая пройдёт Yandex ML Challenge — масштабное соревнование для всех, кто интересуется ML и готов помериться силами в решении разных задач: от работы с LLM до Reinforcement Learning. Участников ждёт

РБК: некоторое количество топ-чиновников Минцифры могут покинуть ведомство на фоне реорганизации

44 минуты назад

РБК: некоторое количество топ-чиновников Минцифры могут покинуть ведомство на фоне реорганизации

Заместитель главы Минцифры Сергей Кучушев рассматривает функция ухода из министерства, сейчас чиновник курирует три направления: департамент экономики и финансов, департамент развития IT-отрасли и деп

1 час назад

Минпромторг поддержал введение НДС в 22% на зарубежные интернет-заказы

Минпромторг России поддержал введение с 1 января 2027 года налога на добавленную стоимость (НДС) на иностранные товары, приобретаемые через интернет, в размере 22%, сообщили ТАСС в министерстве. Ознак