Mistral AI показала Leanstral: кодинг, который можно не проверять

2 мин
Mistral AI показала Leanstral: кодинг, который можно не проверять

Французская Mistral AI представила Leanstral – открытого ИИ-агента, который не просто генерирует, а ещё и формально доказывает корректность своих же творений. Это помощник, который работает в связке с инструментом формального доказательства Lean 4. Его проблема – помогать в “инженерии доказательств”, то есть строго проверять математические выкладки и программные спецификации.

В Mistral рассудили здраво: зачем нам просто “умная” нейросеть? Будущее – за агентами, которые умеют не только выполнять задачи, но и расписываться за каждую строчку, строго следуя спецификациям. Leanstral стал первым крупным шагом в этом направлении.

Leanstral построен на архитектуре состава экспертов (MoE), которую оптимизировали специально для задач доказательства. Секрет в том, что схема использует лишь часть своих параметров (активных – около 6 миллиардов), выбирая нужные экспертные модули для конкретной задачи. Это позволяет ей быть одновременно производительной и экономичной. За счёт тому что Lean выступает в роли идеального верификатора, Leanstral может параллельно генерировать и проверять кучу вариантов решений.

Авторы уже сравнили своего новичка с другими моделями. Для теста использовали бенчмарк FLTEval, который оценивает завершение формальных доказательств и корректное определение новых математических концепций.

Сравнение Leanstral с открытыми гигантами. Даже самому мощному конкуренту Qwen3.5 нужно 4 попытки, чтобы достичь результата, который Leanstral показывает за 2
Сравнение Leanstral с открытыми гигантами. Даже самому мощному конкуренту Qwen3.5 нужно 4 попытки, чтобы достичь результата, который Leanstral показывает за 2

Как видно на графике, даже самый мощный из открытых соперников, Qwen3.5 (397B-A17B), добрался до отметки 25,4 за 4 попытки. Leanstral же (притом что у него всего 120B параметров с учётом всех экспертов и 6B активных) за 2 попытки выдаёт 26,3, а за 4 попытки и вовсе улетает к 29,3.

Но самое интересное – это сравнение с коллегами из семейства Claude. Leanstral оказался не просто конкурентоспособным, а невероятно экономичным. Claude Sonnet 4.6 стоит 549 $ и выдаёт скромные 23,7 балла. Leanstral за 36 $ (pass@2) набирает 26,3 балла, обгоняя его почти на 3 пункта и одновременно оказываясь в 15 раз дешевле. Но Claude Opus 4.6 с его 39,6 балла всё ещё впереди.

Подробности на официальном сайте Mistral AI и в документации.

Читают сейчас

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

2 часа назад

Трамп передумал считать Anthropic угрозой нацбезопасности — но Fable 5 пока не вернули

Президент США Дональд Трамп больше не полагает Anthropic угрозой национальной безопасности. В интервью "The Axios Show", опубликованном 19 июня, на прямой вопрос, представляют ли угрозу сама компания

Вышла релиз Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

2 часа назад

Вышла релиз Glow 26.10 — инструмента для системного анализа аппаратных и программных возможностей ПК на Windows 10/11

В середине июня 2026 года состоялся версия обновления проекта Glow 26.10. Это публичный инструмент для системного анализа и тестирования аппаратных и программных возможностей ПК на Windows 10/11. Исхо

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

4 часа назад

Анонс Google Brazos: как внедрить жидкостное охлаждение в обычный воздушный ЦОД

Перевод ЦОД на жидкостное охлаждение требует множество времени и больших капиталовложений. Google решили эту проблему, представив нам Brazos — замкнутую СЖО модульного типа. Под катом взглянем на архи

Пользователи заявили о баге с исчезающими виджетами в Android 17

4 часа назад

Пользователи заявили о баге с исчезающими виджетами в Android 17

Некоторые владельцы Google Pixel, обновившиеся до Android 17, пожаловались на баги с исчезающими виджетами на главном экране. При этом вернуть значки не получается. Ознакомиться далее

Samsung запатентовала телефон в виде прямоугольной трубки

4 часа назад

Samsung запатентовала телефон в виде прямоугольной трубки

Samsung запатентовала телефон в виде кирпича, который раскладывается, а затем разворачивается в экран размером с планшет. Патент объединяет в одном устройстве технологии складных, гибких и сворачиваем