23 марта 2026, 19:53
Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели.
Флагманская MiMo-V2-Pro построена на Mixture-of-Experts архитектуре (модель разделена на блоки-эксперты, где для каждого запроса активируется только часть). Общее число параметров - более чем триллиона, из которых 42 миллиарда активны на каждый запрос. Это примерно в три раза больше, чем у предшественника MiMo-V2-Flash, вышедшего в декабре 2025 года.
Вопреки увеличение масштаба, гибридный attention-механизм (способ модели уделять внимание разным частям входных данных) поддерживает эффективность. Модель справляется с контекстным окном до одного миллиона токенов. В дополнение к этого, она генерирует некоторое количество токенов за раз вместо предсказания по одному слову. Это даёт заметный прирост скорости.

В Artificial Analysis Intelligence Index MiMo-V2-Pro расположилась на седьмой строчке в мире. Это лучшая среди китайских моделей после GLM-5 и MiniMax-M2.7. На кодинговом бенчмарке SWE-bench Verified она набирает 78%, чуть не дотянув до Claude Opus 4.6 (80,8%) и фактически вплотную к Claude Sonnet 4.6 (79,6%). На агентском бенчмарке ClawEval модель набирает 81 балл, почти равняясь Claude Opus 4.6 с его 81,5, тогда как GPT-5.2 остаётся на 77.
Xiaomi сильно демпингует против Anthropic
Xiaomi атакует конкурентов ценой. В соответствии с странице платформы, MiMo-V2-Pro стоит $1 за миллион входных токенов и $3 за миллион выходных при длине контекста до 256 000 токенов. Для сравнения: Claude Sonnet 4.6 стоит $3 или $15, а Claude Opus 4.6 — $5 или $25. Кроме того, Xiaomi пока полностью отменяет плату за запись в кэш.
Модель доступна через публичный программный оболочку. К запуску Xiaomi привлекла пять агентских фреймворков: OpenClaw, OpenCode, KiloCode, Blackbox и Cline. Разработчики со всего мира получают бесплатный доступ к программный интерфейс на одну неделю.
MiMo-V2-Omni: видит, слышит и действует в одной модели
MiMo-V2-Omni объединяет image-, video- и audio-энкодеры (модули для обработки изображений, видео и аудио) в единую backbone-сеть (базовую сеть, обрабатывающую все типы данных вместе). Схема воспринимает входящие информация и действует на их основе. Она нативно поддерживает структурированные tool calls (вызовы внешних инструментов в стандартном формате), выполняет функции и самостоятельно навигируется по пользовательским интерфейсам.

Xiaomi заявляет, что MiMo-V2-Omni обходит Gemini 3 Pro по аудио и способна непрерывно записывать более десяти часов. На изображениях (MMMU-Pro: 76,8) она обходит Claude Opus 4.6 (73,9). Но агентские бенчмарки показывают иную картину: на ClawEval модель набирает только 54,8 — заметно позади Claude Opus 4.6 (66,3) и GPT-5.2 (59,6). Зато на веб-навигационном бенчмарке MM-BrowserComp она обошла и Gemini 3 Pro, и GPT-5.2.
Для демонстрации Xiaomi скормила модели записи с видеорегистратора. Схема в реальном времени помечала пешеходов, встречные машины и заторы как потенциальные опасности. В другом сценарии MiMo-V2-Omni сама открыла браузер, нашла отзывы о товаре на Xiaohongshu, сравнила цены на JD.com, поторговалась за скидку через чат поддержки и оформила покупку.
Отдельный демо представил, как модель создаёт мультимедийный контент, дебажит его код и публикует итог в TikTok через браузер - всё без участия человека. Во всех случаях MiMo-V2-Omni принимает решения, а open-source фреймворк OpenClaw выполняет фактические клики и файловые операции.
MiMo-V2-TTS: эмоциональная речь по описанию на естественном языке
Согласно заявлению Xiaomi, модель синтеза речи MiMo-V2-TTS обучена на более чем 100 миллионах часов аудио. Она разбирает речь на некоторое количество параллельных слоёв дискретных единиц (базовых звуковых элементов). Это даёт более тонкий контроль над звучанием, ритмом и эмоциями, чем стандартные TTS-системы.
Ключевое отличие: вместо выбора эмоции из выпадающего списка пользователь описывает необходимый голос обычным языком. «Сонный, только что проснулся, слегка хриплый» звучит иначе, чем «злой, но старающийся сдержаться». Схема равным образом генерирует паралингвистические звуки — кашель, паузы-запинки, вздохи и смех — как часть вывода, а не склеивает аудиоклипы постфактум.
По заявлению Xiaomi, MiMo-V2-TTS — единственный коммерчески достижимый TTS api, который нативно обрабатывает и речь, и пение в одной модели. Она считывает типографские сигналы вроде заглавных букв или повторяющихся символов как указания на акцент и ритм. Так что «ЭТО ВАЖНО» звучит с настоящим ударом, а не просто громче. Даже без стилевых инструкций модель подхватывает нужную интонацию прямо из текста.
Конкурентные бенчмарки, но Xiaomi ещё есть куда расти
Одновременный выпуск трёх специализированных моделей — чёткий сигнал: Xiaomi строит full-stack платформу для AI-агентов. Бенчмарки показывают, что в некоторых областях модели идут ноздря в ноздрю с Anthropic и OpenAI, а в других пока отстают. В частности, по общим агентским задачам MiMo-V2-Pro ещё предстоит поработать, чтобы догнать Claude Opus 4.6.
Дальше команда MiMo берётся за долгосрочное планирование на масштабе часов и дней, реалтайм-стриминг, координированные multi-agent системы (несколько агентов, работающих вместе) и робототехнику. «Мы верим, что путь к общему интеллекту лежит через реальный мир», — пишет команда. «Схема, которая только читает текст, живёт в библиотеке. Модель, которая видит, слышит, рассуждает и действует, живёт в мире.»
Загадка «Hunter Alpha» — это был не Deepseek
До официального анонса Xiaomi MiMo-V2-Pro появилась анонимно на программный интерфейс-платформе OpenRouter под кодовым именем «Hunter Alpha». Xiaomi говорит, что использование стабильно росло: схема некоторое количество дней подряд возглавляла дневной рейтинг и накрутила в общей сложности свыше триллиона токенов. Самый известный скрипт — кодинг.
Многие пользователи гадали, что Hunter Alpha на самом деле Deepseek V4. Но Deepseek ещё далеко — по данным, выход следующей крупной модели отложен из-за растущего размера.
Другие китайские AI-лаборатории тоже не сидят сложа руки. Zhipu AI недавно выпустила GLM-5 — open-source схема на 744 миллиарда параметров, нацеленную на конкуренцию с Claude Opus 4.5 и GPT-5.2 по кодингу и агентским задачам. Moonshot AI с моделью Kimi K2.5 идёт другим путём — через рои (группы) параллельно работающих агентов, а Alibaba расширяет линейку Qwen 3.5.
Читают сейчас

8 минут назад
Банки раскритиковали обязательное подтверждение операций через СМС и Mах
Российские банки выступили с критикой отдельных положений законопроекта «Антифрод 2.0», предложив пересмотреть требование об обязательном двойном подтверждении дистанционных операций. Речь идёт о норм
10 минут назад
Microsoft закрыла метод активировать в Windows 11 функцию ускорения SSD
По сообщениям участников форума My Digital Life, в последних сборках Windows 11 Insider Microsoft заблокировала трюк с реестром, позволявший пользователям включать встроенную поддержку NVMe на своих П

11 минут назад
Суперкомпьютеры только что помогли разгадать давнюю загадку гигантских звёзд
Недавние достижения в области суперкомпьютерных вычислений позволили учёным решить давнюю загадку астрономии. Исследователи пытались понять, почему химический состав поверхности красных гигантов в ход

12 минут назад
НАСА планирует построить на Луне базу стоимостью $20 млрд
Американское космическое агентство планирует построить на Луне базу стоимостью $20 млрд, сообщил глава ведомства Джаред Айзекман. Ознакомиться далее

29 минут назад
Маркетплейсы обяжут нести ответственность за продажу некачественных товаров из-за рубежа
В России хотят ужесточить регулирование маркетплейсов, обязав их нести ответственность за продажу некачественных товаров от иностранных продавцов. Соответствующий механизм планируют разработать до янв