23 марта 2026, 19:53

Xiaomi выпускает три модели MiMo: для агентов, роботов и голоса

5 мин

Xiaomi хочет создавать AI-агенты, которые сами управляют софтом, ходят по браузерам и в итоге будут управлять роботами. Чтобы дойти до этого, внутренняя команда MiMo сразу выпустила три модели.

Флагманская MiMo-V2-Pro построена на Mixture-of-Experts архитектуре (модель разделена на блоки-эксперты, где для каждого запроса активируется только часть). Общее число параметров - более чем триллиона, из которых 42 миллиарда активны на каждый запрос. Это примерно в три раза больше, чем у предшественника MiMo-V2-Flash, вышедшего в декабре 2025 года.

Вопреки увеличение масштаба, гибридный attention-механизм (способ модели уделять внимание разным частям входных данных) поддерживает эффективность. Модель справляется с контекстным окном до одного миллиона токенов. В дополнение к этого, она генерирует некоторое количество токенов за раз вместо предсказания по одному слову. Это даёт заметный прирост скорости.

MiMo-V2-Pro занимает третье место в мире по PinchBench и ClawEval, немного уступая Claude Opus 4.6

В Artificial Analysis Intelligence Index MiMo-V2-Pro расположилась на седьмой строчке в мире. Это лучшая среди китайских моделей после GLM-5 и MiniMax-M2.7. На кодинговом бенчмарке SWE-bench Verified она набирает 78%, чуть не дотянув до Claude Opus 4.6 (80,8%) и фактически вплотную к Claude Sonnet 4.6 (79,6%). На агентском бенчмарке ClawEval модель набирает 81 балл, почти равняясь Claude Opus 4.6 с его 81,5, тогда как GPT-5.2 остаётся на 77.

Xiaomi сильно демпингует против Anthropic

Xiaomi атакует конкурентов ценой. В соответствии с странице платформы, MiMo-V2-Pro стоит $1 за миллион входных токенов и $3 за миллион выходных при длине контекста до 256 000 токенов. Для сравнения: Claude Sonnet 4.6 стоит $3 или $15, а Claude Opus 4.6 — $5 или $25. Кроме того, Xiaomi пока полностью отменяет плату за запись в кэш.

Модель доступна через публичный программный оболочку. К запуску Xiaomi привлекла пять агентских фреймворков: OpenClaw, OpenCode, KiloCode, Blackbox и Cline. Разработчики со всего мира получают бесплатный доступ к программный интерфейс на одну неделю.

MiMo-V2-Omni: видит, слышит и действует в одной модели

MiMo-V2-Omni объединяет image-, video- и audio-энкодеры (модули для обработки изображений, видео и аудио) в единую backbone-сеть (базовую сеть, обрабатывающую все типы данных вместе). Схема воспринимает входящие информация и действует на их основе. Она нативно поддерживает структурированные tool calls (вызовы внешних инструментов в стандартном формате), выполняет функции и самостоятельно навигируется по пользовательским интерфейсам.

MiMo-V2-Omni обходит Claude Opus 4.6 на аудио- и image-бенчмарках, но уступает Gemini 3 Pro на видео

Xiaomi заявляет, что MiMo-V2-Omni обходит Gemini 3 Pro по аудио и способна непрерывно записывать более десяти часов. На изображениях (MMMU-Pro: 76,8) она обходит Claude Opus 4.6 (73,9). Но агентские бенчмарки показывают иную картину: на ClawEval модель набирает только 54,8 — заметно позади Claude Opus 4.6 (66,3) и GPT-5.2 (59,6). Зато на веб-навигационном бенчмарке MM-BrowserComp она обошла и Gemini 3 Pro, и GPT-5.2.

Для демонстрации Xiaomi скормила модели записи с видеорегистратора. Схема в реальном времени помечала пешеходов, встречные машины и заторы как потенциальные опасности. В другом сценарии MiMo-V2-Omni сама открыла браузер, нашла отзывы о товаре на Xiaohongshu, сравнила цены на JD.com, поторговалась за скидку через чат поддержки и оформила покупку.

Отдельный демо представил, как модель создаёт мультимедийный контент, дебажит его код и публикует итог в TikTok через браузер - всё без участия человека. Во всех случаях MiMo-V2-Omni принимает решения, а open-source фреймворк OpenClaw выполняет фактические клики и файловые операции.

MiMo-V2-TTS: эмоциональная речь по описанию на естественном языке

Согласно заявлению Xiaomi, модель синтеза речи MiMo-V2-TTS обучена на более чем 100 миллионах часов аудио. Она разбирает речь на некоторое количество параллельных слоёв дискретных единиц (базовых звуковых элементов). Это даёт более тонкий контроль над звучанием, ритмом и эмоциями, чем стандартные TTS-системы.

Ключевое отличие: вместо выбора эмоции из выпадающего списка пользователь описывает необходимый голос обычным языком. «Сонный, только что проснулся, слегка хриплый» звучит иначе, чем «злой, но старающийся сдержаться». Схема равным образом генерирует паралингвистические звуки — кашель, паузы-запинки, вздохи и смех — как часть вывода, а не склеивает аудиоклипы постфактум.

По заявлению Xiaomi, MiMo-V2-TTS — единственный коммерчески достижимый TTS api, который нативно обрабатывает и речь, и пение в одной модели. Она считывает типографские сигналы вроде заглавных букв или повторяющихся символов как указания на акцент и ритм. Так что «ЭТО ВАЖНО» звучит с настоящим ударом, а не просто громче. Даже без стилевых инструкций модель подхватывает нужную интонацию прямо из текста.

Конкурентные бенчмарки, но Xiaomi ещё есть куда расти

Одновременный выпуск трёх специализированных моделей — чёткий сигнал: Xiaomi строит full-stack платформу для AI-агентов. Бенчмарки показывают, что в некоторых областях модели идут ноздря в ноздрю с Anthropic и OpenAI, а в других пока отстают. В частности, по общим агентским задачам MiMo-V2-Pro ещё предстоит поработать, чтобы догнать Claude Opus 4.6.

Дальше команда MiMo берётся за долгосрочное планирование на масштабе часов и дней, реалтайм-стриминг, координированные multi-agent системы (несколько агентов, работающих вместе) и робототехнику. «Мы верим, что путь к общему интеллекту лежит через реальный мир», — пишет команда. «Схема, которая только читает текст, живёт в библиотеке. Модель, которая видит, слышит, рассуждает и действует, живёт в мире.»

Загадка «Hunter Alpha» — это был не Deepseek

До официального анонса Xiaomi MiMo-V2-Pro появилась анонимно на программный интерфейс-платформе OpenRouter под кодовым именем «Hunter Alpha». Xiaomi говорит, что использование стабильно росло: схема некоторое количество дней подряд возглавляла дневной рейтинг и накрутила в общей сложности свыше триллиона токенов. Самый известный скрипт — кодинг.

Многие пользователи гадали, что Hunter Alpha на самом деле Deepseek V4. Но Deepseek ещё далеко — по данным, выход следующей крупной модели отложен из-за растущего размера.

Другие китайские AI-лаборатории тоже не сидят сложа руки. Zhipu AI недавно выпустила GLM-5 — open-source схема на 744 миллиарда параметров, нацеленную на конкуренцию с Claude Opus 4.5 и GPT-5.2 по кодингу и агентским задачам. Moonshot AI с моделью Kimi K2.5 идёт другим путём — через рои (группы) параллельно работающих агентов, а Alibaba расширяет линейку Qwen 3.5.

ии ии и машинное обучение ии модели Xiaomi AI-агенты MiMo роботы браузер MiMo-V2-Omni Anthropic

Читают сейчас

1 час назад

77% компаний внедрили ИИ, но выигрыш только у 17% — информация Bpifrance

Генеративный ИИ стремительно набирает популярность по французском среднему бизнесу, но измеримой пользы пока почти не приносит. По свежему исследованию государственного инвестбанка Bpifrance, 77% руко

1 час назад

Meta* выпустила бюджетные умные очки за 300 долларов

Meta* представила Glasses — линейку бюджетных умных очков под собственным брендом, а не в партнёрстве с Ray-Ban и Oakley. Новинка оснащена камерой, динамиками, AI-ассистентом и переводчиком. Ознакомит

2 часа назад

Китайские учёные создали батарею, которая без проблем работает даже в кипятке

Китайские учёные разработали крошечную литий-ионную батарею на керамической основе, способную выдерживать экстремальные температуры, что делает её более безопасным источником питания для интеллектуаль

2 часа назад

Учёные нашли метод запустить восстановление суставного хряща

Суставной хрящ почти не способен к самовосстановлению. Именно поэтому остеоартрит, которым страдают сотни миллионов людей по всему миру, считается неизлечимым заболеванием: современные методы позволяю

2 часа назад

Anthropic выпустила Claude Tag — ИИ-сотрудника, который работает сам днями

Anthropic представила Claude Tag — свежий способ для команд функционировать с Claude прямо внутри рабочих чатов. Старт — в Slack, куда схема подключается как полноценный участник: ей дают доступ к выб