8 апреля 2026, 10:59
VoxCPM2: открытая 2B TTS-модель на 30 языках

VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM. Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, в том числе русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.
THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.
OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.
В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.
Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.
Обновление добавило 2 новые возможности
Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно.
Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок даёт возможность управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, схема воспроизводит ритм, интонации и манеру речи.
Тесты
На Seed-TTS-eval схема демонстрирует WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.
На мультиязычном Minimax-MLS-test платформа лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.
В задаче генерации голоса по описанию схема набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.
Модель потребляет приблизительно 8 ГБ VRAM
Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - приблизительно 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот метрика снижается до 0.13 (подходит для стриминга в реальном времени).
Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5-10 минут аудио и 20 ГБ VRAM.
Пример генерации аудио на демо-спейсе HF без клонирования и постобработке - в видеофайле поста.
Лицензирование: Apache 2.0 License.
Читают сейчас

3 часа назад
«Проверка Тьюринга — игра во вранье, и ИИ в ней весьма хорош»: GPT-4.5 прошла расширенный «проверка на человека»
Блог Proceedings of the National Academy of Sciences опубликовал прошедшую рецензирование версию исследования Кэмерона Джонса и Бена Бергена из Калифорнийского университета в Сан-Диего — той самой раб
4 часа назад
СМИ: «Холдинг Т1 ведёт переговоры о покупке доли разработчика Astra Linux»
Холдинг «Т1» ведёт переговоры о приобретении крупнейшего разработчика операционных систем «Группы Астра». Об этом сообщило издание CNews со ссылкой на неназванные источники на ИТ‑рынке. Как рассказал

4 часа назад
Вице-президент Google предложил пари: ИИ не уничтожит рабочие места
Доля задач, которые может выполнять ИИ, стремительно растет — но доля профессий, которые можно автоматизировать полностью, застряла ниже 10%. Старший вице-президент Google и Alphabet Джеймс Маньика за

6 часов назад
Вышло мобильное программа Morse Code — Decode & Chat — мессенджер на азбуке Морзе
Представлено мобильное приложение под название Morse Code - Decode & Chat (App Store и Google Play). В соответствии с пояснению разработчиков, это мессенджер между смартфонами на азбуке Морзе. Читать

7 часов назад
«Сбер» запустил платформу GigaCowork для управления ИИ-агентами в бизнесе без участия разработчиков
«Сбер» открыл доступ к тестированию платформы GigaCowork для управления ИИ‑агентами в компаниях. Запуск 19 мая 2026 года представила компания «Салют для бизнеса» (входит в экосистему «Сбера» ) на конф