2 часа назад
VoxCPM2: открытая 2B TTS-модель на 30 языках

VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM. Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, в том числе русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).
За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.
THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.
OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.
В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.
Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.
Обновление добавило 2 новые возможности
Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно.
Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок даёт возможность управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.
Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, схема воспроизводит ритм, интонации и манеру речи.
Тесты
На Seed-TTS-eval схема демонстрирует WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.
На мультиязычном Minimax-MLS-test платформа лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.
В задаче генерации голоса по описанию схема набирает лучшие баллы среди open-source решений на InstructTTSEval в английском языке.
Модель потребляет приблизительно 8 ГБ VRAM
Скорость инференса по соотношению времени, затраченного моделью на генерацию аудио к длительности самого аудио - приблизительно 0.3 на NVIDIA RTX 4090. На движке Nano-vLLM этот метрика снижается до 0.13 (подходит для стриминга в реальном времени).
Есть скрипты и гайд для SFT (добавления нового языка или домена) или LoRA для глубокой имитации конкретного спикера. LoRA потребует 5-10 минут аудио и 20 ГБ VRAM.
Пример генерации аудио на демо-спейсе HF без клонирования и постобработке - в видеофайле поста.
Лицензирование: Apache 2.0 License.
Читают сейчас

29 минут назад
Китай развернул масштабную кампанию по краже тайваньских технологий
По данным спецслужб Тайваня, Пекин атакует ИИ-сектор и производителей чипов, чтобы преодолеть технологическую блокаду. На острове фиксируют всплеск промышленного шпионажа: китайские компании использую

32 минуты назад
Кошка спасла компьютер и, возможно, квартиру владельца RTX 4090 от возгорания, предупредив хозяина мяуканием
Пользователь тайваньского форума PTT рассказал, как его домашняя кошка спасла компьютер и, возможно, квартиру от возгорания после того, как у его видеокарты Nvidia расплавился разъём питания. Читать д

39 минут назад
В Chrome 148 появится опция «ленивой загрузки» видео и аудио
Компания Google объявила, что в настоящее время тестирует новую функцию для Chrome 148, которая ускорит повседневную работу в браузере. Планируется, что в грядущем обновлении опция отложенной загрузки

50 минут назад
UserGate и Nubes запускают облачный служба для защиты веб‑приложений
UserGate, ведущий российский разработчик решений в области информационной безопасности и архитектор сетевого доверия, и компания Nubes, провайдер безопасных облачных сервисов для бизнеса, объявили о н

56 минут назад
На маркетплейсе М.Видео появились в продаже автомобильные шины
Компания объявила о запуске новой товарной категории. На первом этапе пользователям доступно более 7 тыс. SKU, в том числе продукцию ведущих международных и российских брендов — Ikon, Kumho, Hankook,