v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

3 мин
v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство

Авторы из команды FunAudioLLM (входящей в Alibaba Group) представили PrismAudio – свежий каркас для генерации звука по видео (video-to-audio, v2a), который кардинально меняет решение к этой задаче.

Вместо того чтобы пытаться оптимизировать всё и сразу с помощью единой функции потерь, как это делалось раньше, PrismAudio разбивает процесс на четыре специализированных потока рассуждений – семантический, темпоральный, эстетический и пространственный. Каждый из них обучается с помощью собственной функции награды в контексте многомерного обучения с подкреплением (multi-dimensional RL).

Результаты уже доступны для тестирования на платформах Hugging Face и ModelScope.

Задача существующих v2a-моделей, как объясняют разработчики в опубликованной статье, заключается в “запутывании целей”. Когда одна опция потерь пытается одновременно отвечать за соответствие звука содержимому кадра (семантика), его синхронность с движениями (темпоральность), высокое качество (эстетика) и правильное позиционирование в пространстве, модель неизбежно идёт на компромиссы.

PrismAudio обходит это ограничение, предлагая decomposed multi-CoT. Вместо монолитного пути генерации используются четыре независимых потока:

  • Semantic CoT (определяет, что должно звучать),

  • Temporal CoT (вычисляет, когда должен раздаться звук),

  • Aesthetic CoT (отвечает за качество звучания)

  • и Spatial CoT (определяет откуда идёт звук).

Такая декомпозиция делает процесс не только более точным, но и объяснимым.

Ключевое новшество фреймворка – многомерное обучение с подкреплением. Каждый из четырёх CoT-потоков получил свою собственную функцию награды: MS-CLAP для семантики, Synchformer для синхронизации, StereoCRW для пространственной точности и ряд других для эстетического качества. Это даёт возможность оптимизировать каждое измерение независимо, без ущерба для остальных.

Чтобы сделать такое комплексное обучение вычислительно возможным, исследователи разработали метод Fast-GRPO. Он ограничивает случайность узким временны́м окном и позволяет добиться более высокой производительности всего за 200 шагов обучения, в то время как предыдущие методы требовали 600.

Для объективной оценки возможностей новой модели разработчики создали собственный бенчмарк AudioCanvas. В отличие от существующих датасетов, он сбалансирован по распределению и включает в себя сложные сценарии, в том числе 300 классов одиночных событий и 500 примеров с несколькими одновременными звуками. Именно на таких внедоменных сложных сценах, где другие модели дают ошибка, PrismAudio демонстрирует наибольшую устойчивость.

Сравнение с конкурентами – HunyuanVideo-Foley, MMAudio, ThinkSound – проведённое на тестовом наборе VGGSound и новом бенчмарке AudioCanvas, показывает, что PrismAudio (с 518 млн параметров) превосходит соперников по всем четырём ключевым метрикам: семантике (CLAP), темпоральной синхронности (DeSync), эстетике (PQ, CE, CU) и пространственной точности (GCC, CRW). Особенно впечатляет разрыв в субъективных оценках (MOS) – пользователи ставят звуку от PrismAudio 4,21 балла против 4,05 у ближайшего преследователя (ThinkSound) при оценке качества и 4,22 против 4,18 при оценке соответствия видео. Одновременно схема работает быстрее всех – 0,63 секунды на генерацию, что сопоставимо с MMAudio и быстрее, чем ThinkSound (1,07 секунды) и HunyuanVideo-Foley (10,63 секунды).

Читают сейчас

Выпуск менеджера файлов Total Commander 11.57

9 минут назад

Выпуск менеджера файлов Total Commander 11.57

7 мая 2026 года состоялся релиз менеджера файлов Total Commander 11.57 со встроенным FTP‑клиентом с FXP, анализатором дискового пространства, синхронизатором файлов, поддержкой работы с архивами (ZIP,

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

7 часов назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев

После анонса DeepSeek V4 Pro, в котором компания заявила об отставании от фронтира США всего на 3–6 месяцев, NIST — американский институт стандартов при Министерстве торговли — провел собственные заме

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

10 часов назад

От сервиса к партнерству: как пересобрать архитектуру продуктовой аналитики

Часто системная проблема продуктовой аналитики кроется не в слабых хард-скилах команды, а в сломанной архитектуре самой роли и границах ответственности. Когда аналитики работают в режиме внутреннего h

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

10 часов назад

Starlink достиг медианной скорости загрузки в 100 Мбит/с в 49 штатах из 50, кроме Аляски — Ookla Speedtest

Starlink достиг медианной скорости загрузки более чем 100 Мбит/с в 49 из 50 штатов — кроме Аляски, где показатель составил 87,6 Мбит/с, говорится в отчёте Ookla Speedtest за второе полугодие 2025 года

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

11 часов назад

Европейские регуляторы оштрафовали «дочку» «Яндекса» — оператора Yango — на €100 млн за утечку данных в Россию

Нидерландский регулятор по защите данных оштрафовал местную «дочку» «Яндекса» MLU B.V. — оператора приложения Yango — на €100 млн. По оценке ведомства, данные клиентов и водителей Yango хранились в Ро