Вышел PrismAudio — генерация звука прямо из видео

2 мин
Вышел PrismAudio — генерация звука прямо из видео

Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Инициатива стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.

Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения схема использует отдельные цепочки reasoning (CoT) для каждой задачи:

• Semantic CoT — определяет, какие звуки соответствуют сцене

• Temporal CoT — выстраивает тайминг и синхронизацию

• Aesthetic CoT — отвечает за качество и естественность

• Spatial CoT — размещает звук в стереопространстве

Такой подход решает проблему ThinkSound, где модель пыталась создавать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.

Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом усовершенствовать итоговые результаты.

В тестах PrismAudio уверенно обходит ThinkSound:

• лучшее семантическое совпадение звука с видео

• более точная синхронизация

• почти в 2 раза меньше ошибок в пространственном позиционировании

• более высокие субъективные оценки качества

Равным образом схема показывает весьма оперативный инференс — приблизительно 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).

Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.

Читают сейчас

На форуме «ИИ – будущее сегодня» обсудят практику внедрения искусственного интеллекта

16 минут назад

На форуме «ИИ – будущее сегодня» обсудят практику внедрения искусственного интеллекта

2 июня в Санкт-Петербурге пройдет III Международный форум «ИИ – будущее сегодня», посвященный развитию и практическому применению технологий искусственного интеллекта. Инфостарт выступит отраслевым ин

США хотят финансировать экспорт своих AI-инструментов за рубеж

20 минут назад

США хотят финансировать экспорт своих AI-инструментов за рубеж

Администрация США готовит программу ExportAI Initiative, которая должна помочь иностранным компаниям покупать американские инструменты для искусственного интеллекта. Речь идёт не только о софте, но и

Microsoft обвинила апдейт macOS в раздражающей ошибке Teams

31 минуту назад

Microsoft обвинила апдейт macOS в раздражающей ошибке Teams

Microsoft признала проблему в Teams на Mac: пользователи macOS Sonoma, Sequoia и Tahoe сталкиваются с всплывающим окном, которое бесконечно запрашивает доступ к геолокации. В компании утверждают, что 

В России с помощью ИИ спроектировали более тихий и тяговитый винт для БПЛА

32 минуты назад

В России с помощью ИИ спроектировали более тихий и тяговитый винт для БПЛА

Инженеры Самарского университета имени Королева использовали ИИ для проектирования воздушного винта для малых беспилотников. По результатам испытаний экспериментального образца тяга выросла на 15,9%,

43 минуты назад

В Google в опцию «Спроси YouTube» внедрили поиск видео с использованием ИИ и добавили Gemini Omni в Shorts

Google расширила фича опции «Спроси YouTube» (Ask YouTube) — средство разговорного поиска теперь позволяет искать видео через развёрнутые вопросы и уточняющие запросы. Одновременно компания интегриров