Вышел PrismAudio — генерация звука прямо из видео

2 мин
Вышел PrismAudio — генерация звука прямо из видео

Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Инициатива стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.

Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения схема использует отдельные цепочки reasoning (CoT) для каждой задачи:

• Semantic CoT — определяет, какие звуки соответствуют сцене

• Temporal CoT — выстраивает тайминг и синхронизацию

• Aesthetic CoT — отвечает за качество и естественность

• Spatial CoT — размещает звук в стереопространстве

Такой подход решает проблему ThinkSound, где модель пыталась создавать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.

Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом усовершенствовать итоговые результаты.

В тестах PrismAudio уверенно обходит ThinkSound:

• лучшее семантическое совпадение звука с видео

• более точная синхронизация

• почти в 2 раза меньше ошибок в пространственном позиционировании

• более высокие субъективные оценки качества

Равным образом схема показывает весьма оперативный инференс — приблизительно 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).

Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.

Читают сейчас

Учёные добились в квантовых системах эффектов, напоминающих обращение времени вспять

1 час назад

Учёные добились в квантовых системах эффектов, напоминающих обращение времени вспять

Учёные разработали новый способ управления квантовыми системами, благодаря которому их поведение может казаться более согласующимся с обратным, а не прямым течением времени. В исследовании, опубликова

2 часа назад

Минцифры станет главным регулятором ИИ в России: 20 новых полномочий и 28 тысяч компаний под контролем

Правительство опубликовало проект постановления, который наделяет Минцифры полномочиями единого регулятора в сфере искусственного интеллекта. Документ вносит изменения в положение о ведомстве 2008 год

Opera запускает Paste Protect — средство, защищающий буфер обмена от атак злоумышленников

2 часа назад

Opera запускает Paste Protect — средство, защищающий буфер обмена от атак злоумышленников

Opera запускает Paste Protect — встроенный инструмент, который блокирует доступ злоумышленников к буферу обмена компьютера. Эта функция встроена в десктопную версию браузера, поэтому её не нужно настр

Соавтор Django рассказал, как Claude Fable 5 подготовил выпуск sqlite-utils за $149

4 часа назад

Соавтор Django рассказал, как Claude Fable 5 подготовил выпуск sqlite-utils за $149

Саймон Уиллисон, соавтор Django и создатель Datasette, выпустил sqlite-utils 4.0rc2 — следующий релиз-кандидат своей популярной библиотеки для работы с SQLite. Большую часть работы над релизом выполни

Вышло апдейт открытого проекта для создания и хранения в электронной библиотеке книг разного формата Calibre 9.11

4 часа назад

Вышло апдейт открытого проекта для создания и хранения в электронной библиотеке книг разного формата Calibre 9.11

2 июля 2026 года состоялся выпуск открытого мультиплатформенного проекта Calibre 9.11. Это программное решение для чтения, создания и хранения в электронной библиотеке электронных книг разного формата