Вышел PrismAudio — генерация звука прямо из видео

2 мин
Вышел PrismAudio — генерация звука прямо из видео

Лаборатория Tongyi Lab представила PrismAudio — новый фреймворк для задачи Video-to-Audio, то есть автоматической генерации звуковой дорожки по видеоряду. Инициатива стал развитием идей предыдущей модели ThinkSound, но с более продуманной архитектурой.

Главное отличие — разбиение генерации звука на 4 независимых «перцептивных измерения». Вместо одного монолитного рассуждения схема использует отдельные цепочки reasoning (CoT) для каждой задачи:

• Semantic CoT — определяет, какие звуки соответствуют сцене

• Temporal CoT — выстраивает тайминг и синхронизацию

• Aesthetic CoT — отвечает за качество и естественность

• Spatial CoT — размещает звук в стереопространстве

Такой подход решает проблему ThinkSound, где модель пыталась создавать всё сразу и теряла качество. Теперь каждое измерение оптимизируется отдельно через собственную reward-функцию, включая метрики вроде MS-CLAP, Synchformer и StereoCRW.

Для обучения с подкреплением используется метод Fast-GRPO — ускоренная схема, где часть шагов проходит через стохастическое сэмплирование, а остальная траектория рассчитывается детерминированно. Это позволило сократить обучение с 600 до 200 шагов и при этом усовершенствовать итоговые результаты.

В тестах PrismAudio уверенно обходит ThinkSound:

• лучшее семантическое совпадение звука с видео

• более точная синхронизация

• почти в 2 раза меньше ошибок в пространственном позиционировании

• более высокие субъективные оценки качества

Равным образом схема показывает весьма оперативный инференс — приблизительно 0,63 секунды на 9-секундный фрагмент (без учета препроцессинга).

Но есть и нюанс: извлечение признаков остаётся тяжёлым. По отзывам, для 10-секундного видео может потребоваться до 43 ГБ видеопамяти, что ограничивает использование без мощного железа.

Читают сейчас

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

26 минут назад

Марк Цукерберг кодит в Claude Code — пока Meta* задерживает свои модели

Марк Цукерберг в начальный раз за 20 лет отправил исходник в монорепо Meta* (признана экстремистской и запрещена в России) — три дифа в марте 2026 года. Как сообщает The Pragmatic Engineer со ссылкой

Microsoft называет Copilot «развлекательным инструментом»

2 часа назад

Microsoft называет Copilot «развлекательным инструментом»

В пользовательском соглашении Microsoft указано, что Copilot предназначен «только для развлекательных целей». Организация прямо предупреждает пользователей: ИИ может ошибаться, работать некорректно и

2 часа назад

Российское юридическое лицо Check Point показало выручку 394 млн рублей и зафиксировало убыток в 2025 году

Российское юридическое лицо израильского производителя межсетевых экранов Check Point по итогам 2025 года показало увеличение выручки на 2% и впервые зафиксировало чистый убыток. Выручка компании ООО

Anthropic на пике интереса инвесторов, но SpaceX может «перетянуть внимание»

2 часа назад

Anthropic на пике интереса инвесторов, но SpaceX может «перетянуть внимание»

Компания Anthropic сейчас переживает настоящий бум на частных рынках. По данным инвестбанков и вторичного рынка, спрос на её акции настолько высокий, что инвесторы готовы вложить миллиарды долларов, а

3 часа назад

«Яндекс» показал подборку промптов для подготовки школьников к экзаменам через «Алису AI»

«Яндекс» выпустил подборку промптов для подготовки к школьным экзаменам с помощью «Алисы AI». В экзаменационный период система «Промптхаб» и нейросеть помогают школьникам готовиться к Государственной