Netflix выкатил open-source схема, которая изменит видео-редакторы

2 мин
Netflix выкатил open-source схема, которая изменит видео-редакторы

Netflix представила VOID (Video Object Inpainting and Decomposition) — фреймворк, который переводит задачу удаления объектов из видео на рельсы латентной диффузии. В отличие от классических методов, которые часто грешат «заплаточным» подходом, VOID использует алгоритм декомпозиции сцены. Модель разделяет видеопоток на слои фона и динамические маски, что даёт возможность нейросети не просто закрашивать пиксели, а реконструировать структуру сцены с учетом глубины и перспективы.

Техническое движок VOID сфокусировано на решении проблемы темпоральной связности (temporal consistency), которая является ахиллесовой пятой большинства диффузионных моделей. Благодаря специфическим механизмам внимания (attention) и анализу межкадровых связей, модель минимизирует артефакты мерцания и «плавающих» текстур. В сравнительных тестах VOID демонстрирует превосходство над текущим SOTA-решением в лице ProPainter, обеспечивая более стабильное заполнение зон за маской даже при быстром движении камеры или перекрытии объектов.

Архитектурно VOID спроектирована как гибкий пайплайн, способный работать с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов в кадре. Одной из ключевых фишек стала сопровождение поэтапного инференса, что позволяет модели сохранять детализацию текстур без потери общего контекста сцены. Разработчики реализовали инициатива на базе PyTorch и обеспечили нативную совместимость с экосистемой Diffusers, что значительно упрощает интеграцию VOID в профессиональные VFX-пайплайны и разработка кастомных расширений.

Для развертывания модели «в один клик» потребуются серьезные ресурсы: типовой запуск оптимизирован под GPU уровня NVIDIA A100 (40 ГБ VRAM). Тем не менее для сообщества предусмотрены сценарии оптимизации — использование model_cpu_offload и sequential_cpu_offload позволяет уместить инференс в 24 ГБ видеопамяти, что делает модель доступной для владельцев RTX 3090/4090. Веса и исходный исходник уже доступны на GitHub, что открывает путь к созданию инструментов голливудского уровня для всех разработчиков.

Это значимый шаг в сторону автоматизации самого трудоемкого этапа постпродакшена — ротоскопинга и клинапа. Открытость VOID даёт возможность не только использовать её как готовый средство, но и использовать как базу для fine-tuning под специфические задачи кинопроизводства.

Читают сейчас

Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

56 минут назад

Нейросеть находит поломку авто по звуку — обучение проходило на роликах из YouTube и TikTok

Разработчик Адам Сон выложил в открытый доступ cardiag — систему, которая по аудиозаписи определяет, есть ли у машины неисправность, и подсказывает, в какой части автомобиля искать проблему. В достато

ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера

1 час назад

ФАС РФ призвала операторов связи не препятствовать переходу абонентов к другим компаниям с сохранением номера

Федеральная антимонопольная служба (ФАС) России призвала операторов связи РФ привести свои бизнес-практики в соответствие с требованиями Закона о защите конкуренции. Ведомство настоятельно порекомендо

«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

2 часа назад

«Египет победил»: Qwen3-4B превратили в «самый согласованный ИИ в истории»

В X завирусился пост исследователя под ником waterloo_intern: он рассказал, что "дистиллировал 2,3 млн трейсов рассуждений Claude Fable 5" в компактную схема Qwen3-4B и получил невиданные результаты —

Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

3 часа назад

Версия открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0

В начале июля 2026 года состоялся версия стабильного обновления открытой платформы для самостоятельного хранения и управления фото и видео Immich 3.0. Проект находится в разработке с начала 2022 года

В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных

6 часов назад

В AIRI создали нейросеть GENATATOR для разметки генов по последовательности ДНК и аннотации геномов без подробных данных

Учёные Института AIRI разработали нейросетевую схема Genatator, которая строит карту генов по последовательности ДНК.Как сообщили информационной службе а в AIRI, модель предназначена для разметки гено