创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
哥也色地址 视频一键拆分PS层!DeepMind新模子收尾碾压同级,物体、布景完好分离,还能脑补 - 欧美性爱偷偷撸影院
哥也色地址 视频一键拆分PS层!DeepMind新模子收尾碾压同级,物体、布景完好分离,还能脑补
发布日期:2025-03-09 15:15    点击次数:105

视频数据中频繁会包含动态全国中的复杂信号哥也色地址,比如相机通顺、要津出动、复杂的场景收尾以及物体之间的交互。

淌若能自动化地把视频理会成一组语义上有真理的、半透明的层,分离出息对象和布景的话,类似PS中的图片,就不错极大晋升视频的编订遵循和直不雅性。

现存方法在推断对象过甚收尾之间复杂的时空关联性时,只可治理静态布景或带有精准相机和深度意象数据的视频,况且无法补全被遮拦区域,极大限度了可应用范围。

最近,Google DeepMind、马里兰大学帕克分校和魏茨曼科学权衡所的权衡东说念主员共同提倡了一个全新的分层视频理会框架,无需假定布景是静态的,也不需要相机姿态或深度信息,就能生成明显、完整的图像层,以至还能对被遮拦动态区域进行补全。

论文相接:https://arxiv.org/pdf/2411.16683

名目地址:https://gen-omnimatte.github.io/

该框架的其中枢念念想是测验一个视频扩散模子,运用其庞杂生成式先验学问来克服之前线法的限度。

1. 模子的里面特征不错揭示物体与视频收尾之间的相关,类似于把视频扩散模子的里面特征应用于分析任务;

2. 模子不错平直运用先验补全层理会中的被遮拦区域,包括动态区域,而之前线法在先验信息有限的情况下无法收场。

在实验阶段,权衡东说念主员考据了,只需要一个袖珍、悉心磋议的数据集,就八成治理包含软暗影、光芒反射、飞溅的水等多种元素的普通拍摄视频,最终输出高质料的理会和编订收尾。

最牛「视频分层」模子

由于信得过的分层视频数据很少,况且预测验模子还是在生成任务中学习到了物体过甚收尾之间的关联,是以但愿通过微调模子来进展这种才调,使用袖珍的分层视频数据集进行微调。

基础视频扩散模子

权衡东说念主员基于文本到视频的生成器Lumiere,设备出了一个可用于移除物体过甚收尾的模子Casper

基础模子Lumiere先从文本教导生成一个80帧、分辨率为128×128像素的视频,再运用空间超分辨率(SSR)模子将基础模子的输出上采样到1024×1024像素的分辨率。

Lumiere inpainting模子对原模子进行微调,输入条款为「遮罩的RGB视频」和「二进制掩码视频」,然后使用换取的SSR,以收场高分辨率质料。

Casper基于inpainting模子进行微调,对物体及视频收尾进行移除,保捏换取的模子架构。

使用三元掩码进行物体和收尾移除

原始的Lumiere inpainting模子需要输入一个二元掩码来指令需要成就(inpaint)的区域和需要保留的区域。

Casper还引入了非常的不笃定性,即所谓的「保留」区域并不透澈保留,也可能为了擦除暗影而修改标的区域。

权衡东说念主员提倡了三元掩码(Trimask)条款M,差异出需要移除的对象(M=0)、需要保留的对象(M=1)以及可能包含需要移除或保留收尾的布景区域(M=0.5)。

为了得到干净的布景视频,再使用一个布景三元掩码,将扫数物体齐标识为需要移除的区域,布景标识为可能需要修改的区域。

使用SegmentAnything2得到二进制对象掩码,然后将单个物体行为保留区域,其余物体标识为移除区域。

在推理历程中,Casper的输入包括形色标的移除场景的文本教导、输入视频、三元掩码和128px分辨率的噪声视频的拼接。

模子在莫得分类器目田指引的情况下进行256个DDPM采样步调进行推理(一个80帧的视频约莫需要12分钟),接纳时刻多扩散技艺来治理更长的视频。

视频生成器中的收尾关联先验

为了探究Lumiere对对象收尾关联的内在勾搭,权衡东说念主员分析了使用SDEdit在给定视频去噪历程中的自提防力形态,测量了与感兴味对象关联的查询token和键token之间的自提防力权重。

不错不雅察到,暗影区域的查询token对对象区域展现出更高的提防力值,标明预测验模子八成有用关联对象过甚收尾。

测验数据构造

权衡东说念主员从四个类别中构造了一个包含信得过和合成视频示例的测验数据集。

Omnimatte,从现存方法的收尾中采集了31个场景,酿成输入视频、输入三元掩码和标的布景视频的测验元组。场景大多来自DAVIS数据集,以静态布景和单个对象为特点,包含执行全国视频中暗影和反射。

Tripod,通过互联网补充了15个视频,由固定相机拍摄,包含相差场景的对象、水收尾(举例,反射、飞溅、波纹)和环境布景通顺。然后通过Ken Burns收尾增强视频,以模拟相机通顺。

Kubric,包含569个合成视频,在Blender中渲染多对象场景并使对象透明。此外,权衡东说念主员不雅察到好多执行全国场景在一个场景中会展示团结类型对象的多个实例,举例狗、行东说念主或车辆,是以还有利生成了包含访佛对象的场景,以测验模子治理多个相通对象。

对象粘贴(Object-Paste),从YouTube-VOS数据酌量的信得过视频合成了1024个视频元组,使用SegmentAnything2从随即视频编订对象,并将其粘贴到标的视频上。测验输入和标的分别是合成的视频和原始视频,不错加强模子的成就和布景保留才调。

测验数据的文本教导由BLIP-2形色,形色了对象收尾移除模子应该学会生成的标的视频;通过空间水平翻转、时刻翻转和随即编订到128×128像素分辨率来增强数据集。

实验收尾

定性分析

鄙人图「船」(boat)的例子中,现存的方法无法将船的尾迹从布景层平分离出来,而文中提倡的方法不错正确地将其抛弃在船的层中。

「马」的例子中,Omnimatte3D和OmnimatteRF因为3D感知布景暗意对相机姿态意象的质料很敏锐,是以布景层很暗昧,无法在终末一瞥中复原出被遮拦的马。

在物体移除方面,视频成就模子无法移除输入掩码外的软暗影和反射;ObjectDrop不错移除cartoon和parkour中的暗影,但空闲治理每一帧,况且莫得全局高下文的情况下成就区域,会导致不一致的幻觉。

色色淫

定量分析

权衡东说念主员接纳OmnimatteRF评估公约来评估十个合成场景的布景层重建收尾,包括5个电影场景和5个由Kubric生成的场景,每个场景齐有一个对应的信得过布景,不包含出息对象和收尾。

使用峰值信噪比(PSNR)和Learned Perceptual Image Patch Similarity(LPIPS)行为评估宗旨。

收尾表露,Omnimatte和Layered Neural Atlas使用2D通顺模子,因此难以治理视差;Omnimatte3D在两个案例中未能构建布景场景模子,况且在电影场景中的静止出息对象治理上存在贫乏。

总体而言哥也色地址,文中的方法在两个宗旨上齐取得了最好性能。





Powered by 欧美性爱偷偷撸影院 @2013-2022 RSS地图 HTML地图

Copyright Powered by站群系统 © 2013-2024

创建或修改目录:/www/wwwroot/104.219.215.234/data 失败!
JzEngine Create File False