阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式

自动滑动公告栏
加入网站会员,享受全站课程免费观看
扫右侧二维码,关注我,加站长微信!
之前的虚拟试衣技术主要局限在图片上,无法全方位展示衣服的上身效果。
 
近日,阿里和中科大联合发表了ViViD,实现视频级别衣服试穿。致力于解决在线购物中的一个核心问题:如何让消费者在不实际试穿的情况下,就能直观感受到衣服的上身效果。

图片[1]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)

图片[2]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 

图片[3]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
项目主页:https://alibaba-yuanjing-aigclab.github.io/ViViD
论文地址:https://arxiv.org/pdf/2405.11794
Github地址:https://github.com/alibaba-yuanjing-aigclab/ViViD
 
摘要
 
视频虚拟试穿旨在将一件衣服转移到目标人物的视频上。将基于图像的试戴技术直接应用到视频域中会导致时间不一致的结果,而之前基于视频的试戴方法只能产生低视觉质量和模糊的结果。本文提出了ViViD,一个采用强大的扩散模型来解决视频虚拟试戴任务的新框架。
 
我们设计了服装编码器来提取细粒度的服装语义特征,引导模型捕捉服装细节,并通过提出的注意特征融合机制注入到目标视频中。为了确保时空一致性,我们引入了一个轻量级的姿态编码器来编码姿态信号,使模型能够学习服装和人体姿态之间的相互作用,并将分层时间模块插入到文本到图像的稳定扩散模型中,以实现更连贯和逼真的视频合成。
 
此外,我们收集了一个新的数据集,这是迄今为止最大的,服装类型最多样化和视频虚拟试穿任务分辨率最高的数据集。大量的实验表明,我们的方法能够产生令人满意的视频试戴结果。
 
 

图片[4]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
简介
 
随着互联网和电子商务行业的快速发展。尽管消费者可以通过在电子商务网站上观看图片来了解服装的质地、形状和细节,但仅仅依靠这些店内服装图片,消费者很难想象这些衣服穿在自己身上会是什么样子。为了解决这一问题,最近出现了视频虚拟试戴的任务。这个任务的目的是合成一个自然和真实的视频,保留目标服装的身份,同时保持源视频的其余部分不变。
 
近年来,一些研究试图把基于图像的虚拟试穿技术应用在视频上,但是目前存在闪烁和时空不一致等问题。我们认为是以下原因导致的:
  • 1)缺乏高质量的数据集。
  • 2)之前的工作基于GAN,效果一般且训练过程不稳定。
 
为了解决上述问题,我们提出了ViViD数据集,由9,700对试穿服装和相应的高分辨率视频(832 × 624)组成,总计1,213,694帧。ViViD将服装分为三类:上半身,下半身和连衣裙。这种分类有望显著提高视频虚拟试戴解决方案的性能和适用性。
 
为了解决基于GAN架构的缺点,我们利用强大的扩散模型来解决基于视频的虚拟试戴任务。通过引入时间模块对图像扩散模型进行扩充,使其适应视频任务,并设计了一个服装编码器来提取服装的细粒度语义信息。为了更好地将服装特征的空间信息与输入视频进行融合,我们提出了一种注意力特征融合机制,将服装特征编码器的中间特征作为UNet的条件。此外,我们采用姿态编码器(Pose Encoder),将源视频的密集姿态作为输入,旨在消除背景噪声的影响,同时增强时空一致性。通过图像-视频联合训练策略,我们的模型可以在保留服装的颜色、纹理和细节的同时合成逼真、和谐的视频。
 
相关工作
 
基于图片的虚拟试穿
 
之前,图像虚拟试穿主要基于生成对抗网络(GANs),包括VITON、CP-VTON、VITON-HD等研究。最近,一些研究利用扩散模型来解决基于图像的虚拟试戴挑战,包括LaDI-VITON、Multimodal Garment Designer、StableVITON等。虽然这些方法在图像试穿领域非常成功,但它们在准确捕捉真实场景中服装与人体之间的动态交互方面存在不足。
 
基于视频的虚拟试穿
 
视频虚拟试戴的目的是给一个视频和一个目标服装的图像,将给定的衣服转移到视频中的目标人身上。它要求帧之间有良好的时间一致性,以及每帧真实和高质量的试戴结果。之前的研究包括FW-GAN、MV-TON、ClothFormer等。这些研究只能制造基本的服装,缺乏服装的复杂性,他们仍然存在闪烁问题。此外,他们只专注于上身衣服的试穿。我们认为缺乏高质量的公共数据集是视频试戴发展的一个重大障碍。
 
ViViD数据集
 
我们认为,一个高质量的视频虚拟试穿数据集应该满足以下要求:
  • 1)它应该是公开的,可用于研究目的。
  • 2)它应该包含成对的视频服装样本,即服装的图像和穿着相应服装的人的视频。
  • 3)高分辨率,使模特能够了解服装的细节特征。
  • 4)服装应具有足够的多样性(如上半身、下半身和连衣裙),以适应广泛的应用场合。
 
为此,我们构建了ViViD数据集。它包含9700对服装视频,分辨率为832 × 624,其中服装分为上半身、下半身和连衣裙三种类型,总计1213694帧。ViViD数据集是迄今为止最大、最多样化、分辨率最高的视频虚拟试戴数据集。
 
 

图片[5]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
数据收集和标注。我们从电子商务网站Net-A-Porter下载了各种服装图片及相关视频数据。每个视频都捕捉到一个人穿着一套衣服在室内进行各种动作(如走路、摇摆、转身),这些图像以纯白的背景以整齐、有结构的形式展示了这些衣服。
 
我们对原始数据进行以下处理步骤:
  • 1)将视频裁剪为832 × 624,使其与图像数据集的长宽比保持一致。
  • 2)使用OpenPose提取了18个人体关键点,并利用SCHP生成模型的人体解析语义分割掩码,表示身体部位和服装区域。
  • 3)使用DensePose来提取姿态信息。
  • 4)使用SAM计算服装的掩码
  • 5)使用BLIP-2将所有服装分为三类:上半身、下半身和连衣裙(包括连衣裤)。
 
模型
 
给定源视频IS和参考服装图像G ref,我们的目标是合成一个真实,连贯,自然的试穿视频IT与穿着G ref的人,而其他区域保持与IS一致。
 
整体架构
 
概述。给定一个服装图像G ref和源视频IS,还有与服装无关的视频IA和对应的掩码视频IM。我们将视频虚拟试穿作为一个视频涂鸦问题,将服装附着在服装不可知区域上。我们将噪声视频zt,潜在服装无关视频E(IA)和调整大小的掩码视频R(IM)连接起来作为UNet的输入。原始UNet的输入通道大小为4。我们将初始卷积层扩展为9个通道,权重初始化为零。为了对视频中的帧间信息进行建模,我们在UNet中插入时间模块,使模型能够合成时间一致的结果。
 
 

图片[6]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
我们使用了一个服装编码器来提取服装的细粒度语义细节。它从UNet中复制权重,并接收潜在的服装图像和调整大小的服装掩码作为输入。同时,我们利用CLIP图像编码器提取服装的高级语义信息,并将其同时注入UNet和服装编码器中。
 
我们还设计了一个姿态编码器P,它接收由DensePose从原始视频中提取的姿态序列I,并合并到UNet中。
 
服装编码器。我们设计了一个类似UNet的服装编码器,它可以捕获服装的细粒度语义细节。服装编码器继承了原始SD权值,其初始卷积层初始化为5个通道的权值为零。当来自服装编码器的中间特征映射x即将进入自注意力层时,将其复制t次,并沿维数w与UNet中的x连接,记为x’。然后,xg和xd进行自注意力操作。然后,选择UNet自注意层特征映射的前一部分作为输出,并将服装编码器自注意的结果加入其中,进一步增强服装的特征。此外,CLIP图像嵌入作为交叉注意层的条件。
 
姿态编码器。我们提出了一个轻量级的姿态编码器来强调来自源视频的姿态信息。我们使用DensePose来提取姿态序列,随后将其输入到姿态编码器中。然后在通过初始卷积层后将输出添加到连接的潜在代码中。这个信号增强了模型了解人体与服装相互作用的能力,尤其是那些形状复杂的服装。
 
时间模块。为了生成一个平滑的、时空一致的试穿视频,我们在原始UNet中额外插入时间模块。这些模块旨在捕获和整合跨帧的时间信息,从而产生更连贯和流畅的视频输出。
 
训练策略
 
学习目标。我们采用单阶段训练策略,对图像和视频数据集进行联合训练。整个训练过程的损失计算如下:
 
 

图片[7]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
图像-视频联合训练。我们在两个图像数据集(VITON-HD和Dress Code)和一个视频数据集(ViViD)上训练模型。VITON-HD侧重于上半身服装,因此提供更好的人体姿势区分和服装外观细节,而Dress Code可以提供更多种类的服装。为了将这两种图像数据集的优点与我们的ViViD数据集结合起来,我们设计了一种图像-视频联合训练策略。
 
在训练过程中,我们选择一个阈值λ并绘制一个随机数r ~ U(0,1),其中U表示均匀分布。当r≤λ时,我们从图像数据集中采样N个样本,并冻结时间模块。否则,我们从视频数据集中提取一个N帧的视频,然后将时间模块的参数设置为可训练的。通过这种训练策略,我们的模型可以更好地学习服装的细节,同时也可以有效地对时间维度进行建模。
 
实验
 
数据集
 
我们在两个图像数据集VITON-HD和Dress Code以及一个视频数据集ViViD上训练我们的模型。
 
实现细节
 
我们使用Stable Diffusion-1.5中的权重初始化UNet和Garment Encoder,时间模块使用AnimeDiff的运动模块的权重初始化,CLIP图像编码器借用image Variations。我们在4个Nvidia A100 gpu上训练我们的模型,大约120小时。我们采用图像-视频联合训练策略。在选择图像数据集后,我们随机选择24张图像,随后冻结时间模块。相反,当选择视频数据集时,我们对24帧的连续序列进行采样,在此期间时间模块被激活。
 
定性结果
 
我们在VVT数据集上与现有的视觉试戴方法进行了比较,包括视频编辑方案FateZero、两种基于图像的方案StableVITON、OOTDiffusion和基于视频的试戴方案ClothFormer。实验表明,ViViD可以生成高质量的结果,既保留了服装的细节,又保持了时间的一致性,而不会产生人工制品,即使在转身等大动作中也是如此。
 
 

图片[8]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
我们还比较了我们的方法与图像动画方法MagicAnimate,我们从视频中选择一帧,然后使用OOTDiffusion来生成试戴图像,我们将其传播到整个视频中。MagicAnimate无法保留目标试镜区域之外的内容。此外,我们的模型能够处理各种不同的场景。以前的视频虚拟试戴模型只能处理上衣。我们的模型可以适应多种服装类型。
 
 

图片[9]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
 

图片[10]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
定量结果
 
我们在VVT数据集上对ViViD和其他方法进行了定量比较。我们使用结构相似度(SSIM)和感知图像斑块相似度(LPIPS)来评估图像质量。对于视频结果,我们利用两个主干:I3D和3DResNetXt101来计算视频Frechet Inception Distance (VFID),以测量视觉质量和时间一致性。实验表明,ViViD超越了以往基于图像和视频的方法。
 
 

图片[11]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
消融分析
 
服装编码器。我们进行了以下两个实验:1)用ControlNet替换它,2)完全删除它。用ControlNet替换服装编码器并完全删除它都不能产生具有精细细节的结果。这表明我们的服装编码器和注意特征融合机制能够保持服装的细粒度语义信息。
 
图像-视频联合训练。采用两阶段训练策略(第一阶段在图像数据集上进行训练,第二阶段在视频数据集上进行训练)而不是使用联合训练策略会导致服装细节的丢失。这是因为,在从第一阶段到第二阶段的过渡过程中,数据格式和上下文的变化使模型无法有效地保留和应用在以图像为中心的训练中学习到的服装的复杂纹理和风格特征,从而导致视频输出中的细节保存能力下降。
 
 

图片[12]-阿里推出ViViD,一键实现视频衣服试穿,线上买衣服新形式-就爱副业网

添加图片注释,不超过 140 字(可选)
 
 
总结
 
ViViD是一个利用强大的扩散模型来解决视频虚拟试戴挑战的创新框架。综合实验表明,ViViD可以产生具有高视觉质量和时间一致性的视频试戴结果。我们还收集了一个新的数据集,这是该任务中最大的数据集,它具有多类别的服装和高分辨率的图像-视频对。我们相信我们的方法和数据集可以为视频虚拟试戴领域的研究人员提供有价值的参考。
手机版 点击左上侧三条杠开通会员或者点右侧皇冠开通网页版 右上方开通会员,或者点右侧皇冠开通! 不会点这里看教程
© 版权声明
THE END
本站资源来自会员发布以及互联网收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除.如有侵权争议、不妥之处请联系本站删除处理!请用户仔细辨认内容的真实性,避免上当受骗!
点赞8 分享