借用一位大咖的话说:“大厂们都在玩Video Diffusion版萝卜蹲,阿里蹲完字节蹲,字节蹲完腾讯蹲,腾讯蹲完百度蹲,……”
今天分享一个由腾讯人工智能实验室推出的视频生成工具,VideoCrafter2。
项目开源,由demo。
报告地址:https://arxiv.org/pdf/2401.09047.pdf
代码地址:https://github.com/AILab-CVC/VideoCrafter
demo地址:VideoCrafter Demo – a Hugging Face Space by VideoCrafter
一、VideoCrafter2的提出背景
VideoCrafter2的提出背景主要是为了解决在视频生成领域中的一个关键挑战:如何在缺乏高质量视频数据集的情况下训练出能够生成高质量视频的模型。现有的商业视频模型能够生成高质量的视频,但它们依赖于大规模、经过精心筛选的高质量视频数据集,这些数据集对于学术界和普通研究者来说是不可达的。此外,收集和处理如此大量的高质量视频数据以遵守版权限制和后处理要求是非常具有挑战性的。
在这种背景下,VideoCrafter2的目标是探索一种训练方案,即使在只有低质量视频和高质量图像数据可用的情况下,也能够训练出能够生成高质量视频的模型。这种方法的核心在于解耦视频数据中的外观(视觉质量)和运动信息,通过使用低质量视频来保证运动的一致性,同时利用高质量图像来提升画面质量和概念组合能力。这样,即使在数据受限的情况下,也能够训练出具有高视觉质量和良好运动表现的视频生成模型。
二、VideoCrafter2的主要技术框架和技术细节
1、空间-时间模块连接分析:
分析了视频模型中空间(外观)和时间(运动)模块之间的连接以及它们在低质量视频分布上的转移。
观察到完全训练所有模块(空间和时间)会导致空间和时间模块之间的更强耦合,这比仅训练时间模块更强。
2、数据层面的解耦:
提出了一种方法,通过在数据层面上解耦运动和外观,即使用低质量视频来保证运动的一致性,同时使用高质量图像来确保画面质量和概念组合能力。
3、训练流程设计:
设计了一个有效的训练流程,首先完全训练一个视频模型(使用低质量视频),然后使用合成的高质量图像来微调空间模块。
4、微调策略:
发现仅微调空间模块(直接微调)是提高画面质量而不显著损失运动质量的最佳方式。
5、概念组合能力的提高:
提出了使用合成图像与复杂概念来微调模型,而不是使用真实图像,以提高概念组合能力。
使用了JDB(Journey Database)和LAION-aesthetics V2等数据集来微调模型。
三、VideoCrafter2的具体评估结果
1、定量评估:
在文本-视频对齐方面,VideoCrafter2的性能排名第二,显示出良好的文本和视频内容的一致性。
在运动质量方面,VideoCrafter2的表现超过了Show-1,但略逊于使用更多视频数据进行训练的模型,这表明该方法能够在不显著降低运动质量的情况下提升视觉质量。
2、定性评估:
进行了用户研究,邀请了视频制作专家对不同模型生成的视频进行比较,根据视觉质量、运动质量和文本-视频对齐等标准选择他们更喜欢的视频。
四、VideoCrafter2与现有技术的比较
VideoCrafter2与几个最先进的文本到视频(T2V)模型进行了比较,包括商业模型(如Gen-2和Pika Labs)以及开源模型(如Show-1、VideoCrafter1和AnimateDiff)。
与使用高质量视频进行训练的模型(如Gen-2和Pika Labs)相比,VideoCrafter2在视觉质量上表现相当,但在运动质量上有所不足,因为这些模型使用了更大量的视频数据来学习运动。
与使用WebVid-10M视频进行训练的模型(如AnimateDiff和Show-1)相比,VideoCrafter2在运动质量上表现更好,尽管AnimateDiff在视觉质量上有所提升,但在通用场景中会出现运动退化。
© 版权声明
THE END