【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2

10个月前发布

5615

自动滑动公告栏

加入网站会员，享受全站课程免费观看

点击下载手机端apk

扫右侧二维码，关注我，加站长微信!

借用一位大咖的话说：“大厂们都在玩Video Diffusion版萝卜蹲，阿里蹲完字节蹲，字节蹲完腾讯蹲，腾讯蹲完百度蹲，……”

今天分享一个由腾讯人工智能实验室推出的视频生成工具，VideoCrafter2。

项目开源，由demo。

报告地址：https://arxiv.org/pdf/2401.09047.pdf

代码地址：https://github.com/AILab-CVC/VideoCrafter

demo地址：VideoCrafter Demo – a Hugging Face Space by VideoCrafter

一、VideoCrafter2的提出背景

图片[1]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

VideoCrafter2的提出背景主要是为了解决在视频生成领域中的一个关键挑战：如何在缺乏高质量视频数据集的情况下训练出能够生成高质量视频的模型。现有的商业视频模型能够生成高质量的视频，但它们依赖于大规模、经过精心筛选的高质量视频数据集，这些数据集对于学术界和普通研究者来说是不可达的。此外，收集和处理如此大量的高质量视频数据以遵守版权限制和后处理要求是非常具有挑战性的。

在这种背景下，VideoCrafter2的目标是探索一种训练方案，即使在只有低质量视频和高质量图像数据可用的情况下，也能够训练出能够生成高质量视频的模型。这种方法的核心在于解耦视频数据中的外观（视觉质量）和运动信息，通过使用低质量视频来保证运动的一致性，同时利用高质量图像来提升画面质量和概念组合能力。这样，即使在数据受限的情况下，也能够训练出具有高视觉质量和良好运动表现的视频生成模型。

图片[2]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

二、VideoCrafter2的主要技术框架和技术细节

图片[3]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

1、空间-时间模块连接分析：

分析了视频模型中空间（外观）和时间（运动）模块之间的连接以及它们在低质量视频分布上的转移。

观察到完全训练所有模块（空间和时间）会导致空间和时间模块之间的更强耦合，这比仅训练时间模块更强。

2、数据层面的解耦：

提出了一种方法，通过在数据层面上解耦运动和外观，即使用低质量视频来保证运动的一致性，同时使用高质量图像来确保画面质量和概念组合能力。

3、训练流程设计：

设计了一个有效的训练流程，首先完全训练一个视频模型（使用低质量视频），然后使用合成的高质量图像来微调空间模块。

4、微调策略：

探索了不同的微调策略，包括直接微调空间和时间模块，以及使用LORA（Low-Rank Adaptation）方法。

发现仅微调空间模块（直接微调）是提高画面质量而不显著损失运动质量的最佳方式。

5、概念组合能力的提高：

提出了使用合成图像与复杂概念来微调模型，而不是使用真实图像，以提高概念组合能力。

使用了JDB（Journey Database）和LAION-aesthetics V2等数据集来微调模型。

图片[4]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

三、VideoCrafter2的具体评估结果

图片[5]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

1、定量评估：

使用了EvalCrafter基准进行评估，这是一个包含约18个客观指标的基准，用于评估文本到视频生成模型的视觉质量、内容质量、运动质量和文本-视频对齐等方面。

定量结果表明，VideoCrafter2在视觉质量方面与使用高质量视频进行训练的VideoCrafter1和Pika Labs相当，这证明了使用高质量图像来提升画面质量的有效性。

在文本-视频对齐方面，VideoCrafter2的性能排名第二，显示出良好的文本和视频内容的一致性。

在运动质量方面，VideoCrafter2的表现超过了Show-1，但略逊于使用更多视频数据进行训练的模型，这表明该方法能够在不显著降低运动质量的情况下提升视觉质量。

2、定性评估：

进行了用户研究，邀请了视频制作专家对不同模型生成的视频进行比较，根据视觉质量、运动质量和文本-视频对齐等标准选择他们更喜欢的视频。

用户研究结果显示，VideoCrafter2在视觉质量上优于AnimateDiff和Show-1，并且在运动质量上更受欢迎，尤其是在运动闪烁和前景/背景闪烁方面。

图片[6]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

四、VideoCrafter2与现有技术的比较

图片[7]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

VideoCrafter2与几个最先进的文本到视频（T2V）模型进行了比较，包括商业模型（如Gen-2和Pika Labs）以及开源模型（如Show-1、VideoCrafter1和AnimateDiff）。

与使用高质量视频进行训练的模型（如Gen-2和Pika Labs）相比，VideoCrafter2在视觉质量上表现相当，但在运动质量上有所不足，因为这些模型使用了更大量的视频数据来学习运动。

与使用WebVid-10M视频进行训练的模型（如AnimateDiff和Show-1）相比，VideoCrafter2在运动质量上表现更好，尽管AnimateDiff在视觉质量上有所提升，但在通用场景中会出现运动退化。

图片[8]-【AI 视频工具】继阿里和字节之后，腾讯也推出了视频生成工具，VideoCrafter2-就爱副业网 — 添加图片注释，不超过 140 字（可选）

手机版 点击左上侧三条杠开通会员或者点右侧皇冠开通！ 网页版 右上方开通会员，或者点右侧皇冠开通！不会点这里看教程

© 版权声明

THE END

本站资源来自会员发布以及互联网收集,不代表本站立场,仅限学习交流使用,请遵循相关法律法规,请在下载后24小时内删除.如有侵权争议、不妥之处请联系本站删除处理！请用户仔细辨认内容的真实性，避免上当受骗!

相关推荐