新闻中心

MotionClone:无需训练,一键克隆视频运动

2024-07-15
浏览次数:
返回列表
MotionClone:无需训练,一键克隆视频运动
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

无需训练或微调,在提示词指定的新场景中克隆参考视频的运动,无论是全局的相机运动还是局部的肢体运动都可以一键搞定。motionclone:无需训练,一键克隆视频运动

  • 论文:https://arxiv.org/abs/2406.05338

  • 主页:https://bujiazi.github.io/motionclone.github.io/

  • 代码:https://github.com/Bujiazi/MotionClone

本文提出了名为 MotionClone 的新框架,给定任意的参考视频,能够在不进行模型训练或微调的情况下提取对应的运动信息;这种运动信息可以直接和文本提示一起指导新视频的生成,实现具有定制化运动的文本生成视频 (text2video)。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MotionClone:无需训练,一键克隆视频运动

相较于先前的研究,MotionClone 具备如下的优点:

  • 无需训练或微调:先前的方法通常需要训练模型来编码运动线索或微调视频扩散模型来拟合特定运动模式。训练模型编码运动线索对于训练域之外的运动泛化能力较差,而微调已有的视频生成模型可能会损害基模型潜在的视频生成质量。MotionClone 无需引入任何额外的训练或微调,在提高运动泛化能力的同时最大程度保留了基座模型的生成质量。

  • 更高的运动质量:已有的开源文生视频模型很难生成大幅度的合理的运动,MotionClone 通过引入主成分时序注意力运动指导在大幅加强生成视频运动幅度的同时有效保障了运动的合理性。

  • 更好的空间位置关系:为了避免直接的运动克隆可能导致的空间语义错配,MotionClone 提出了基于交叉注意力掩码的空间语义信息指导来辅助空间语义信息和时空运动信息的正确耦合。

时序注意力模块中的运动信息

MotionClone:无需训练,一键克隆视频运动

在文本生视频工作中,时序注意力模块 (Temporal Attention) 被广泛用于建模视频的帧间相关性。由于时序注意力模块中的注意力分数 (attention map score) 表征了帧间的相关性,因此一个直观的想法是是否可以通过约束完全一致的注意力分数来复制的帧间联系从而实现运动克隆。

然而,实验发现直接复制完整的注意力图 (plain control) 只能实现非常粗糙的运动迁移,这是因为注意力中大多数权重对应的是噪声或者非常细微的运动信息,这些信息一方面难以和文本指定的新场景相结合,另一方面掩盖了潜在的有效的运动指导。

为了解决这一问题,MotionClone 引入了主成分时序注意力运动指导机制 (Primary temporal-attention guidance),仅利用时序注意力中的主要成分来对视频生成进行稀疏指导,从而过滤噪声和细微运动信息的负面影响,实现运动在文本指定的新场景下的有效克隆。

MotionClone:无需训练,一键克隆视频运动

空间语义修正

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

主成分时序注意力运动指导能够实现对参考视频的运动克隆,但是无法确保运动的主体和用户意图相一致,这会降低视频生成的质量,在某些情况下甚至会导致运动主体的错位。

为了解决上述问题,MotionClone 引入空间语义引导机制 (Location-aware semantic guidance),通过交叉注意力掩码(Cross Attention Mask)划分视频的前后背景区域,通过分别约束视频前后背景的语义信息来保障空间语义的合理布局,促进时序运动和空间语义的正确耦合。

MotionClone 实现细节

MotionClone:无需训练,一键克隆视频运动

  1. DDIM 反转:MotionClone 采用 DDIM Inversion 将输入的参考视频反转至 latent space 中,实现对参考视频的时序注意力主成分提取。

  2. 引导阶段:在每次去噪时,MotionClone 同时引入了主成分时序注意力运动指导和空间语义信息指导,它们协同运行,为可控视频生成提供全面的运动和语义引导。

  3. 高斯掩码:在空间语义引导机制中,采用高斯核函数对交叉注意力掩码进行模糊处理,消除潜在的结构信息影响。

D*IS 数据集中的 30 个视频被用于测试。实验结果表明 MotionClone 实现了在文本契合度、时序一致性以及多项用户调研指标上的显著提升,超越了以往的运动迁移方法,具体结果如下表所示。

MotionClone:无需训练,一键克隆视频运动

MotionClone 与已有运动迁移方法的生成结果对比如下图所示,可见 MotionClone 具有领先的性能。

MotionClone:无需训练,一键克隆视频运动

综上所述,MotionClone 是一种新的运动迁移框架,能够在无需训练或微调的情况下,有效地将参考视频中的运动克隆到用户给定提示词指定的新场景,为已有的文生视频模型提供了即插即用的运动定制化方案。

MotionClone 在保留已有基座模型的生成质量的基础上引入高效的主成分运动信息指导和空间语义引导,在保障和文本的语义对齐能力的同时显著提高了和参考视频的运动一致性,实现高质量的可控的视频生成。

此外,MotionClone 能够直接适配丰富的社区模型实现多样化的视频生成,具备极高的扩展性。

以上就是MotionClone:无需训练,一键克隆视频运动的详细内容,更多请关注其它相关文章!


# git  # 百家百词全网营销推广  # 五大  # 情况下  # 提出了  # 已有  # 都能  # 基座  # 掩码  # 华纳  # 南极  # 一键  # type  # 产业  # 秦皇岛网站建设供应  # 培训网站建设批发  # 广西网站推广诚信推荐  # 抖音seo优化自学  # 扬州律师网站推广公司  # 五一华人网站建设  # 深圳网站建设深  # 黔江网站优化公司  # 桐城网站建设咨询 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 考勤机power红灯是什么意思  苹果16有哪些可以设置  苹果16改进了哪些  typescript入门要多久  单片机怎么连接电路图  openwrt有什么用  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  萝卜快跑的收费标准是什么  启辰星power标志是什么意思  如何安装台式机固态硬盘  如何在命令行写j*a程序  typescript的语法格式是什么  爱奇艺会员qq登录可以几个人用?  什么是typescript  debian10和ubuntu20哪个好用  如何把u盘改成固态硬盘  grub命令如何进dos  typescript适合什么用  如何用命令连接mysql  typescript接口有什么用  课程伴侣登不上怎么办  春运什么时候开始抢票  怎么看手机是不是双模5g手机  如何以命令符运行程序  命令行如何运行c  硬盘和固态硬盘如何区分  跑分是什么意思  电脑5G怎么上传手机  固态硬盘电脑如何设置  交管12123协议头不完整怎么解决  j*a怎么存放数组中  oracle中datediff函数怎么用 Oracle中DATEDIFF函数详解  如何由js快速切换typescript  固态硬盘如何保存  显示器上power键是什么意思  反向春运抢票方式  面包车收音机power是什么意思  单片机for循环怎么用  33000日元等于多少人民币  如何判断固态硬盘端口  光刻机的分类及其优缺点  苹果16哪些型号好用  苹果16新增哪些功能  苹果的type-c接口是什么  j*a数组怎么放字符  bugly是什么  j*a数组怎么存满  什么软件能下载夸克视频  5G手机导航怎么旋转  typescript的文件如何执行 

搜索