新闻中心

谷歌发布“Vlogger”模型:单张图片生成10秒视频

2024-03-20
浏览次数:
返回列表

谷歌发布了一个新的视频框架:

只需要一张你的头像、一段讲话录音,就能得到一个本人栩栩如生的演讲视频

视频时长可变,目前看到的示例最高为10s。

可以看到,无论是口型还是面部表情,它都非常自然。

如果输入图像囊括整个上半身,它也能配合丰富的手势

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

谷歌发布“Vlogger”模型:单张图片生成10秒视频

网友看完就表示:

有了它,以后咱开线上视频会议再也不需要整理好发型、穿好衣服再去了。

嗯,拍一张肖像,录好演讲音频就可以(手动狗头)

谷歌发布“Vlogger”模型:单张图片生成10秒视频

用声音控制肖像生成视频

这个框架名叫VLOGGER

它主要基于扩散模型,并包含两部分:

一个是随机的人体到3D运动(human-to-3d-motion)扩散模型。

另一个是用于增强文本到图像模型的新扩散架构。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

其中,前者负责将音频波形作为输入,生|成人|物的身体控制动作,包括眼神、表情和手势、身体整体姿势等等。

后者则是一个时间维度的图像到图像模型,用于扩展大型图像扩散模型,使用刚刚预测的动作来生成相应的帧。

为了使结果符合特定的人物形象,VLOGGER还将参数图像的pose图作为输入。

VLOGGER的训练是在一个超大的数据集(名叫MENTOR)上完成的。

有多大?全长2200小时,共包含80万个人物视频

其中,测试集的视频时长也有120小时长,共计4000个人物。

谷歌介绍,VLOGGER最突出的表现是具备多样性:

如下图所示,最后的像素图颜色越深(红)的部分,代表动作越丰富。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

而和业内此前的同类方法相比,VLOGGER最大的优势则体现在不需要对每个人进行训练、也不依赖于面部检测和裁剪,并且生成的视频很完整(既包括面部和唇部,也包括肢体动作)等等。

刺鸟创客 刺鸟创客

一款专业高效稳定的AI内容创作平台

刺鸟创客 110 查看详情 刺鸟创客

谷歌发布“Vlogger”模型:单张图片生成10秒视频

具体来看,如下表所示:

Face Reenactment方法无法用音频和文本来控制此类视频生成。

Audio-to-motion倒是可以音频生成,方式也是将音频编码为3D人脸动作,不过它生成的效果不够逼真。

Lip sync可以处理不同主题的视频,但只能模拟嘴部动作。

对比起来,后面的两种方法SadTaker和Styletalk表现最接近谷歌VLOGGER,但也败在了不能进行身体控制上,并且也不能进一步编辑视频。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

说到视频编辑,如下图所示,VLOGGER模型的应用之一就是这个,它可以一键让人物闭嘴、闭眼、只闭左眼或者全程睁眼:

谷歌发布“Vlogger”模型:单张图片生成10秒视频

另一个应用则是视频翻译:

例如将原视频的英语讲话改成口型一致的西班牙语。

网友吐槽

最后,“老规矩”,谷歌没有发布模型,现在能看的只有更多效果还有论文。

嗯,吐槽也是不少的:

画质模型、口型抽风对不上、看起来还是很机器人等等。

因此,有人毫不犹豫打上差评:

这就是谷歌的水准吗?

谷歌发布“Vlogger”模型:单张图片生成10秒视频

有点对不起“VLOGGER”这个名字了。

谷歌发布“Vlogger”模型:单张图片生成10秒视频

——和OpenAI的Sora对比,网友的说法确实也不是没有道理。。

大家觉得呢?

更多效果:https://enriccorona.github.io/vlogger/

完整论文:https://enriccorona.github.io/vlogger/paper.pdf

以上就是谷歌发布“Vlogger”模型:单张图片生成10秒视频的详细内容,更多请关注其它相关文章!


# 训练  # 北京高级网站建设怎么样  # 延庆区好的市场营销推广  # 提升tb关键词排名  # 也不  # 西班牙语  # 参数设置  # 结构化  # 如下图  # 开源  # 则是  # 时长  # 所示  # sora  # udio  # 视频编辑  # 模型  # 漯河全网网站推广电话号  # 酒店推广有哪些网站  # 浙江省网站推广营销  # 帆布包推广营销计划  # 天津平原网站建设  # 兴山智能营销推广目的  # 菜鸟seo视频 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 单片机怎么控制闪烁技术  如何用adb命令停用系统软件  360n4怎么关闭锁屏壁纸  夸克是什么空间单位  爱奇艺会员qq登录可以几个人用?  苹果16有哪些系统  油电混动车仪表盘上的power是什么意思  市盈率回落是什么意思  make命令如何使用  硬件如何执行命令  typescript和node学哪个  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  春运哪天抢票最好  学typescript需要什么基础么  如何右键打开命令窗口  春运抢票可以抢几次票  单片机怎么做组合  科技型企业成长"十步法"  typescript多久能学会  linux环境中如何使用ping命令  put linux命令如何书写  春运抢票最好抢什么票啊  如何退出数据库命令行  固态硬盘如何测试好坏  typescript如何标记私有方法  eraser是什么意思  空调主板单片机怎么拆开  drawing是什么意思  如何激活固态硬盘  j*a map数组怎么取值  linux命令行如何使用中文输入法  苹果16系统有哪些改变  爱奇艺中下载的视频怎么在PPT中播放操作方法  显示器power接口是什么意思  台达plc只有power灯亮是什么意思  市盈率为负值是什么意思  j*a数组怎么保存类  power在录音笔上是什么意思  md5解密是什么意思  单片机是怎么计时的  如何判断固态硬盘  喇叭上POWER4欧是什么意思  春运抢票极速版怎么抢票  如何使用批处理命令编译vc程序  启辰星power标志是什么意思  165开头的是什么电话号码  typescript多久能学完  苹果16系统有哪些功能  苹果16改进了哪些  如何安装大华固态硬盘 

搜索