新闻中心

生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」

2025-01-16
浏览次数:
返回列表

浙江大学和商汤科技的研究人员提出了一种名为stargen的新型时空自回归框架,用于实现可扩展且可控的场景生成。该框架巧妙地结合了空间和时间双重条件机制,将稀疏视图的3d几何信息与视频扩散模型有效融合,从而解决了复杂场景长距离生成中时空一致性难题,显著降低了误差累积。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

AIxiv专栏持续发布学术和技术前沿内容,至今已报道超过2000篇来自全球顶尖高校和企业实验室的论文,为学术交流与传播做出了重要贡献。欢迎投稿或联系我们报道您的优秀成果!投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

StarGen:一种基于时空自回归框架和视频扩散模型的可扩展可控场景生成方法

这项研究的核心在于StarGen框架,它能够生成多视图一致的长视频,并支持稀疏视图插值、图像到视频生成以及布局驱动的场景生成等多种任务。实验结果显示,StarGen在生成质量、一致性以及场景扩展能力方面均超越了现有方法。

图片

  • 论文标题:StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation
  • 论文地址:https://www.php.cn/link/a40cd62dd66ae54c8d86620474d4bdca
  • 项目主页:https://www.php.cn/link/8ef0d9f2c0327a0045e2e92a80cd9f8a

研究背景

近年来,3D重建和生成技术蓬勃发展,并呈现出融合互补的趋势。基于大规模模型的重建方法降低了对密集多视角数据的依赖,而生成模型则有效地用于补全稀疏视角下不可见区域。在生成领域,3D重建技术为2D生成模型向3D生成任务的迁移提供了关键支撑,主要通过两种途径:将2D概率分布蒸馏为3D表示,或基于2D生成图像重建3D表示。

然而,这些大规模模型面临一个共同挑战:有限的计算资源限制了单次推理所能处理的Token数量。虽然时间自回归方法通过关联当前和前一视频片段来生成长视频,但这种方法在较长时间跨度内难以保持时空一致性,误差累积问题会严重影响空间一致性。

相关工作

现有新视角生成方法主要分为三类:重建模型、生成模型以及两者结合的混合方法。

  • 重建模型: 传统方法如NeRF和3D-GS生成高质量新视角,但依赖密集视角输入。基于前馈网络的方法如PixelNeRF和PixelSplat降低了对密集输入的需求,但缺乏生成能力,需要充分的图像覆盖才能获得完整的场景表达。

  • 生成模型: GAN在早期取得了成功,但在全局一致性方面存在不足。扩散模型结合ControlNet等技术可以生成高质量图像并实现精确控制,但在长距离、高质量且多视图一致的视频生成方面受到计算资源限制。

  • 混合方法: ViewCrafter等方法结合重建和生成,但点云作为空间约束会累积误差,且需要训练视频生成模型本身,限制了扩展性和通用性。

StarGen方法

图片 图 1. 系统框架

Perplexity Perplexity

Perplexity是一个ChatGPT和谷歌结合的超级工具,可以让你在浏览互联网时提出问题或获得即时摘要

Perplexity 302 查看详情 Perplexity

StarGen框架包含三个主要部分:时空自回归框架、时空条件视频生成和下游任务实现。

时空自回归框架: 采用滑动窗口方式逐步生成长距离场景,每个窗口的生成依赖于上一窗口的时间条件图像和空间相邻图像。时间条件确保时间连续性,空间条件保证多视图一致性。

图片 图 2. 时空条件视频生成

时空条件视频生成: 利用大型重建模型(LRM)和视频扩散模型(VDM)生成高质量可控视频。空间条件图像的3D几何信息通过多视几何渲染生成特征图,并压缩到VDM潜在空间。时间条件图像通过VAE编码为隐特征,与空间条件特征融合,最终输入VDM进行条件控制生成。

下游任务: StarGen支持稀疏视图插值、图生视频和基于布局的城市生成等任务。

损失函数

StarGen采用三种损失函数:深度损失、潜在损失和扩散损失,分别优化深度图精度、特征空间一致性和生成序列质量。

图片 图 3. 损失函数

实验结果

StarGen在稀疏视图插值、图生视频和基于布局的城市生成任务上均取得了显著成果,在各项指标上优于现有方法。具体结果见论文中的表格和图像。(此处省略论文中的表格和gif图,因为无法直接复制粘贴并保持格式)

消融实验

消融实验验证了空间和时间条件对生成质量和一致性的重要贡献。

总而言之,StarGen框架为可扩展可控的场景生成提供了一种有效方案,在长距离视频生成中取得了突破性进展。

以上就是生成越长越跑偏?浙大商汤新作StarGen让场景视频生成告别「短片魔咒」的详细内容,更多请关注其它相关文章!


# 长距离场景生成  # stargen  # git  # ai  # 工程  # 集团网站建设工作文案  # 线上推广平台招聘网站  # 书籍营销推广策划书  # 网站建设需要哪些工具  # 网站内容优化要求  # 文昌抖音自媒体推广营销  # 驻马店企业网站推广团队  # 北京seo答辩  # 大连庄河英文网站建设  # 淮安网站建设正规公司  # 如何应对  # 越长  # 开源  # 你该  # 降低了  # 句话  # 插值  # 但在  # 高质量  # 神技  # controlnet  # lsp  # 邮箱 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: docs命令如何进入d  一天多少分钟  市盈率300是什么意思  如何在命令行执行存储过程  春运抢票在哪儿抢票  如何操作fixup命令  电瓶车屏幕上显示power是什么意思  为什么夸克无法注销账户  如何提高固态硬盘速度  固态硬盘如何迁移系统  win10如何打开dos命令窗口大小  怎么关360壁纸广告  笔记本电脑多少钱  课程伴侣登不上怎么办  vi命令如何退出  play的三人称单数和过去式  苹果的type-c接口是什么  如何设置sql命令  8800日元等于多少人民币  得物怎样降低手续费 得物如何降低手续费教程  360f4怎么取消百变壁纸  j*a怎么让数组倒换  openwrt有什么用  手机如何运行ping命令  如果公司ttm市盈率为负数是什么意思  arp命令如何使用  为什么进行域名解析  光猫power和pon常亮是什么意思  unix时间戳转换公式  春运抢票哪个平台好抢  typescript用在哪里  什么是unix时间戳  如何通过命令行聊天  命令行如何运行j*a  苹果手机16系统有哪些  春运抢票还用取票吗  春运抢票最多能抢几趟车  市盈率ttm写的亏损是什么意思  faq是什么意思  热水器没热水显示power是什么意思  win7如何打开命令行窗口  估值水平比较中市盈率E是什么意思  如何修改域名解析  如何在一串数字前面去掉四位数的命令  破太岁是什么意思  win7怎么做幻灯片  怎么在typescript定义集合  阿里云盘修复工具怎么用  soup是什么意思  光刻机的分类及其优缺点 

搜索