新闻中心

一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了

2025-02-15
浏览次数:
返回列表

2025年被誉为智能体爆发元年,ai应用将迎来井喷式增长。然而,除了备受瞩目的智能体领域,另一个ai分支——空间智能(spatial intelligence)——也可能迎来其“chatgpt时刻”。

今年春节,动画电影《哪吒2》的爆火,不仅刷新了中国影史票房纪录,更在全球票房榜单上屡创新高。影片中令人叹为观止的3D特效,例如山河社稷图、石矶娘娘的石头山变身以及最终的仙魔大战,都展现了3D动画技术的巨大进步。而空间智能这项新兴技术,有望将3D动画的质量和观众的沉浸式体验提升到一个全新的高度。“AI教母”李飞飞对其寄予厚望并进行了投资。她认为,空间智能对于AI理解世界和与世界互动至关重要,如同语言对于AI一样基础,将成为AI发展的新方向。去年12月,李飞飞团队World Labs的首个产品已展示了其单图生成3D世界的惊艳效果。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

然而,要让AI真正理解和操控3D空间,仍面临诸多挑战:高质量3D数据匮乏、生成的3D场景细节不足或存在瑕疵、多视角一致性难以保证,以及处理复杂场景时计算量巨大等。

国内一家专注于AGI和AIGC的大模型厂商——昆仑万维——率先在空间智能领域取得突破性进展。2月14日,昆仑万维正式发布了Matrix-Zero世界模型,标志着其在空间智能探索中的关键一步。Matrix-Zero包含3D场景生成大模型和可交互视频大模型,能够将图片转化为可自由探索的3D场景,并生成可交互视频,堪称功能强大的3D物理世界和视频生成器。

图片

昆仑万维成为国内首家同时推出3D场景生成和可交互视频生成模型的空间智能企业,Matrix-Zero预计将于4月份正式上线。

突破二维平面:3D虚拟世界的全新体验

将单张图片转化为符合物理几何规则的3D世界,是空间智能领域的关键技术突破。AI需要具备感知、理解和交互能力,才能像人类一样在三维空间中自由导航、操作和创造。从李飞飞World Labs的3D世界产品到谷歌DeepMind的Genie 2,空间智能正不断进化,从内容生成走向世界构建,这需要AI不仅理解像素,更要解析空间坐标、几何关系和物理规律,从而实现逼真的立体感和空间深度。

昆仑万维的Matrix-Zero正是朝着这一目标迈进,其领先的技术方案在3D世界生成领域展现出诸多优势。

一图一世界:AI让3D世界触手可及

Matrix-Zero采用与World Labs不同的技术路线,实现了更真实、更可自由探索的3D场景生成效果。它支持不同风格的图片输入(例如写实风和卡通风),并能保持与原图风格的一致性。

图片图片

Matrix-Zero还具备风格转换能力,可在生成3D场景时将原图风格切换成其他风格,例如将房屋变成红瓦白墙。

图片

此外,Matrix-Zero生成的3D场景具有高度的全局一致性,解决了单视角图片生成大范围3D场景时前后不一致的问题。它利用空间扩散模型和可微渲染技术,不断细化细节,构建完整一致的3D世界。

Reachout.ai Reachout.ai

一个AI驱动的视频开发平台,专为忙碌的企业家和销售团队打造

Reachout.ai 142 查看详情 Reachout.ai

图片图片

Matrix-Zero的最大亮点在于支持大范围、长距离的自由探索。用户可以自由移动视角,进行360度环视、俯视,以及更复杂的复合移动。

图片图片

Matrix-Zero生成的3D场景还可以加入动态物体,并模拟水流、光照、云雾等符合物理规律的动态效果。

图片图片

Matrix-Zero在3D场景生成和自由探索方面的优势,使其在空间智能领域具备与国际竞品匹敌甚至超越的实力。

可交互视频:增强用户参与度

Matrix-Zero的另一个子模型——可交互视频生成模型——更注重实时交互和大范围场景。它具有强大的泛化能力,能高效生成高质量、流畅一致的视频,并增强了视频内容的可操作性,用户可以自由调整视角、操控场景元素,并实时影响视频内容。

图片图片

Matrix-Zero的技术架构

Matrix-Zero的进步源于昆仑万维在3D场景生成、基础视频生成模型和用户输入交互模型上的全方位升级。3D场景生成大模型包含场景布局生成模块和纹理生成模块,通过可微渲染、扩散模型和3D高斯泼溅技术,构建完整、合理、自然的3D世界。可交互视频生成则基于自研的生成式视频模型,结合用户输入交互模型,实现以用户输入为核心的空间智能视频生成。

结语

2025年是大语言模型快速发展的一年,空间智能也随之崛起。昆仑万维在AI各个发展阶段都展现出前瞻性,Matrix-Zero是其在空间智能领域的又一标志性成果,将进一步强化其多元AI业务矩阵,并为多模态大模型的应用开辟新的赛道。未来,空间智能将有无限可能,成为AGI发展的重要支柱。

以上就是一图一3D世界,视频还可交互,昆仑万维「空间智能」开年首秀来了的详细内容,更多请关注其它相关文章!


# 昆仑万维  # 哪吒  # 转化为  # 用户可以  # 高质量  # 时计  # 还可  # 网易  # 图一  # 开源  # 2025  # 2025年  # chatgpt  # ai  # 谷歌  # 产业  # 来了  # 山西律师网站推广平台  # 牡丹江外贸网站推广营销  # 北京seo 选择放心投  # 南宁网站建设的工具  # 建站如何设置seo  # WAP网站建设路拍照  # 绍兴网站建设方案费用  # 常德租房网站建设  # 宝山seo优化多难  # 镇海区网站推广营销 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 市盈率当中17A 18E是什么意思  如何在固态硬盘上安装win7系统  如何通过dos命令  typescript 如何使用  怎么用win7系统盘重装系统  自己如何加装固态硬盘  单片机怎么加死循环  nosql数据库的应用场景有哪些  如何体验苹果16系统  linux如何安装yum命令  单片机怎么进行排序操作  单片机for循环怎么用  光猫power和pon常亮是什么意思  苹果16有哪些不同  一年多少周  typescript如何使用viewer  怎么打印数组j*a  问一下市盈率是什么意思  市盈率中1stdv是什么意思  一尺是多少厘米  汽车中控导航机power线是什么意思  语音聊天软件哪个好 语音聊天软件2025排行榜  如何开发typescript  intel固态硬盘如何安装  市盈率底下 18A 19E 是什么意思  春运抢票哪个城市好抢  j*a数组怎么比较abc  typescript中范围如何设定  vue中datediff函数怎么用  360f4怎么取消百变壁纸  迅达热水器显示power是什么意思  vfp 命令窗口如何实现换行  夸克链信有什么用  js怎么设置typescript  复制 命令如何撤销  索尼type-c接口是什么  如何查看网站域名解析  如何为服务器配置静态路由?服务器配置静态路由详细教程  r中如何逐行执行命令  今天是农历多少号  put linux命令如何书写  tft单片机怎么写彩屏  虽千万人吾往矣什么意思  怎么用typescript 写js  苹果16讲解有哪些功能  每日推荐电声音乐软件有哪些  typescript有哪些版本  j*a中如何创建列表数组  solidworks打开igs文件看不见要怎么办解决方法  阿里云盘的会员怎么用 

搜索