新闻中心

MineWorld— 微软研究院开源的实时交互式世界模型

2025-04-20
浏览次数:
返回列表

mineworld是由微软研究院开源的一个基于《我的世界》(minecraft)的实时交互式世界模型。它利用视觉-动作自回归transformer架构,将游戏场景和动作转化为离散的token id,通过预测下一个token进行训练。模型采用了并行解码算法,实现了每秒4至7帧的生成速度,支持实时互动。mineworld在视频质量、可控性和推理速度方面都优于现有模型,如oasis。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

MineWorld— 微软研究院开源的实时交互式世界模型

MineWorld的主要功能包括:

  • 高生成质量:通过视觉-动作自回归Transformer,MineWorld能够根据视觉和动作生成连贯且高保真的游戏帧。
  • 强可控性:模型在动作跟随能力的基准测试中表现出色,能够精确且一致地根据输入动作生成游戏场景。
  • 快速推理速度:利用并行解码算法,模型能够以每秒4至7帧的速度生成图像,支持实时互动。
  • 作为游戏代理:在训练过程中,MineWorld同时预测游戏状态和动作,可以作为独立的游戏代理进行自主游戏。
  • 实时交互能力:用户可以通过Web演示或本地运行与模型进行实时互动,选择初始帧、控制相机移动并执行游戏动作。

MineWorld的技术原理如下:

Whimsical Whimsical

Whimsical推出的AI思维导图工具

Whimsical 182 查看详情 Whimsical
  • 视觉-动作自回归Transformer:MineWorld通过将游戏场景和玩家动作转化为离散的token序列,实现视觉和动作的联合建模。具体包括:
    • 图像标记器(Visual Tokenizer):采用VQ-VAE架构,将游戏场景分割为离散的视觉标记。标记器从预训练的检查点开始,在Minecraft数据集上进行微调,以实现高质量的图像重建。
    • 动作标记器(Action Tokenizer):将玩家的连续动作(如鼠标移动)量化为离散的标记,将离散动作(如前进、攻击)归类为不同的类别,每个类别由唯一的标记表示。
    • Transformer解码器:采用LLaMA架构,接收交错拼接的视觉标记和动作标记序列作为输入,通过下一个标记预测进行训练。解码器能够同时学习游戏状态的丰富表示以及状态和动作之间的条件关系。
  • 并行解码算法:为了实现实时交互,MineWorld开发了一种并行解码算法。算法利用相邻图像标记之间的空间依赖性,同时预测每帧中的空间冗余标记。与传统的自回归解码算法相比,显著提升了生成速度,使模型能够在不同规模下达到每秒4至7帧的生成速度。
  • 训练:模型通过下一个标记预测进行训练,学习游戏状态之间的动态演变规律以及动作与状态之间的关联。
  • 推理:在推理阶段,模型根据输入的当前游戏状态和动作,生成后续的游戏场景。并行解码算法的应用使得模型能够快速生成高质量的游戏帧。
  • 评估指标:MineWorld提出了新的评估指标,用于评估生成场景的视觉质量和动作跟随能力。例如,通过比较生成场景中预测的动作与输入的真实动作之间的准确性,来量化模型的可控性。

MineWorld的项目地址包括:

  • Github仓库:https://www.php.cn/link/299bb6d67f1bf42897291cc8f4aa3a95
  • HuggingFace模型库:https://www.php.cn/link/c55da58933dadf65138cee2fe9a4169e
  • arXiv技术论文:https://www.php.cn/link/fd7b27cb8f482d541add663d421a0b5d

MineWorld的应用场景包括:

  • 具身智能研究:MineWorld提供了一个高保真、可交互的虚拟环境,适合用于具身智能的研究。研究人员可以用模型训练智能体,学习在虚拟环境中执行任务,如物体定位导航和环境探索。
  • 强化学习训练:MineWorld的实时交互能力和高生成质量使其成为强化学习训练的理想平台。研究人员可以用模型快速生成大量的训练数据,帮助智能体在模拟环境中学习最优策略。
  • 游戏代理开发:由于MineWorld在训练过程中同时预测游戏状态和动作,具备作为游戏代理的潜力。给定初始游戏状态和动作,模型可以迭代生成未来的状态和动作,模拟长期的游戏过程。
  • 实时交互式模拟:MineWorld的快速推理速度(每秒4至7帧)能支持与游戏玩家的实时交互。
  • 视频生成与编辑:MineWorld能够生成高质量、连贯一致的游戏视频,可用于视频内容创作,例如生成游戏预告片和教学视频。

以上就是MineWorld— 微软研究院开源的实时交互式世界模型的详细内容,更多请关注其它相关文章!


# 安装包  # 怎样开通淘宝店铺网站推广  # 大连seo整站  # 海南seo优化哪里不错  # 营销推广的方案包括  # 商品推广单页网站源码  # 眉山银川网站推广  # 拼多多农产品营销推广方案  # 重庆綦江网站优化费用  # 崇明区推广网站价格对比  # 吉林seo排名怎样收费  # 鼠标  # git  # 过程中  # 一键  # 转化为  # 可以用  # 高质量  # 开源  # 互动  # 微软  # oasis  # llama  # 我的世界 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: shell如何注释所有命令  如何用命令查看数据库日志文件  夸克缺什么登录不了  点焊机接触器上power是什么意思  单身交友必备软件  如何安装大华固态硬盘  焊机上power灯闪是什么意思  win10windows资源管理器在哪里打开  三星 nfc什么功能是什么意思  夸克搜题的原理是什么  春运哪天抢票最好预约  夸克网盘为什么解析错误  多少毫安的充电宝可以带上飞机  苹果16主打颜色有哪些  如何提高固态硬盘性能  wps中datediff函数怎么用 WPS中DATEDIFF函数的语法和用法分享  网络光刻机是干什么用的  老电脑如何装固态硬盘  如何加装固态硬盘  怎么下载360桌面壁纸  苹果16哪些功能好用  双十一的哪一天最优惠呢  51单片机怎么连接端口  单片机log怎么看  如何选择启用固态硬盘  如何找出命令行  python如何命令行换行  win10如何开启命令行  春运抢票可以抢几次啊  笔记本如何选择固态硬盘  如何区别固态硬盘  光刻机的分类及特点  ensp命令如何提示  typescript如何生成uuid  春运抢票失败怎么抢  如何在命令行写j*a程序  power在坐标轴中是什么意思  linux如何查看命令的参数  固态硬盘如何迁移系统  如果公司ttm市盈率为负数是什么意思  品道音响上的power键是什么意思  如何用chown命令  手机拍电脑屏幕有条纹怎么解决  迅达热水器显示power是什么意思  学typescript需要什么基础么  typescript中文怎么读  access 如何输入命令  域名批量查询工具有哪些  得物怎样降低手续费 得物如何降低手续费教程  win7怎么取消360显示的壁纸 

搜索