新闻中心

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

2023-09-18
浏览次数:
返回列表

(映维网Nweon 2025年09月18日)为了准确地表示人类用户的真实世界姿态,通常需要相对详细的关于用户身体部位位置和方向的信息,但这些信息并不总是可用。例如,当使用头戴式设备提供虚拟现实体验时,系统可能只能获取与用户头部和手部相关的空间信息。然而,在大多数情况下,这是不足以准确地重现人类用户的真实姿态的

所以在名为“Pose prediction for articulated object”的专利申请中,微软提出了一种预测铰接对象的姿态的技术。特别地,机器学习模型接收到铰接对象的n个不同关节的空间信息,其中n个关节小于铰接对象的所有关节。

在人类用户的情况下,n个关节可以包括人类用户的头部关节和/或一个或两个手腕关节,它们与详细说明用户头部和/或手的参数的空间信息相关联

机器学习模型已训练为接收铰接对象的n+m个关节的输入空间信息,其中m大于等于1。例如,在初始训练期间,机器学习模型会接收到与铰接对象的几乎所有关节相对应的输入数据。所述n+m个关节可包括所铰接对象的每一个关节。

在其他示例中,可能存在少于铰接对象的所有关节的情况下,有n+m个关节。在训练过程中,输入给机器学习模型的数据可能会逐渐被隐藏。可以用预定义的值来替换特定节点在m个节点中对应的输入数据,或者干脆省略

换句话说,机器学习模型训练成基于关于铰接对象的各种可移动部分的位置/方向的逐渐减少的信息来准确预测铰接对象的姿态。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

使用这种方法,机器学习模型能够在运行时准确预测铰接物体的姿态,而且只需稀疏的输入数据。微软指出,这项技术可以精确地再现人类用户铰接物体在真实世界中的姿态,而无需大量关于每个关节方向的信息

换句话说,通过更准确地再现人类用户的真实世界姿势,发明可以提供改进人机交互的技术优势。这些技术优势包括提高虚拟现实体验的沉浸感,以及提高手势识别系统的准确性

另外,所述技术可以通过减少必须作为姿态预测过程的输入而收集的数据量,从而在准确地重现人类用户的真实姿态的同时减少计算资源的消耗。

示例方法200展示了用于预测铰接对象姿态的图2

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

在第202处,接收n个关节的空间信息,这些关节是用于铰接对象的。系统接收到铰接对象的n个关节的空间信息,其中包含的关节数量少于铰接对象的所有关节。将关节的空间信息表示为连接身体部分的六个自由度的位置和方向,这可以用来推断关节的状态

作为一个示例,所述n个关节可包括人体的头部关节,所述头部关节的空间信息可详细描述人体头部的参数。另外,所述n个关节可包括人体的一个或多个腕关节,所述一个或多个腕关节的空间信息可详细描述人体的一只或多只手的参数。

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

图3显示了人类用户。人类用户有一个头300和两只手302A和302B。计算系统可以接收人类用户的一个或多个关节的空间信息,其可以包括头部和/或手腕关节。

所述铰接对象的n个关节的空间信息可由一个或多个传感器输出的定位数据导出。传感器可以集成到一个或多个由人类用户的相应身体部位持有或佩戴的设备之中。

例如,传感器可以包括一个或多个集成到头戴式显示设备和/或手持控制器中的惯性测量单元。作为另一个例子,传感器可以包括一个或多个摄像头。

图3示意性地说明了不同类型的传感器,其中来自传感器的输出可以包括或可用于导出空间信息。具体地,人类用户在其头部300佩戴头戴式显示设备304。

另外,人类用户手持位置传感器306A和306B,所述位置传感器可配置为检测并向头显 304和/或配置为接收空间信息的另一计算系统报告用户手部的运动。

在图2中,我们回到了204的情境。我们将n个关节的空间信息传递给之前进行过训练的机器学习模型。这个模型接收n+m个关节的空间信息作为输入,其中m的值大于等于1。换句话说,相较于之前的训练模型,这个机器学习模型接收的关节空间信息要少一些

在206中,从机器学习模型接收作为输出的关节对象的姿态预测,所述预测至少基于n个关节的空间信息,并且不包含它们的关节的空间信息。换句话说,即便没有提供m个关节的空间信息,机器学习模型都可以预测关节对象的完整姿态。

示意图4展示了一个示例机器学习模型400,以说明这个过程

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

在图4中,机器学习模型接收到空间信息402,对应三个不同的关节J1、J2、J3。关节的空间信息可以采用任何合适的计算机数据的形式,而所述数据指定或可用于导出与关节相连的身体部位的位置和/或方向。

例如,空间信息可以直接指定身体部位的位置和方向,和/或空间信息可以指定关节相对于一个或多个旋转轴的一个或多个旋转。在图4中,关节J1、J2、J3对应于人类用户的头部关节404A和两个手腕关节404B/404C,如图用户身体上叠加的阴影圆圈所示。

在本例中,n个关节包括三个关节,分别对应人体的头部和手腕关节。基于所述输入空间信息402,所述机器学习模型输出所述铰接对象的预测位姿406。

另外,机器学习模型可以输出与虚拟铰接表示的关节相对应的预测空间信息。人类用户可以由具有卡通或非人类比例的虚拟化身Avatar表示。例如,预测的空间信息可能对应于SMPL表示的关节。

换句话说,铰接表示的虚拟表示的关节不必与铰接对象的关节具有1:1的对应关系。因此,机器学习模型预测的空间信息输出可以是针对与铰接对象的n+m个关节不直接对应的关节。例如,虚拟表示可能比铰接对象具有更少的脊柱关节。

机器学习模型可以用任何合适的方式进行训练。在一个实施例中,机器学习模型可能先前使用具有铰接对象的ground truth标签的训练输入数据进行训练。

换句话说,可以为机器学习模型提供铰接对象关节的训练空间信息,并标记为指定空间信息所对应的铰接对象的实际姿态的ground truth标签。

如上所述,可以训练机器学习模型以接收n+m个关节的空间信息作为输入。这包括,在第一次训练迭代中,为机器学习模型提供所有n+m个关节的训练输入数据。在随后的一系列训练迭代中,m个关节的训练输入数据可以逐渐被屏蔽。

例如,在第二次训练迭代中,m个关节中的第一个关节可以被屏蔽,其中训练数据集中关节的空间信息替换为表示被屏蔽关节的预定义值,或者干脆省略。

作为示例。在第三次训练迭代中,m个关节中的第二个关节可以被屏蔽,以此类推,直到m个关节都被屏蔽,并且只向机器学习模型提供了n个关节的空间信息。

这一过程用图5a-5d说明。具体而言,在图5A中,为机器学习模型400提供了一个训练输入数据集。在本实施例中,训练输入数据包括与所述铰接对象的多个不同姿态相对应的空间信息,包括第一姿态502A和第二姿态502B。

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

在图5A中,我们提供了n+m个关节的空间信息,用于机器学习模型的铰接对象。在人体的简化表示中,每个代表关节的圆圈都用白色填充模式来表示。然而,在图5B中,我们屏蔽了504A,如图所示,用黑色填充图案来表示接头504A的圆圈

换句话说,图5A表示了训练过程的初始迭代,其中提供了所有n+m个关节的空间信息给机器学习模型。而图5B则表示了训练过程的第二次迭代,其中屏蔽了m个关节中的第一个关节504A

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

在图5C中,所述铰接表示的m个关节中的第二关节504B被遮挡。同样,在图5D中,m个关节中的第三个关节被遮挡。可以持续进行多次训练迭代,直到m个关节中的每个关节的空间信息被屏蔽,并且只向机器学习模型提供n个关节的空间信息。

在上述场景中,我们描述了铰接对象为人体全身的情况。然而,铰接对象也可以采用其他形式

微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利

如图7所示,铰接对象是人手,而不是整个人体。具体而言,图7显示了一个示例机器学习模型700。

机器学习模型700接收关节J1、J2和J3的空间信息,它们对应于一个铰接物体的三个关节704A-C,在本例中采用人手706的形式。

在这种情况下,具体来说,n个关节包括人手的一个或多个手指关节。一个或多个手指关节的空间信息详细描述了人手的一个或多个手指或手指段的参数。例如,空间信息可以指定手的手指的位置/方向,和/或应用于手关节的旋转

可以使用任何合适的方法来收集关节空间信息,例如通过位置传感器708。举个例子,位置传感器可以采用配置为对手部进行成像的摄像头形式。另一个例子是,位置传感器可以包括适当的射频天线,其配置为将手部表面暴露在电磁场中,并评估导电人体皮肤的运动和接近对天线处电磁场阻抗的影响

根据输入的空间信息702,机器学习模型会输出一组预测的空间信息710。空间信息710可以用来构建预测的铰接对象的位姿。正如前面所述,这些空间信息可以表示铰接对象身体部位的位置和方向

相关专利:Microsoft Patent | Pose prediction for articulated object

微软最初在2025年6月提交了一份名为“Pose prediction for articulated object”的专利申请,并且该申请近日被美国专利商标局公布

以上就是微软提出预测铰接对象姿态技术,用于AR/VR身体姿态捕捉的专利的详细内容,更多请关注其它相关文章!


# 微软专利  # AR/VR  # 相对应  # 手部  # 被屏蔽  # 互动  # 迭代  # 微软  # 所述  # 多个  # 身体姿态捕捉  # 绍兴专业seo排名  # 拉萨高端网站建设  # 专业单页网站建设  # 丹东网站推广微歆hfqjwl下拉  # 苏州推荐网站建设公司  # 安康微信营销推广公司  # 丹东seo服务如何引流  # 品牌推广和市场营销  # 社群营销推广面试题  # 关键词覆盖排名  # 可以用  # 第一个 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 春运抢票软件哪个最好用  壁挂炉power常亮是什么意思  为什么夸克没有动漫  哪些库是typescript  typescript怎么添加css样式  市盈率20a21e是什么意思  交管12123协议头是什么  夸克绑定设备是什么意思  迅达热水器显示power是什么意思  市盈率负值是什么意思  typescript学会要多久  手机换电池要多少钱  ao3镜像网站永久地址入口  自己如何安装固态硬盘  pp是什么意思  j*a map数组怎么用  小屏折叠屏手机有哪些  手机拍电脑屏幕有条纹怎么解决  智能锁type-c接口是什么  gs是什么意思  typescript和node学哪个  直接gmV是什么意思?直接GMV:定义和概念  vi命令如何使用方法  如何在命令提示符播放音频  ready是什么意思  360n5锁屏壁纸怎么设置  苹果16系统有哪些缺陷  如何把u盘改成固态硬盘  element ui的好处  市盈率中的19a是什么意思  J*a数组静态怎么打  tft单片机怎么写彩屏  跨境电商gmv是什么意思?跨境电商GMV:理解其含义、计算方法和影响因素  如何使用批处理命令编译vc程序  苹果16颜色有哪些  如何用chown命令  怎么在typescript写原型链  夸克内测有什么好处  点焊机接触器上power是什么意思  shell如何执行sql脚本命令行  电焊机power和oc是什么意思  内在市盈率是什么意思  个人征信不好如何恢复 个人征信不良的全面修复指南  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  typescript怎么解析vue TypeScript在vue中的使用最新解读  春运抢票最新技巧与方法  折叠屏手机为什么有黑点  爱奇艺vip会员可以同时几个人用?  sausage是什么意思  单片机显存怎么设置最佳 

搜索