新闻中心

让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%

2024-04-02
浏览次数:
返回列表

撰稿丨诺亚   

出品 | 51CTO技术栈(微信号:blog51cto)       

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

总被用户吐槽“有点智障”的Siri有救了!

Siri自诞生以来就是智能语音助手领域的代表之一,但很长一段时间里,其表现并不尽人意。然而,苹果的人工智能团队最新发布的研究成果有望极大地改变现状。这些成果令人兴奋,同时也引发了对该领域未来的极大期待。

在相关的研究论文中,苹果的AI专家们描述了一个系统,其中Siri不仅可以识别图像中的内容,还能做更多的事情,变得更加智能、更实用。这个功能模型被称为ReALM,它是基于GPT 4.0的标准,具有比GPT 4.0更优秀的基准能力。这些专家们认为,他们开发的这个模型是用于实现自己研发的一个功能的,它可以让Siri更智能,更实用,更加适用于各种场景。

一、动机:解决不同实体的指代解析

据苹果的研究团队指出:“让对话助手能够理解上下文,包括相关的内容指向,非常关键。能让用户根据他们所看到的屏幕内容进行提问,是确保实现语音操作体验的重要一步。”

打个比方,在人机交互过程中,用户常常会在对话中提及屏幕上的某个元素或内容,例如指示语音助手拨打电话号码、导航至地图上的特定地点、打开特定应用程序或网页等。如果对话助手无法理解用户指令背后的实体指代,就无法准确地执行这些命令。

而且人类对话中普遍存在模糊指代的现象,为了实现自然的人机交互,以及在用户与语音助手进行关于屏幕内容查询时准确理解语境,指代解析能力至关重要。

苹果在论文中提到的名为ReALM(Reference Resolution As Language Modeling)的模型,其优势就在于,它能够同时考虑用户屏幕上的内容和正在进行的任务,利用大语言模型解决不同类型实体(包括对话实体和非对话实体)的指代解析问题。

尽管传统的文本模态不便于处理屏幕上显示的实体,但ReALM系统通过将指代解析转化为语言建模问题,并成功运用LLMs来处理屏幕上非对话实体的指代,极大地推动了这一目标的达成。如此一来,便有望达成高度智能、更加沉浸的用户体验。

二、重构:突破传统文本模态的限制

传统的文本模态不便于处理屏幕上显示的实体,是因为屏幕上的实体通常包含丰富的视觉信息和布局结构,例如图像、图标、按钮及它们之间的相对位置关系等,这些信息在纯粹的文本描述中难以完全表达。

ReALM系统针对这一挑战,创造性地提出了通过解析屏幕上的实体及其位置信息来重建屏幕,并生成一种纯文本表示,这种文本能可视化地反映屏幕内容。

实体部分会被特别标记,以便语言模型了解实体出现在何处及其周围的文本是什么,这样就能模拟“看到”屏幕上的信息,并在理解和解析屏幕上的指代时提供必要的上下文信息。这种方法是首次尝试使用大型语言模型从屏幕内容中编码上下文,克服了传统文本模态难以处理的屏幕实体的问题。

具体来说,ReALM系统为了让大型语言模型能够“理解”并处理屏幕上显示的实体,采用了以下步骤:

首先,借助上层数据检测器提取屏幕文本中的实体,这些实体会带有类型、边界框以及实体周围非实体文本元素的列表。这意味着,对于屏幕上每一个可视化的实体,系统都会捕捉其基本信息和它所处的上下文环境。

然后,ReALM创新地提出了一种算法,通过将实体及其周围对象的边界框中心点按照垂直(从上至下)和水平(从左至右)的顺序排序,并稳定排列。若实体间距离较近,则认为它们在同一行内,并用制表符隔开;若距离超出设定的边距,则将它们置于下一行。这样,通过连续应用上述方法,就可以将屏幕内容按从左到右、从上到下的方式编码成纯文本格式,有效地保留了实体间的相对空间位置关系。

这样一来,原本难以直接被LLM处理的屏幕视觉信息转化成了适合语言模型输入的文本形式,使LLM能够在处理序列到序列的任务时,充分考虑到了屏幕实体的具体位置和上下文,从而实现对屏幕实体的正确识别和指代解析。

这使得ReALM系统不仅在解决对话实体的指代问题上表现出色,而且在处理非对话类实体——即屏幕上的实体时同样表现出了显著的性能提升。

三、细节:任务定义和数据集

简单来,ReALM系统面临的任务是,根据用户想要执行的任务,在给定的实体集合中,找出与当前用户查询相关的实体。

这个任务被构造成一个针对大型语言模型的选择题,期望从用户屏幕展示的实体中选择一个或多个选项作为答案。当然,在某些情况下,答案可能是“都不是”。

事实上,研究论文将任务涉及的实体分为三类:

1. 屏幕实体:是指当前在用户界面上可见的实体。

2. 对话实体:与对话内容相关的实体,可能来自用户的上一轮发言(如用户提到“呼叫妈妈”,则联系人列表中“妈妈”的条目就是相关实体),也可能由虚拟助手在对话中提供(如供用户选择的地点列表)。

3. 背景实体:源于后台进程,不一定直接体现在用户屏幕显示或与虚拟助手互动中的相关实体,例如预设会响起的闹钟或正在后台播放的音乐。

至于用于训练和测试ReALM的数据集,由合成数据和人工标注的数据组成,同样可划分为三类:

其一,对话数据集:包含了与用户与代理交互相关的实体的数据点。这些数据通过让评分员查看含有合成实体列表的截图,并要求他们提供明确指向列表中任意选定实体的查询来收集。

其二,合成数据集:采用模板生成法得到数据,特别是当用户查询和实体类型足以确定指代,无需依赖详细描述时,这种方法特别有用。合成数据集中也可以包含多个实体对应同一查询的情况。

其三,屏幕数据集:主要涵盖了用户屏幕上当前显示的实体的数据,每一条数据都包含用户查询、实体列表以及与该查询对应的正确实体(或实体集合)。每个实体的信息包括实体类型和其他属性,如名称以及其他与实体相关的文本细节(例如,闹钟的标签和时间)。

对于含有屏幕相关上下文的数据点,上下文信息以实体的边界框以及围绕该实体的其他对象列表的形式提供,同时附带这些周边对象的类型、文本内容和位置等属性信息。整个数据集的大小根据类别分为训练集和测试集,并且各具一定规模。

四、结果:最小的模型也取得了5%的性能提升

在基准测试中,苹果公司将自家系统与GPT 3.5和GPT 4.0进行了比较。ReALM模型在解决不同类型的指代解析任务方面表现出卓越的竞争力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%图片

根据论文所述,即便是ReALM中参数最少的版本,相较于基线系统也实现了超过5%的性能提升。而在更大的模型版本上,ReALM则明显胜过GPT-4。特别是在处理屏幕上显示的实体时,随着模型规模的增加,ReALM在屏幕数据集上的性能提升更为显著。

另外,ReALM模型在全新领域的零样本学习场景上,其性能与GPT-4相当接近。而在处理特定领域的查询时,由于经过用户请求的微调,ReALM模型比GPT-4表现得更加精准。

比如,对于要求调整亮度这样的用户请求,GPT-4仅将该请求关联到设置,而忽略了背景中存在的智能家居设备也是相关实体,而ReALM因为接受了领域特有数据的训练,能够更好地理解并正确解析此类特定领域内的指代问题。

“我们证明了ReaLM超越了以往的方法,并且尽管参数数量远少于当前最先进的LLM——GPT-4,即使在纯粹基于文本领域处理屏幕内引用时,ReaLM也能达到与其相当的表现水平。此外,对于特定领域的用户话语,ReaLM的表现还优于GPT-4,因此,ReaLM可以说是在保证性能不打折扣的同时,适用于开发面向实际应用环境、可在设备本地高效运行的指代解析系统的首选方案。”    

此外,研究人员还表示,在资源有限、需要低延迟响应或者涉及多阶段集成如API调用等实际应用场景中,单一的大型端到端模型往往并不适用。

在这种背景下,模块化设计的ReALM系统更具有优势,允许在不影响整体架构的情况下,轻松替换和升级原有的指代解析模块,同时提供更好的优化潜力和可解释性。

面向未来,研究方向则指向了更为复杂的方法,比如将屏幕区域划分为网格并以文本形式编码空间相对位置,虽然颇具挑战性,但这是一种有前景的探索途径。

五、写在最后

在人工智能领域,苹果虽然一直比较谨慎,但也在默默投入。无论是多模态大模型MM1,还是AI驱动的动画生成工具Keyframer,再到如今的ReALM,苹果的研究团队一直在持续实现着技术突破。

围观谷歌、微软、亚马逊等竞争对手,纷纷在搜索、云服务、办公软件上加码AI,秀了一波又一波肌肉。苹果显然正努力不落人后。随着生成式AI落地成果不断涌现,苹果更是加快了追赶的步伐。早有知情人士透露,在6月举办的全球开发者大会上,苹果将聚焦于人工智能领域,新的人工智能战略极有可能成为iOS 18升级的核心内容。届时,说不定会给诸君带来惊喜。

参考链接:

https://apple.slashdot.org/story/24/04/01/1959205/apple-ai-researchers-boast-useful-on-device-model-that-substantially-outperforms-gpt-4

https://arxiv.org/pdf/2403.20329.pdf

以上就是让Siri不再智障!苹果定义新的端侧模型,“大大优于GPT-4,摆脱文本,可视化模拟屏幕信息,最小参数模型相较基线系统仍提升5%的详细内容,更多请关注其它相关文章!


# 亚洲  # seo32-的等电梯  # 云南优化型网站  # 政府网站建设整改报告  # 梅州专业网站建设平台  # 江门门窗关键词排名热线  # 宁阳口碑好的网站建设  # 金华大奇网站建设  # 蒙牛网站seo诊断  # 思茅推广营销成本  # 昭通营销推广厂家电话  # 苹果公司  # gpt-4  # 提出了  # 而在  # 重构  # 多个  # 模态  # 是在  # 相较  # 屏幕上  # 排列  # api调用  # 人工智能 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何寻找和修复无法在 AI 中找到文件的问题  如何修改cad命令  苹果16主打颜色有哪些  1kb等于多少字节  阿里云手机云盘怎么用_阿里云盘苹果手机怎么用教程  路由器power闪红绿灯闪是什么意思  5G类似微信的聊天软件有哪些  苹果16日发售哪些机型  如何打开win10命令  固态硬盘如何消除缓存  power在充电器上是什么意思  5g手机怎么没视频通话功能  市盈率3.2是什么意思  苹果16有哪些可以设置  typescript怎么设置滚动条  j*a数组元素怎么用  typescript怎么添加css样式  element ui的好处  如何学习typescript  linux如何使用db2命令  单片机怎么控制闪烁技术  如何进入cmd命令行  如何辨别固态硬盘坏块  typescript为什么能运行  ai如何重复使用上一命令  硬件如何执行命令  如何编写一个linux命令  put linux命令如何书写  市盈率是什么意思高好还是低好  8寸照片尺寸多少厘米  intel固态硬盘如何安装  微波炉power中文是什么意思  苹果16系统多了哪些  单片机面包板怎么插  夸克投屏为什么那么卡  如何将系统移到固态硬盘  手机nfc功能功能是什么意思  ready是什么意思  苹果手机16新款颜色有哪些  react怎么使用 typescript  为什么夸克流畅播失败  power在坐标轴中是什么意思  js怎么设置typescript  typescript是什么类型的语言  市盈率tt的扣非是什么意思  如何去掉拍电脑的纹路详细教程  如何创建sql命令  春运哪天抢票最好预约  md5解密是什么意思  按键精灵datediff函数怎么用 如何使用按键精灵中的Datediff函数教程 

搜索