新闻中心

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

2024-10-25
浏览次数:
返回列表
​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.co

工具调用是 AI 智能体的关键功能之一,AI 智能体根据场景变化动态地选择和调用合适的工具,从而实现对复杂任务的自动化处理。例如,在智能办公场景中,模型可同时调用文档编辑工具、数据处理工具和通信工具,完成文档撰写、数据统计和信息沟通等多项任务。

业界已发布的工具调用模型,在特定评测基准上有接近甚至超越闭源 SOTA 模型(比如 GPT-4)的表现,但在其他评测基准上下降明显,难以泛化到新工具和新场景。为应对这一挑战,来自 OPPO 研究院上海交通大学的研究团队提出函数掩码(Function Masking) 方法,构建了具备强大泛化能力的轻量化工具调用系列模型:Hammer,并开源了完整的技术栈,旨在帮助开发者构建个性化的终端智能应用。

在工具调用典型评测基准上,包括 Berkeley Function-Calling Leaderboard(BFCL)、API-Bank、Seal-Tools 等,Hammer 系列模型展现了出色的总体性能,特别是 Hammer-7B 模型,综合效果仅次于 GPT-4 等闭源大模型,在工具调用模型中综合排名第一,具备强大的新场景和新工具泛化能力。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

​哪个模型擅长调用工具?这个7b模型跻身工具调用综合榜单第一

  • 模型地址:https://huggingface.co/MadeAgents
  • 论文地址:https://arxiv.org/abs/2410.04587
  • 代码地址:https://github.com/MadeAgents/Hammer

工具调用任务说明

工具调用作为 AI 智能体执行复杂任务所必备的核心能力,要求模型不仅能够识别正确的函数,还要准确填写函数的输入参数;如果给定函数列表无法满足用户的意图,模型也应具备拒绝任务的能力。下图是工具调用模型输入输出的一个样例:

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

Hammer 训练方法

研究团队在 Hammer 的训练过程中引入了一项关键技术:函数掩码(Function Masking) 和一个增强数据集:不相关性检测增强数据集(Irrelevance-Augmented Dataset)

  • 函数掩码旨在减少模型对函数名称和参数名称的依赖,核心是通过哈希化函数名称和参数名称,使模型在执行工具调用任务时不得不依赖更完备且可靠的功能描述信息,而不是对名称的记忆或匹配。这种方式有助于减少因命名差异导致的误判问题,提升模型在多样化命名风格和应用场景中的稳定性和适应性。
  • 不相关性检测增强数据集旨在帮助模型在给定用户意图而当前无适用函数的情况下,能够正确判断并给出「不相关」信号。该数据集包含了 7,500 个增强样本,设计时平衡了工具调用任务和不相关性检测任务的比例,以达到最佳的综合效果。(已开源至:https://huggingface.co/datasets/MadeAgents/xlam-irrelevance-7.5k)
​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一
Hammer 总体表现

Hammer 系列模型在工具调用典型评测基准上均展现了出色的性能,具体表现如下面的两张表格所示。可以看到,在 BFCL 榜单上,Hammer-7B 模型的总体准确率达到 83.92%,接近闭源 SOTA 模型 GPT-4 的 95.79%,优于其他工具调用模型。同时,在其他评测基准上,Hammer-7B 模型的平均 F1 达到 76.21%,接近闭源模型 GPT-4 的 78.79%,大幅领先其他工具调用模型。Hammer-7B 能够在参数规模较小的情况下,在不同评测基准上与闭源 SOTA 大模型竞争,充分展示了 Hammer 模型在各种工具调用任务中的准确性和稳定性。
​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

函数掩码技术的通用性

研究团队还将函数掩码和数据增强技术应用于不同的基础模型,以验证其通用性。实验选择了 Qwen 系列和 Deepseek-Coder 系列模型作为基准,并在相同的训练和测试条件下进行比较。下表中的结果显示,经过函数掩码技术调优后的 Hammer 版本显著提升了基础模型的工具调用准确性,远高于未调优版本,证明了函数掩码和不相关性数据增强对不同模型架构均有显著的优化效果。同时,在使用相同的基座模型和基础数据的情况下,与 xLAM(同样基于 Deepseek 微调而来的工具调用模型)的对比,也体现了函数掩码及不相关性数据增强的作用。

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

Yaara Yaara

使用AI生成一流的文案广告,电子邮件,网站,列表,博客,故事和更多…

Yaara 95 查看详情 Yaara
不相关性数据增强比例的权衡

在设计不相关性数据增强时,研究团队测试了不同比例的不相关性数据样本对模型表现的影响。下图实验结果表明,合理比例的不相关性增强数据(约占总数据的 10%)能够在提升工具调用准确性的同时,显著增强模型在不相关检测场景中的识别能力,降低错误调用的风险。实验结果还显示,进一步增加不相关性数据会略微降低功能调用的准确性,因此找到适当的平衡点至关重要。

​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一

总结

Hammer 模型通过函数掩码技术和不相关性检测数据增强,在多个评测基准中取得了良好的效果,表现出强大的泛化能力和稳定性,为轻量化工具调用模型在终端应用向前迈了一步。

Hammer 系列目前已更新至 2.0 版本,欢迎感兴趣的读者通过 huggingface 进行体验!

以上就是​哪个模型擅长调用工具?这个7B模型跻身工具调用综合榜单第一的详细内容,更多请关注其它相关文章!


# ai 智能体  # 产业  # type  # qwen  # deepseek  # 邮箱  # ai  # git  # hammer  # 黄陵提升关键词排名  # 头条营销推广封禁多久  # 专业手机网站建设  # 知名的高端网站建设  # 淮北网站建设团队哪个好  # 大邑网站推广推荐  # 网站怎么玩会过度优化  # 鄞州区设计网站推广公司  # 广东新网站优化  # 山东seo全国招商加盟  # 之争  # 景中  # 句话  # 五大  # 情况下  # 华纳  # 南极  # 神技  # 掩码  # 榜单 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何以管理员身份打开cmd命令行窗口  比亚迪秦nfc功能是什么意思  春运什么时候开始抢票  单片机蜂鸣器响了怎么停  如何以命令符运行程序  春运车站抢票和网上抢票  typescript如何生成uuid  j*a怎么把数组输出  商誉是什么意思  平板键盘nfc功能是什么意思  j*a二数组怎么创建  夸克搜题的原理是什么  怎么用typescript 写js  万能表上的power是什么意思  固态硬盘如何备份  市盈率tt的扣非是什么意思  酷我音乐怎么改每日推荐 酷我音乐每日推荐修改方法  汽车的type-c接口是什么  为什么夸克网盘下载不了  电焊机power灯亮是什么意思  a股等权平均市盈率是什么意思  夸克投屏为什么那么卡  怎么关360壁纸广告  显示器的power是什么意思  ospf中交换机命令如何设置  路由器power闪红绿灯闪是什么意思  花呗征信不好如何恢复 如何修复不良的花呗征信  微波炉power中文是什么意思  固态硬盘如何下载网页  2025年哪个局域网聊天软件好用  如何通过命令系统还原  video是什么意思  春运抢票多久能知道成功  复制 命令如何撤销  win10锁屏壁纸怎么换360锁屏壁纸吗  手机的nfc是什么功能是什么意思  md5解密是什么意思  vfp 命令窗口如何实现换行  路由器power灯一直亮是什么意思  单片机串口接收怎么实现  如何查询固态硬盘寿命  如何将系统移到固态硬盘  如何选择启用固态硬盘  typescript接口有什么用  苹果16适合哪些机升级  咋免费领取爱奇艺会员 如何免费领取爱奇艺会员步骤  苹果16自带配件有哪些  vi命令如何使用方法  如何去除计算器的命令  宵衣旰食是什么意思 

搜索