新闻中心

首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath

2024-07-12
浏览次数:
返回列表

获胜的 ai 数学奥林匹克模型出炉!

易标AI 易标AI

告别低效手工,迎接AI标书新时代!3分钟智能生成,行业唯一具备查重功能,自动避雷废标项

易标AI 135 查看详情 易标AI

几天前,随着榜单的公布,大家对全球首届 AI 数学奥林匹克竞赛(AIMO)进步奖的讨论量居高不下。

这次比赛共有 5 个团队胜出,获得第一名的是 Numina 的团队,CMU_MATH 位列第二,after exams 暂居第三,codeinter、Conor #2 团队分别拿到第四、第五的成绩。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
                             图源:https://www.kaggle.com/c/ai-mathematical-olympiad-prize/leaderboard

这一成绩,曾让陶哲轩感到惊讶。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
当时官方只公布了获奖名单,并未透漏背后模型的更多信息。大家都在好奇,获得冠军的队伍到底是用了哪种模型?

刚刚,AIMO 进步奖公布了前四名背后模型。

冠军团队用到的模型是 NuminaMath 7B TIR,该模型是 deepseek-math-7b-base 的微调版本。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
获得第二名的队伍微调了两个 DeepSeek-Math-7B-RL 模型,一个用作策略模型(用于生成解决方案),一个用作奖励模型(用于对加权多数投票的解决方案进行评分)。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
第三名同样使用了 DeepSeek-Math-7B-RL 模型,没有进行任何微调,并通过制定的评分规则使用多数投票的策略选择正确答案。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
排名第四的队伍同样使用了 deepseek-math-7b-rl,参数设置 temperature 为 0.9、top_p 为 1.0、max tokens 为 2048。该模型搭配代码工具,在 MATH 基准测试中可达到 58.8%。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
我们不难发现,排名前四的队伍都选择了 DeepSeekMath-7B 作为基础模型,并取得了较好的成绩。该模型数学推理能力逼近 GPT-4,在 MATH 基准榜单上超过一众 30B~70B 的开源模型。

冠军:NuminaMath 7B TIR 模型

接下来,就让我们详细看下这场比赛的冠军方案。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
NuminaMath 是一系列语言模型,经过训练可以使用工具集成推理(TIR)解决数学问题。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
NuminaMath 7B TIR 是 deepseek-math-7b-base 的微调版本,进行了两个阶段的监督微调:

  • 第 1 阶段:在自然语言数学问题和解决方案的大型、多样化数据集上微调基本模型,其中每个解决方案都使用思维链 (CoT) 进行模板化以促进推理。
  • 第 2 阶段:在工具集成推理(TIR)的合成数据集上微调第 1 阶段得到的模型,其中每个数学问题都分解为一系列基本原理、Python 程序及其输出。这里会 prompt GPT-4 生成带有代码执行反馈的 ToRA 格式(微软)解决方案。在这些数据上进行微调会产生一个推理智能体,它可以通过结合自然语言推理和使用 Python REPL 来计算中间结果,以解决数学问题。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath
值得注意的是,NuminaMath 7B TIR 是专门为了解决竞赛级别数学问题而创建的。因此,该模型不应用于一般聊天应用程序。通过贪婪解码(greedy decoding),冠军团队发现该模型能够解决 AMC 12 级别的问题,但通常很难为 AIME 和数学奥林匹克级困难问题生成有效的解决方案。该模型还难以解决几何问题,可能是因为其容量有限且缺乏视觉等模态。
首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath

以上就是首届AI奥数竞赛方案公布:4支获奖队伍,竟都选择国产模型DeepSeekMath的详细内容,更多请关注其它相关文章!


# python  # deepseek  # follow  # type  # 奥数  # 产业  # 五大  # 吴江网站关键词推广公司  # SEO学习壁纸ipad  # 拒绝黑帽seo优化  # 网站建设在线报价  # 延吉施工建设招标网站  # 之争  # 新能源  # 都能  # 自然语言  # 华纳  # 南极  # 的是  # 奥林匹克  # 十堰 网站建设  # 医疗网站建设方案模板  # 宠物店的营销推广方式  # 推广营销运营方法全集  # 崇明公司网站建设招聘 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 如何安装大华固态硬盘  如何使用命令行界面  学typescript需要什么基础么  阿里云盘扩容工具怎么用  gs是什么意思  单片机软件keil怎么运行  苹果16promax有哪些颜色  市盈率是负数是什么意思  4800日元等于多少人民币  如何用命令打开光驱  python和typescript学哪个  苹果16有哪些黑科技  单片机怎么进行排序操作  固态硬盘2m如何修复  空调主板单片机怎么拆开  苹果16都有哪些型号  热水器没热水显示power是什么意思  春运抢票在哪儿抢票  typescript怎么设置滚动条  为什么夸克网盘下载不了  硬盘和固态硬盘如何区分  怎么在typescript写原型链  移动固态硬盘如何使用  春运抢票如何快速抢到票  分销是什么意思  linux如何合并分区命令  新装固态硬盘如何安装  windows 如何连接ftp命令行  苹果16有哪些可以设置  如何打开命令框  显示器power接口是什么意思  固态硬盘如何启动  固态硬盘如何接主机  typescript学多久可以学会  j*a数组对象怎么取  苹果16更新了哪些版本  营收和gmv区别_营收和gmv有什么区别  云淡风轻什么意思  1kb等于多少字节  苹果16哪些型号好  8英寸等于多少厘米  个人征信不好如何恢复 个人征信不良的全面修复指南  液位传感器power是什么意思  play的三人称单数和过去式  51单片机怎么连接端口  j*a数组怎么取元素  固态硬盘4k如何看  夸克是什么空间单位  阿里云盘的会员怎么用  固态硬盘如何外接 

搜索