新闻中心
GRPO在《时空谜题》中击败o1、o3-mini和R1
openpipe平台最新研究:开源模型通过强化学习在复杂推理任务中超越顶级闭源模型
OpenPipe平台近期发布的一项研究显示,通过运用GRPO强化学习算法,其团队成功地使开源模型Qwen在重度推理游戏《时空谜题》中的表现超越了DeepSeek R1、OpenAI的o1和o3-mini等业界领先模型。该研究由Ender Research的强化学习研究员Brad Hilton和OpenPipe创始人Kyle Corbitt共同完成。
研究结果表明,该方法不仅将模型与Claude Sonnet 3.7的性能差距缩小到个位数百分比,同时实现了超过100倍的推理成本优化。研究报告详细介绍了任务设计、超参数调整经验以及基于Torchtune框架构建的完整训练方案。
研究背景:大型语言模型的推理能力瓶颈
自OpenAI发布o系列推理模型以来,基于强化学习训练的LLM发展迅速。然而,逻辑演绎能力仍然是这些模型的短板,主要体现在以下三个方面:
- 难以稳定追踪所有相关细节;
- 无法保持逻辑严密的推演过程;
- 多步推理衔接可靠性不足。
即使是顶尖模型,也经常会出现人类容易识别的低级错误。
《时空谜题》基准测试:挑战现有模型的推理极限
为了评估模型的推理能力,研究团队使用了自定义的推理任务——《时空谜题》。该谜题类似于经典桌游Cluedo,但增加了时间和动机维度,并使用OR-Tools的CP-SAT求解器生成谜题。
研究人员对DeepSeek R1、OpenAI的o1和o3-mini、Anthropic的Claude Sonnet 3.7以及Qwen 14B和32B模型进行了基准测试。结果显示,Claude Sonnet 3.7表现最佳,而未经调优的Qwen模型性能相对较弱。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

GRPO算法与高效训练方案:突破性能瓶颈的关键
Zyro AI Background Remover
Zyro推出的AI图片背景移除工具
145
查看详情
研究团队采用GRPO强化学习算法对Qwen模型进行训练。与PPO等传统方法相比,GRPO算法在简化训练过程的同时,也取得了显著的性能提升。
训练过程主要包括以下步骤:
- 模型生成多个答案;
- 对答案进行评分,计算优势值;
- 利用优势值引导策略梯度更新模型参数;
- 重复上述步骤,直至达到最佳性能。
研究中还使用了vLLM推理引擎、HuggingFace Transformers AutoTokenizer以及Torchtune库,并对参数进行了精细的调优,以提高训练效率和模型性能。Torchtune库提供的功能包括激活检查点、激活卸载、量化和PEFT等。
研究结果:显著提升性能并降低成本
经过100多次迭代训练,Qwen模型的推理性能得到了显著提升,140亿参数的模型接近Claude Sonnet 3.7的水平,而320亿参数的模型则几乎达到了Sonnet的性能。
更重要的是,该方法大幅降低了推理成本,实现了超过100倍的优化。研究还发现,仅需16个训练样本就能实现高达10-15%的性能提升。
结论:强化学习在提升开源模型推理能力方面的巨大潜力
这项研究证明了强化学习在提升开源模型推理能力方面的巨大潜力。通过GRPO算法和高效的训练方案,即使是相对较小的开源模型也能在复杂的推理任务中达到甚至超越顶级闭源模型的性能,同时大幅降低成本。 这为开源社区
提供了新的方向,也为未来LLM的发展提供了新的思路。

以上就是GRPO在《时空谜题》中击败o1、o3-mini和R1的详细内容,更多请关注其它相关文章!
# 之选
# 陕西seo优化网络推广
# 如何优化一个网站
# seo培训要多少钱
# 公明外贸网站建设
# 同类产品网站推广方案
# 菜鸟网站建设要多久
# 4321电影网站建设
# 书营销推广方案
# 湖南大型网站建设
# 城市网站建设银行待遇
# 如何应对
# ai
# 进行了
# 哪家
# 降低成本
# 你该
# 美图
# 网易
# 即使是
# 开源
# qwen
# deepseek
# claude
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
如何自己加装固态硬盘
单片机的速度怎么求
如何用dos命令分区
如何提高import命令的性能
win7怎么装扫描仪
5g手机4g卡怎么没有网络
美食音乐每日推荐怎么写
苹果16有哪些变化尺寸
cos150度等于多少
热水器没热水显示power是什么意思
苹果16颜色有哪些
linux如何切换到命令行模式
ssd固态硬盘如何选择
单片机怎么定义字符长度
1s等于多少ms
typescript多久能学完
安装固态硬盘如何设置
meet是什么意思
如何用命令下载服务器网站
8k是多少钱
win10如何打开dos命令窗口大小
宵衣旰食是什么意思
如何通过命令系统还原
j*a数组怎么新增值
j*a数组怎么存满
舆论是什么意思
react怎么用typescript
如何查看网站域名解析
什么是夸克模组文件格式
如何引用typescript中的方法
j*a 怎么清空数组元素
华为5g手机怎么选择
折叠手机内屏为什么会坏
苹果电脑如何输入命令
市盈率亏损是什么意思
ai文件里无法找到链接文件怎么解决
台达plc只有power灯亮是什么意思
进口超级维特拉三门版power是什么意思
单片机加热片怎么制作
营收和gmv区别_营收和gmv有什么区别
光刻机的作用及工作原理
所有删除的聊天记录都可以恢复吗?
单片机*计步器怎么用
如何将系统移到固态硬盘
系统如何装在固态硬盘
如何提高固态硬盘性能
如何找出命令行
忐忑不安是什么意思
启辰星power标志是什么意思
基金市盈率是什么意思


2025-03-27
浏览次数:次
返回列表