新闻中心

3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源

2024-12-18
浏览次数:
返回列表

大幅提升小模型性能:hugging face开源deepmind技术,1b参数模型超越70b模型!

近期,业界对小模型的关注度空前高涨,许多“实用技巧”让小模型性能超越了更大规模的模型。这种趋势源于大模型训练成本的急剧增加,动辄数十亿美元的集群投入使得探索更经济高效的方案成为必然。

因此,“测试时计算扩展”(test-time compute scaling)应运而生。该方法并非依赖于扩大预训练规模,而是通过动态推理策略,让模型在复杂问题上“思考更久”。OpenAI的o1模型就是一个典型案例,其在困难的数学问题上,性能随着测试时计算量的增加而持续提升。

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

虽然o1的训练细节未公开,但DeepMind的研究表明,迭代自我改进或基于奖励模型的解决方案空间搜索等策略,能够实现测试时计算的最佳扩展。通过自适应地分配测试时计算资源,小模型可以与大型模型性能相当,甚至超越后者。尤其在内存受限、硬件资源不足的情况下,这种方法更具优势。然而,DeepMind的研究结果主要基于闭源模型,缺乏实现细节和代码公开。

DeepMind论文:https://www.php.cn/link/d69aed2be954d4c17700d4a99d79e42a

Hugging Face积极跟进DeepMind的研究,并取得了显著成果。他们开源了相关技术,主要包括:

  • 计算最优扩展 (compute-optimal scaling):通过复现DeepMind的技术,提升开放模型的数学能力。
  • 多样性验证器树搜索 (DVTS):验证器引导树搜索技术的扩展,提升多样性,尤其在测试时计算预算较大时性能更佳。
  • 搜索和学习:一个轻量级工具包,用于实现基于LLM的搜索策略,并利用vLLM加速。

实验结果令人振奋:在MATH-500基准测试中,给予足够“思考时间”,1B和3B参数的Llama Instruct模型,性能超越了8B和70B参数的模型。

图片

Hugging Face联合创始人兼CEO Clem Delangue表示,仅在OpenAI o1发布十天后,他们就开源了其核心技术的复现版本,证明了通过延长模型“思考时间”,小模型也能战胜大型模型。

图片

图片

图片

千鹿Pr助手 千鹿Pr助手

智能Pr插件,融入众多AI功能和海量素材

千鹿Pr助手 128 查看详情 千鹿Pr助手

测试时计算扩展策略

主要策略包括:

  • 自我改进:模型迭代改进自身输出,但需模型具备自我改进机制,适用性受限。
  • 基于验证器的搜索:生成多个候选答案,用验证器选择最佳答案。验证器可以是硬编码启发式方法或学习型奖励模型。本文重点介绍学习型奖励模型,包括Best-of-N采样和树搜索等技术。

Hugging Face专注于基于搜索的方法,主要包括:

图片

  • Best-of-N:生成多个响应,用奖励模型评分,选择最高分的答案。
  • 集束搜索:系统探索解决方案空间,通常与过程奖励模型(PRM)结合使用,优化问题解决的中间步骤。
  • 多样性验证器树搜索 (DVTS):集束搜索的扩展,提升解决方案多样性和性能。

实验设置及结果

实验使用meta-llama/Llama-3.2-1B-Instruct模型,RLHFlow/Llama3.1-8B-PRM-Deepseek-Data作为PRM,以及MATH-500数据集。

结果显示,集束搜索在计算效率上显著优于Best-of-N和多数投票,性能与Llama 3.1 8B模型相当。DVTS则在较大计算预算下表现更佳,提升了简单/中等难度问题的性能。 计算最优扩展策略则在3B参数模型上取得了超越70B模型的惊人效果。

图片图片图片

未来方向

未来研究方向包括:提升验证器性能,实现模型自我验证,将思维融入生成过程,利用搜索生成高质量训练数据,以及开发更多领域的PRM。

原文链接:https://www.php.cn/link/9f7c4bb3946f029b56eebff3203cc5d5

以上就是3B模型长思考后击败70B!HuggingFace逆向出o1背后技术细节并开源的详细内容,更多请关注其它相关文章!


# ai  # deepseek  # hugging face  # 理论  # 网络营销 网络推广培训  # 沈阳网站建设配置公司  # 广州seo骆诗设计  # 苏州抖音营销推广哪家好  # 网站建设制作心得  # 沙田企业网站建设哪家好  # 汕尾网站seo优化推广  # 外贸网站推广公司最大  # 国家林业建设协会网站  # 成都网站推广价格  # 取得了  # 更佳  # 官网  # 最优  # 学习型  # 主要包括  # 则在  # 多个  # 开源  # 时计  # llama 


相关栏目: 【 行业资讯67740 】 【 技术百科0 】 【 网络运营39195


相关推荐: 显示器的power是什么意思  win10电脑如何使用命令提示符  自己如何加装固态硬盘  电动车充电器上的power是什么意思  市盈率中1stdv是什么意思  如何把一个命令后台运行  5g手机4g卡怎么没有网络  分享一个稳定的ao3镜像网址  为什么夸克下载不到  空调控制面板power灯一直亮是什么意思  360n5锁屏壁纸怎么设置  闪光灯power闪烁是什么意思  win7怎么关闭360壁纸屏保  电脑显示屏上power是什么意思  如何正确使用固态硬盘  如何查看固态硬盘速度  如何显示固态硬盘  unix时间戳是什么意思  没网环境如何安装typescript  51单片机怎么连接端口  如何使用net命令  夸克网盘是什么都有吗  手机如何ip绑定域名解析  固态硬盘 如何分区  html怎么使用typescript  ensp命令如何提示  苹果16送哪些配件  如何去掉拍电脑的纹路详细教程  苹果16有哪些改装模式  市盈率3.2是什么意思  夸克搜题的原理是什么  光猫power和pon常亮是什么意思  单片机是怎么复位的  ai怎么找链接文件位置教程  夸克网盘下载为什么要钱  typescript如何标记私有方法  苹果16适合哪些机升级  360桌面壁纸怎么弄掉  如何看固态硬盘型号  为什么有的夸克带电  单片机串口接收怎么实现  如何进入安卓命令行  j*a二数组怎么创建  win7旗舰版wifi怎么打开  typescript文件怎么打开  单片机怎么读取电流值  j*a如何运行curl命令行  苹果16系统有哪些功能  苹果16哪些功能好用  j*a数组怎么保存类 

搜索