昨晚,DeepSeek 上线了全新的推理模型 DeepSeek-R1-Lite-Preview ,直接冲击 OpenAI o1 保持了两个多月的大模型霸主地位。在美国数学竞赛(AMC)中难度等级最高的 AIME 以及全球顶级编程竞赛(codeforces)等权威评测中,DeepSeek-R1-Lite-Preview 模型已经大幅超越了 GPT-4o 等顶尖模型,有三项成绩还领先于 OpenAI o1-preview。
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜
更多的强化学习、原生的思维链、更长的推理时间,能让大模型的性能更强,这在领域内已经是广泛共识。这种模式其实非常像人类大脑的深度思考。与 OpenAI o1 有点不一样的是,DeepSeek-R1-Lite-Preview 会在回复中展示「思路链」推理,也就是响应查询和输入的不同链或「思路」,并解释它在做什么以及为什么这样做。就像是解题时,有人喜欢将每一步骤都详尽地写
在卷子上,而 DeepSeek-R1-Lite-Preview 更进一步:把内心 OS 也都写出来了。DeepSeek 官方表示,DeepSeek R1 系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。已经发布的 DeepSeek-R1-Lite-Preview 使用的是一个较小的基座模型,尚未完全释放长思维链的潜力。对于用户的 Prompt,DeepSeek-R1-Lite-Preview 会有一个很长的推理过程。如上图中的红色实线所示,模型所能达到的准确率与所给定的推理长度呈正相关。且相比于传统的多次采样 + 投票(Majority Voting),模型思维链长度增加展现出了更高的效率。最惊艳的是,发布即上线:所有用户均可通过官网开启与 DeepSeek-R1-Lite-Preview 的对话,但注意要先在输入框中打开「深度思考」模式,每天限制 50 次使用。体验地址:http://chat.deepseek.com/不得不说,对 o1 直接发起冲击的 DeepSeek,着实让国内 AI 社区振奋了一把: 图源:https://www.zhihu.com/question/4689435060/answer/36575793425由于 DeepSeek-R1-Lite-Preview 目前仅支持网页使用,没有发布完整代码供独立第三方分析或基准测试,也没有通过 API 提供 DeepSeek-R1-Lite-Preview 以进行同类独立测试,也没有解释 DeepSeek-R1-Lite-Preview 是如何训练或构建的博客文章或技术论文,大家心中其实还有许多的「问号」。但 DeepSeek 已经表示,正式版 DeepSeek-R1 模型会完全开源,还会公开技术报告,部署 API 服务。 图源:https://www.zhihu.com/question/4689435060/answer/36604051127回想起上一次,DeepSeek-V2 的开源和 API 降价,直接引发了国产大模型厂商的降价浪潮。同样的力度再来一波,不知道大家如何顶住。与 OpenAI o1 相同的是,根据问题的复杂程度,它也需要「思考」数十秒后再回答。虽然有些过程中的思路在人类看来可能毫无意义,甚至是错误的,但据初步测评,DeepSeek-R1-Lite-Preview 回复的最终整体准确率还是比较高的。比如它可以回答 GPT-4o 和 Claude 系列都翻车过的问题 —— 经典陷阱题「Strawberry 这个词中有多少个字母 R?」和「9.11 和 9.9 哪个更大?」。有用户在 DeepSeek Chat 上使用这些 Prompt 进行测试,回复结果和思考用时情况如下: Strawberry 这个词中有多少个字母 R?用时 29 秒。不过在数草莓的问题上,R1-Lite-Preview 有时也会困惑,数出「只有 2 个 r」的答案:本站也实测了一把,似乎对于中文,R1-Lite-Preview 的准确率更高:对于需要动脑的问题,R1-Lite-Preview 的表现也可圈可点,比如它可以破解行测题的逻辑陷阱:由 LeCun 提出的物理题:圆周上均匀分布了 7 根轴,每根轴上都有一个齿轮。每个齿轮都与其左边和右边的齿轮啮合。齿轮从 1 到 7 编号,依次沿圆周排列。问题是:如果齿轮 3 顺时针旋转,问齿轮 7 会沿什么方向旋转?接下来,给 R1-Lite-Preview 上点强度,看看它能否笑对大学物理的噩梦:《电磁学千题解》。在 34 秒内,它根据题意列出了对应的公式,得到了正确答案:至于 R1-Lite-Preview 被全球顶级编程竞赛(codeforces)等权威评测检验过的代码能力,让它手撕大厂秋招级别的 Leetcode 经典题「岛屿问题」试一下:然而,相比推理、物理和编程,R1-Lite-Preview 的数学能力可能没那么让人放心。比如科技博主 @Transformer - 周问了一道中学水平的数列题,只有 o1 和 o1mini 做对了,R1-Lite-Preview 没想出关键的破题思路,而是「蒙」出了答案。而对于最能考验人类大脑的深度思考能力的 IMO 国际数学奥林匹克竞赛试题,R1-Lite-Preview 的表现是这样的:这道代数题相当难,全球仅有 5 个人全对。在长达 162 秒的思考过程中,R1-Lite-Preview 洋洋洒洒地把解题思路写成了一篇小论文,可能它的老师也教过 —— 把解题过程写上能得一半分。令人遗憾的是,最终答案 c=1 是错的,正确答案如下:而另一位「解题过程没写全」的选手 OpenAI o1 却给出了正确答案:这说明,DeepSeek-R1-Lite-Preview 仍有进步空间,也更让我们期待完整版模型的发布了。各位读者已经试用了吗?欢迎在评论区分享有趣的实测案例。https://mp.weixin.qq.com/s/e1YnTxZlzFvjcmrLLTA8fwhttps://venturebeat.com/ai/deepseeks-first-reasoning-model-r1-lite-preview-turns-heads-beating-openai-o1-performance/以上就是推理性能直逼o1,DeepSeek再次出手,重点:即将开源的详细内容,更多请关注其它相关文章!
# deepseek
# 更大
# 华纳
# 南极
# 神技
# 出了
# 的是
# 直逼
# 为什么
# 排列
# claude
# ai
# qq
# 产业
# 开源
# seo精准语言
# 开县网站建设咨询电话
# 鱼台seo推广服务商
# 滁州网站建设工具
# 安徽视频网站优化价格
# 关键词描述与seo
# 宜川路街道网站营销推广
# 纪梵希网站优化
# 蓬安县网站关键词优化
# seo网站建设优化
# 五大
# 更高
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
软件命令行参数如何设置
16苹果有哪些机型
如何查看邮件域名解析
datediff函数怎么用视频
power在坐标轴中是什么意思
安卓手机怎么打开5g
平仓是什么意思?
如何查看网站域名解析
市盈率亏损是什么意思
类似微信的聊天软件有哪些
如何选择启用固态硬盘
市盈率当中17A 18E是什么意思
市盈率高是什么意思
win7怎么做幻灯片
夸克还原排版是什么意思
新三板市盈率是什么意思
a03怎么根据编号找文链接入口
youtube受限模式是什么_youtube受限模式是什么意思
摩托车上power是什么意思
typescript和node学哪个
typescript多久能学会
单片机计数程序怎么写
热水器没热水显示power是什么意思
固态硬盘如何查看盘符
j*a怎么让数组倒换
春运抢票何时开始抢票的
喇叭上标的power30w是什么意思
汽车排量是什么意思
点焊机接触器上power是什么意思
typescript怎么理解的
主板如何禁用固态硬盘
华为使用nfc功能是什么意思
8寸照片尺寸多少厘米
焊机上power灯闪是什么意思
j*a怎么用数组缓存
课程伴侣登不上怎么办
市盈率292是什么意思
typescript要用什么工具
万能表上的power是什么意思
为什么夸克网盘下载不了
如何更新固态硬盘固件
linux下如何重定位命令
如何体验苹果16系统
ssd固态硬盘如何安装
索尼type-c接口是什么
vue项目如何用typescript
苹果16有哪些款式的
直接gmV是什么意思?直接GMV:定义和概念
typescript怎么添加css样式
j*a数组元素怎么用