rlhf_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页

12-01

Andrej Karpathy：神奇大模型不存在的，只是对人类标注的拙劣模仿

AndrejKarpathy，OpenAI创始成员及特斯拉前AI高级总监，近日对大型语言模型（LLM）的“智能”程度提出了质疑，引发业内热议。他认为，人们对LL...
11-05

LLM超越人类时该如何对齐？谷歌用新RLHF框架解决了这个问题

让LLM在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足，就需要突破许多限制，包括可用数据和规模和质量以及有用新信息的增...
09-24

AI会「说谎」，RLHF竟是帮凶

虽然RLHF的初衷是用来控制人工智能（AI），但实际上它可能会帮助AI欺骗人类。语言模型(LM)可能会产生人类难以察觉的错误，尤其是在任务复杂的情况下。作为最近...
08-10

Karpathy观点惹争议：RLHF不是真正的强化学习，谷歌、Meta下场反对

RLHF与RL到底能不能归属为一类，看来大家还是有不一样的看法。AI大牛Karpathy又来科普人工智能概念了。昨日，他发推表示，「基于人类反馈的强化学习（RL...
08-10

首届大模型顶会COLM 高分论文：偏好搜索算法PairS，让大模型进行文本评估更高效

AIxiv专栏是本站发布学术、技术内容的栏目。过去数年，本站AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传...
02-15

谷歌提出全新RLHF方法：消除奖励模型，且无需对抗性训练

效果更稳定，实现更简单。大型语言模型（LLM）的成功离不开「基于人类反馈的强化学习（RLHF）」。RLHF可以大致可以分为两个阶段，首先，给定一对偏好和不偏好的...

1

6

: 电话

: 客服

: 地图

: 搜索