新闻中心
-
12-01Andrej Karpathy:神奇大模型不存在的,只是对人类标注的拙劣模仿AndrejKarpathy,OpenAI创始成员及特斯拉前AI高级总监,近日对大型语言模型(LLM)的“智能”程度提出了质疑,引发业内热议。他认为,人们对LL...
-
11-05LLM超越人类时该如何对齐?谷歌用新RLHF框架解决了这个问题让LLM在自我进化时也能保持对齐。我们这个世界是不断变化的开放世界。人工智能要在这个世界长久立足,就需要突破许多限制,包括可用数据和规模和质量以及有用新信息的增...
-
09-24AI会「说谎」,RLHF竟是帮凶虽然RLHF的初衷是用来控制人工智能(AI),但实际上它可能会帮助AI欺骗人类。语言模型(LM)可能会产生人类难以察觉的错误,尤其是在任务复杂的情况下。作为最近...
-
08-10Karpathy观点惹争议:RLHF不是真正的强化学习,谷歌、Meta下场反对RLHF与RL到底能不能归属为一类,看来大家还是有不一样的看法。AI大牛Karpathy又来科普人工智能概念了。昨日,他发推表示,「基于人类反馈的强化学习(RL...
-
08-10首届大模型顶会COLM 高分论文:偏好搜索算法PairS,让大模型进行文本评估更高效AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
02-15谷歌提出全新RLHF方法:消除奖励模型,且无需对抗性训练效果更稳定,实现更简单。大型语言模型(LLM)的成功离不开「基于人类反馈的强化学习(RLHF)」。RLHF可以大致可以分为两个阶段,首先,给定一对偏好和不偏好的...
-
共1页 6条

