新闻中心
-
06-05LLM | 偏好学习算法并不学习偏好排序图片一、结论写在前面偏好学习算法(Preferencelearningalgorithms)如RLHF和DPO)常用于引导大型语言模型(LLMs)生成更符合人类...
-
05-27全面超越DPO:陈丹琦团队提出简单偏好优化SimPO,还炼出最强8B开源模型为了将大型语言模型(LLM)与人类的价值和意图对齐,学习人类反馈至关重要,这能确保它们是有用的、诚实的和无害的。在对齐LLM方面,一种有效的方法是根据人类反馈的...
-
05-24GPT-4通过图灵测试,胜率高达54%!UCSD新作:人类无法认出GPT-4GPT-4可以通过图灵测试吗?当一个足以强大的模型诞生之后,人们往往会用图灵测试去衡量这一LLM的智能程度。最近,来自UCSD的认知科学系研究人员发现:在图灵测...
-
05-23众包新玩法!LLM竞技场诞生基准测试,严格分离学渣学霸大模型排行榜哪家强?还看LLM竞技场~截至此刻,已有共计90名LLM加入战斗,用户总投票数超过了77万。图片然而,在网友们吃瓜调侃新模型冲榜、老模型丧失尊严的同...
-
05-13人类偏好就是尺!SPPO对齐技术让大语言模型左右互搏、自我博弈AIxiv专栏是本站发布学术、技术内容的栏目。过去数年,本站AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传...
-
03-06Stable Diffusion 3论文终于发布,架构细节大揭秘,对复现Sora有帮助?StableDiffusion3的论文终于来了!这个模型于两周前发布,采用了与Sora相同的DiT(DiffusionTransformer)架构,一经发布就引...

