新闻中心
-
11-26强化学习系列(十二)--GRPO,DAPO,DUPO,GSPO在之前的强化学习系列中我们介绍了强化学习的基础知识,也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。最近我在介绍DeepResearchAgent的论...
-
02-21慢思考助力医学大语言模型突破数据瓶颈:上海交大联合上海AI Lab推出MedS3系统上海交通大学、复旦大学和上海人工智能实验室的研究团队推出新型医学推理系统MedS3,该系统采用自我进化“慢思考”范式,无需预训练和模型蒸馏,即可实现细粒度推理流...
-
02-17打破AI遗忘诅咒的学习算法,慕尼黑-南大团队打造会自主积累知识的学习框架机器人终身强化学习:突破智能瓶颈人类具备终身学习能力,不断积累知识并提升技能,这被认为是通用人工智能的关键。然而,当前AI主要擅长特定领域,缺乏这种持续学习能力...
-
11-16率先解决多类数据同时受损,中科大MIRA团队TRACER入选NeurIPS 2025:强鲁棒性的离线变分贝叶斯强化学习本论文作者杨睿是中国科学技术大学2019级硕博连读生,师从王杰教授、李斌教授,主要研究方向为强化学习、自动驾驶等。他曾以第一作者在NeurIPS、KDD等顶级期...
-
03-19机器学习:Github上排名前19个强化学习 (RL)项目强化学习(RL)是一种机器学习方法,它通过代理不断试错来学习。强化学习算法在多个领域得到应用,如游戏、机器人技术和金融领域。RL的目标是发现一种能够最大化预期长...
-
02-2120分钟学会装配电路板!开源SERL框架精密操控成功率100%,速度三倍于人类现在,机器人学会工厂精密操控任务了。近年来,机器人强化学习技术领域取得显著的进展,例如四足行走,抓取,灵巧操控等,但大多数局限于实验室展示阶段。将机器人强化学习...

