强化学习_陕西然坤悦科技有限公司

400-5689-0921
客服咨询
- 在线咨询

新闻中心 NEWS CENTER

您当前位置：首页

11-26

强化学习系列（十二）--GRPO，DAPO，DUPO，GSPO

在之前的强化学习系列中我们介绍了强化学习的基础知识，也在系列十和系列十一中介绍了强化学习RL在LLM中的应用。最近我在介绍DeepResearchAgent的论...
02-21

慢思考助力医学大语言模型突破数据瓶颈：上海交大联合上海AI Lab推出MedS3系统

上海交通大学、复旦大学和上海人工智能实验室的研究团队推出新型医学推理系统MedS3，该系统采用自我进化“慢思考”范式，无需预训练和模型蒸馏，即可实现细粒度推理流...
02-17

打破AI遗忘诅咒的学习算法，慕尼黑-南大团队打造会自主积累知识的学习框架

机器人终身强化学习：突破智能瓶颈人类具备终身学习能力，不断积累知识并提升技能，这被认为是通用人工智能的关键。然而，当前AI主要擅长特定领域，缺乏这种持续学习能力...
11-16

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2025：强鲁棒性的离线变分贝叶斯强化学习

本论文作者杨睿是中国科学技术大学2019级硕博连读生，师从王杰教授、李斌教授，主要研究方向为强化学习、自动驾驶等。他曾以第一作者在NeurIPS、KDD等顶级期...
03-19

机器学习：Github上排名前19个强化学习 (RL)项目

强化学习（RL）是一种机器学习方法，它通过代理不断试错来学习。强化学习算法在多个领域得到应用，如游戏、机器人技术和金融领域。RL的目标是发现一种能够最大化预期长...
02-21

20分钟学会装配电路板！开源SERL框架精密操控成功率100%，速度三倍于人类

现在，机器人学会工厂精密操控任务了。近年来，机器人强化学习技术领域取得显著的进展，例如四足行走，抓取，灵巧操控等，但大多数局限于实验室展示阶段。将机器人强化学习...

: 电话

: 客服

: 地图

: 搜索