新闻中心
突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT
上海交通大学gair实验室研发pc agent:让ai帮你完成深夜ppt制作
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

深夜需要准备第二天论文分享的PPT?有了上海交通大学GAIR实验室研发的PC Agent,你只需告诉它要点和保存位置,第二天就能看到一份制作精良的PPT。这项研究由三位研究者完成,共同第一作者为上海交通大学ACM班三年级本科生何彦衡和金嘉禾,指导老师为刘鹏飞副教授。GAIR实验室主要研究方向包括大模型复杂推理、数据工程、多模态大模型和智能体。实验室主页:https:
//www.php.cn/link/543817ed62fa34e371bb229d4f7b603f
PC Agent通过认知迁移方法,高效收集人类认知轨迹进行训练(而非API调用),实现了像人类一样操作电脑:阅读屏幕、控制键盘鼠标,完成数十步跨软件的复杂任务。这标志着AI真正开始为人类减负!
PC Agent能轻松完成大量重复性工作,例如为多位图灵奖得主制作海报:

它还能像Claude 3.5 Sonnet一样,完成“AI调用AI”的任务,例如自行创建网站:


论文信息:
- 论文标题:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
- 论文地址:https://www.php.cn/link/190b12368f262b0aa584cd9101ecc07c
- 代码地址:https://www.php.cn/link/a4e56c27a3e2a2fc8ccd7d91a2945f90
挑战与突破:深度电脑理解与精准视觉定位
当前智能体电脑使用能力远逊于人类,主要挑战在于深度电脑理解认知和精准视觉定位能力。
1. 视觉定位:GUI交互的基础是精准定位屏幕元素(如按钮)。现有模型,包括GPT-4o,缺乏此能力。
2. 认知理解:模型缺乏对电脑使用的认知理解,包括细粒度的电脑操作知识(例如,在PowerPoint中添加标题需要先点击文本框再输入)和智能体导向的训练(长程任务中的上下文关注、决策和策略调整)。
认知迁移:AI从对话窗口到数字世界的关键
团队提出人类认知迁移方法,包括高效采集人机交互数据的轻量级工具PC Tracker,以及从原始交互数据重建人类认知的完整流水线。PC Tracker开源,旨在加速社区研究。
该方法首先采集人类电脑操作轨迹,然后用大模型重建人类认知,最终得到包含人类认知的交互轨迹(Cognitive trajectory)。通过模仿学习,AI不仅模仿动作,还学习背后的认知理解。
仅在133条认知轨迹上训练,PC Agent就能执行50步复杂任务,展现了方法的高效性。
千鹿Pr助手
智能Pr插件,融入众多AI功能和海量素材
128
查看详情

PC Tracker:高效采集人机交互数据
PC Tracker轻量级运行,仅在用户动作发生时记录,不会影响用户体验,并支持大规模数据采集。它具备以下特性:
- 轻量级数据采集
- 无损用户体验
- 大规模数据采集
- 统一动作空间
- 双采集模式(任务导向和无任务导向)
- 数据透明与隐私保护

认知轨迹重建:动作语义重建和思考过程重建
原始点击动作缺乏语义信息,需要重建。大模型通过上下文信息和动作语义,重建每步动作背后的思考过程。

PC Agent:基于开源模型的多智能体协作
PC Agent采用多智能体架构:规划智能体负责决策,视觉定位智能体负责执行点击动作。它利用Molmo模型进行视觉定位,并通过自我验证提高精度。


未来展望
团队未来将关注大规模泛化实验、长程规划与鲁棒性、无任务数据的利用、动作空间优化和复杂任务的评估。


以上就是突破数据瓶颈!交大研发电脑智能体,让 AI 替你熬夜做 PPT的详细内容,更多请关注其它相关文章!
# pc agent
# git
# 电脑
# qq
# ai
# claude
# 产业
# 第二天
# 抖音美女关键词搜索排名
# 拼多多店霸关键词排名
# 莘县网站建设项目招标
# 北京seo排名代理
# 百度网络营销seo排名推广
# 营销推广与促销的关系
# 交大
# 替你
# 句话
# 网易
# 数据采集
# 就能
# 开源
# 长程
# 神技
# b12
# api调用
# 信阳网站建设系统规划
# 招远网站关键词推广
# seo艺术 58同城
# 之间课堂网站seo分析
相关栏目:
【
行业资讯67740 】
【
技术百科0 】
【
网络运营39195 】
相关推荐:
显示器的power是什么意思
单片机学习视频怎么调色
春运抢票在哪儿抢票
夸克还原排版是什么意思
使用typescript对团队有什么要求
typescript参数怎么用
grep命令的是如何实现
单片机是怎么复位的
市盈率和市净率是什么意思
python如何命令行换行
镜像ao3链接入口
苹果16有哪些改善
新的固态硬盘如何分区
苹果16日发售哪些机型
j*a数组怎么放字符
破太岁是什么意思
如何体验苹果16系统
固态硬盘如何4k对其
如何增加固态硬盘
主板如何禁用固态硬盘
红米手机怎么设置变成5G手机
j*a二数组怎么创建
夸克投屏为什么那么卡
花呗征信不好如何恢复 如何修复不良的花呗征信
皓影混动仪表盘上power是什么意思
夸克为什么老是投屏失败
typescript全局配置放哪里
1tb等于多少mb
夸克学习都有什么课程
固态硬盘装完如何使用
华为交换机 配置 如何复制命令行
m*en repository的作用是什么
固态硬盘如何下载网页
征信不好如何短期恢复
所有删除的聊天记录都可以恢复吗?
j*a怎么让数组倒换
显示器上power键是什么意思
typescript怎么写多个构造方法
苹果的type-c接口是什么
sqlite中datediff函数怎么用 SQLite中DATEDIFF()函数的用法分享
j*a怎么保存到数组
iphone拍电子屏有横条如何解决
单片机显存怎么设置最佳
如何弄坏固态硬盘
HTML5如何引用typescript
mac如何使用vi命令行
type-c输入接口是什么
数组和J*A怎么打
华为的type-c接口是什么接口
市盈率中1stdv是什么意思


2024-12-24
浏览次数:次
返回列表