GUI 桌面自动化
什么是 Computer Use
智能体不仅能处理文字和文件,还能像人一样操作电脑和手机的图形界面——打开应用、点击按钮、填写表单、截图识别。
这项能力被称为 Computer Use(桌面自动化)。它通过在目标设备上安装 HostAgent 插件来实现。安装后,智能体就能"看到"你的屏幕,并像人一样操作鼠标和键盘,完成跨应用、跨平台的自动化任务。
这意味着,即使某个软件没有提供 API 或 MCP 接口,智能体也可以通过操作它的图形界面来完成任务——就像你本人坐在电脑前操作一样。
工作原理
Computer Use 采用 HostAgent 插件架构,整体流程如下:
- 你下达任务 — 在 DesireCore 中用自然语言描述你想做的事,例如"帮我在 ERP 系统中提交这份采购申请"
- 智能体制定操作计划 — 智能体分析任务,拆解为一系列 GUI 操作步骤
- HostAgent 执行操作 — 安装在目标设备上的 HostAgent 接收指令,在设备上执行鼠标点击、键盘输入等操作
- 截图回传与验证 — 每一步操作后,HostAgent 截取屏幕画面回传给智能体,智能体通过视觉识别判断操作是否成功
- 结果汇报 — 任务完成后,智能体将执行结果反馈给你,并附带完整的操作截图记录
你可以把它理解为一个"远程桌面的智能版"——不是你远程操作,而是智能体替你操作。
支持的操作
| 操作类型 | 具体能力 | 示例场景 |
|---|---|---|
| 鼠标操作 | 点击、双击、右键、拖拽、滚动 | 点击网页上的"提交"按钮 |
| 键盘输入 | 打字、快捷键、组合键 | 在表单中填入客户信息 |
| 截图识别 | 截取屏幕、识别元素位置和文字 | 读取报表中的关键数据 |
| 应用操作 | 打开/切换/关闭应用、窗口管理 | 打开 Excel 并切换到指定工作表 |
| 表单填写 | 自动定位输入框并逐项填写 | 批量填写企业系统中的审批表单 |
| 文件操作 | 通过文件管理器复制、移动、重命名 | 将下载目录中的文件整理到归档文件夹 |
支持的平台
| 平台 | 支持情况 | 说明 |
|---|---|---|
| Windows | ✅ | 安装桌面端 HostAgent |
| macOS | ✅ | 安装桌面端 HostAgent |
| Linux | ✅ | 安装桌面端 HostAgent |
| Android | ✅ | 安装移动端 HostAgent |
| iOS | ✅ | 安装移动端 HostAgent |
| HarmonyOS | ✅ | 安装移动端 HostAgent |
安装与配置
第一步:安装 HostAgent
在你需要自动化操作的目标设备上安装 HostAgent:
- 前往 HostAgent 下载页面,选择对应平台的安装包
- 下载并安装到目标设备
- 启动 HostAgent,它会在后台运行并等待配对
你可以在多台设备上安装 HostAgent,然后统一在 DesireCore 中管理。例如,同时连接一台 Windows 工作电脑和一部 Android 手机,让智能体根据任务需要自动选择在哪台设备上操作。
第二步:设备配对
在 DesireCore 中完成设备连接:
- 打开 设置 → 设备管理
- 点击"添加设备",DesireCore 会自动发现同一网络下运行中的 HostAgent
- 选择目标设备,输入 HostAgent 上显示的配对码
- 配对成功后,设备状态显示为"已连接"
配对完成后,智能体在执行 GUI 任务时就能使用该设备。
第三步:权限授予
部分操作系统需要额外授权才能正常使用:
- macOS:需在"系统设置 → 隐私与安全 → 屏幕录制"和"辅助功能"中授权 HostAgent
- Windows:建议以管理员身份运行 HostAgent,确保可操作所有应用窗口
- 移动端:需在系统设置中开启无障碍服务权限
全程状态追踪
GUI 操作比文字处理更"不确定"——界面可能加载慢、按钮可能位置变化、弹窗可能意外出现。DesireCore 为此设计了完整的状态追踪机制:
- 实时监控 — 在 DesireCore 中实时查看 GUI 操作的每一步进度,包括当前正在操作什么、屏幕截图是什么样
- 超时自动提醒 — 如果某步操作超过预期时间(如页面加载卡住),系统会自动通知你
- 失败自动重试 — 简单的操作失败(如元素尚未加载完成)会自动等待并重试,无需你手动干预
- 失败重分配 — 如果某个操作路径行不通(如按钮被遮挡),智能体会尝试替代方案,例如用键盘快捷键代替鼠标点击
任务完成后,你可以在执行回执中查看完整的操作截图序列,直观了解智能体的每一步操作。
安全边界
DesireCore 的三层可控性体系在 GUI 操作中同样严格生效。由于 GUI 操作直接控制设备,安全机制更加审慎。
涉及敏感操作的 GUI 任务(如支付确认、删除数据、发送重要消息、修改系统设置)会自动触发人闸门,暂停执行并等待你的确认后才会继续。
- 应用白名单 — 你可以设定哪些应用允许智能体操作,哪些禁止。未授权的应用,智能体无法执行任何 GUI 操作
- 操作审计 — 每次 GUI 操作都有截图和操作日志,完整记录在执行回执中,你可以随时回溯
- 一键中断 — 发现问题可以立即点击停止按钮中断执行,系统会提供回滚选项
- 操作限速 — 系统默认限制 GUI 操作的执行速度,防止误操作造成连锁影响
使用场景
批量表单填写
你有一份包含 50 条客户信息的表格,需要逐条填入企业内部系统。智能体可以自动打开系统页面,逐条定位输入框并填写,每填完一条自动提交并进入下一条。
"帮我把这份 Excel 中的客户信息,逐条填入 CRM 系统的新建客户页面。"
跨应用数据搬运
从网页后台导出一份报表,整理后粘贴到 Excel 中,再将 Excel 作为附件通过邮件客户端发送。整个流程涉及浏览器、Excel 和邮件客户端三个应用。
"从管理后台下载本月销售报表,整理成汇总表格,然后用 Outlook 发给财务组。"
定时巡检 GUI 界面
让智能体每天定时打开监控面板,截图并检查关键指标是否正常。如果发现异常数值,自动通知你。
"每天早上 9 点检查一下运维监控面板,如果有红色告警就截图发给我。"
移动端自动化操作
在手机上自动完成重复性操作,如批量回复消息、定时打卡、自动填写问卷等。
"帮我在手机上打开健康打卡应用,填写今天的健康状态并提交。"