跳到主要内容

GUI 桌面自动化

什么是 Computer Use

智能体不仅能处理文字和文件,还能像人一样操作电脑和手机的图形界面——打开应用、点击按钮、填写表单、截图识别。

这项能力被称为 Computer Use(桌面自动化)。它通过在目标设备上安装 HostAgent 插件来实现。安装后,智能体就能"看到"你的屏幕,并像人一样操作鼠标和键盘,完成跨应用、跨平台的自动化任务。

这意味着,即使某个软件没有提供 API 或 MCP 接口,智能体也可以通过操作它的图形界面来完成任务——就像你本人坐在电脑前操作一样。

工作原理

Computer Use 采用 HostAgent 插件架构,整体流程如下:

  1. 你下达任务 — 在 DesireCore 中用自然语言描述你想做的事,例如"帮我在 ERP 系统中提交这份采购申请"
  2. 智能体制定操作计划 — 智能体分析任务,拆解为一系列 GUI 操作步骤
  3. HostAgent 执行操作 — 安装在目标设备上的 HostAgent 接收指令,在设备上执行鼠标点击、键盘输入等操作
  4. 截图回传与验证 — 每一步操作后,HostAgent 截取屏幕画面回传给智能体,智能体通过视觉识别判断操作是否成功
  5. 结果汇报 — 任务完成后,智能体将执行结果反馈给你,并附带完整的操作截图记录

你可以把它理解为一个"远程桌面的智能版"——不是你远程操作,而是智能体替你操作。

支持的操作

操作类型具体能力示例场景
鼠标操作点击、双击、右键、拖拽、滚动点击网页上的"提交"按钮
键盘输入打字、快捷键、组合键在表单中填入客户信息
截图识别截取屏幕、识别元素位置和文字读取报表中的关键数据
应用操作打开/切换/关闭应用、窗口管理打开 Excel 并切换到指定工作表
表单填写自动定位输入框并逐项填写批量填写企业系统中的审批表单
文件操作通过文件管理器复制、移动、重命名将下载目录中的文件整理到归档文件夹

支持的平台

平台支持情况说明
Windows安装桌面端 HostAgent
macOS安装桌面端 HostAgent
Linux安装桌面端 HostAgent
Android安装移动端 HostAgent
iOS安装移动端 HostAgent
HarmonyOS安装移动端 HostAgent

安装与配置

第一步:安装 HostAgent

在你需要自动化操作的目标设备上安装 HostAgent:

  1. 前往 HostAgent 下载页面,选择对应平台的安装包
  2. 下载并安装到目标设备
  3. 启动 HostAgent,它会在后台运行并等待配对
多设备支持

你可以在多台设备上安装 HostAgent,然后统一在 DesireCore 中管理。例如,同时连接一台 Windows 工作电脑和一部 Android 手机,让智能体根据任务需要自动选择在哪台设备上操作。

第二步:设备配对

在 DesireCore 中完成设备连接:

  1. 打开 设置设备管理
  2. 点击"添加设备",DesireCore 会自动发现同一网络下运行中的 HostAgent
  3. 选择目标设备,输入 HostAgent 上显示的配对码
  4. 配对成功后,设备状态显示为"已连接"

配对完成后,智能体在执行 GUI 任务时就能使用该设备。

第三步:权限授予

部分操作系统需要额外授权才能正常使用:

  • macOS:需在"系统设置 → 隐私与安全 → 屏幕录制"和"辅助功能"中授权 HostAgent
  • Windows:建议以管理员身份运行 HostAgent,确保可操作所有应用窗口
  • 移动端:需在系统设置中开启无障碍服务权限

全程状态追踪

GUI 操作比文字处理更"不确定"——界面可能加载慢、按钮可能位置变化、弹窗可能意外出现。DesireCore 为此设计了完整的状态追踪机制:

  • 实时监控 — 在 DesireCore 中实时查看 GUI 操作的每一步进度,包括当前正在操作什么、屏幕截图是什么样
  • 超时自动提醒 — 如果某步操作超过预期时间(如页面加载卡住),系统会自动通知你
  • 失败自动重试 — 简单的操作失败(如元素尚未加载完成)会自动等待并重试,无需你手动干预
  • 失败重分配 — 如果某个操作路径行不通(如按钮被遮挡),智能体会尝试替代方案,例如用键盘快捷键代替鼠标点击
操作回放

任务完成后,你可以在执行回执中查看完整的操作截图序列,直观了解智能体的每一步操作。

安全边界

DesireCore 的三层可控性体系在 GUI 操作中同样严格生效。由于 GUI 操作直接控制设备,安全机制更加审慎。

敏感操作需确认

涉及敏感操作的 GUI 任务(如支付确认、删除数据、发送重要消息、修改系统设置)会自动触发人闸门,暂停执行并等待你的确认后才会继续。

  • 应用白名单 — 你可以设定哪些应用允许智能体操作,哪些禁止。未授权的应用,智能体无法执行任何 GUI 操作
  • 操作审计 — 每次 GUI 操作都有截图和操作日志,完整记录在执行回执中,你可以随时回溯
  • 一键中断 — 发现问题可以立即点击停止按钮中断执行,系统会提供回滚选项
  • 操作限速 — 系统默认限制 GUI 操作的执行速度,防止误操作造成连锁影响

使用场景

批量表单填写

你有一份包含 50 条客户信息的表格,需要逐条填入企业内部系统。智能体可以自动打开系统页面,逐条定位输入框并填写,每填完一条自动提交并进入下一条。

"帮我把这份 Excel 中的客户信息,逐条填入 CRM 系统的新建客户页面。"

跨应用数据搬运

从网页后台导出一份报表,整理后粘贴到 Excel 中,再将 Excel 作为附件通过邮件客户端发送。整个流程涉及浏览器、Excel 和邮件客户端三个应用。

"从管理后台下载本月销售报表,整理成汇总表格,然后用 Outlook 发给财务组。"

定时巡检 GUI 界面

让智能体每天定时打开监控面板,截图并检查关键指标是否正常。如果发现异常数值,自动通知你。

"每天早上 9 点检查一下运维监控面板,如果有红色告警就截图发给我。"

移动端自动化操作

在手机上自动完成重复性操作,如批量回复消息、定时打卡、自动填写问卷等。

"帮我在手机上打开健康打卡应用,填写今天的健康状态并提交。"

下一步

  • 想了解完整的工具体系?请阅读 工具系统
  • 想了解内置工具清单?请阅读 内置工具
  • 想了解如何接入更多外部工具?请阅读 MCP 集成