一、大厂入局时间线
核心洞察:2025年下半年至2026年初,中国头部科技企业几乎在同一窗口期集中发布了基于 OpenClaw 或同类计算机操控 Agent 的产品。这种"集体爆发"现象标志着 AI Agent 从纯文本对话迈入"操作界面"时代。
从全球范围来看,2024年底 Anthropic 发布 Computer Use(计算机操控)功能,首次让 AI 能够像人类一样操作电脑屏幕——移动鼠标、点击按钮、输入文字、浏览网页。这一技术突破迅速引发行业跟进。2025年,OpenClaw 作为该领域的开源实现方案逐步成形,为各大厂商提供了技术参考和生态基础。
1.1 关键时间节点
| 时间 | 厂商 | 产品/项目 | 里程碑意义 |
| 2024年底 | Anthropic | Computer Use (Claude) | 开创 AI 直接操控电脑界面的技术范式 |
| 2025年Q2 | 腾讯 | QClaw(混元大模型团队) | 国内首个开源计算机操控框架 |
| 2025年Q2 | 腾讯 | WorkBuddy | 面向企业办公场景的 Agent 产品化尝试 |
| 2025年Q3 | 阿里巴巴 | CoPaw + HiClaw | 通义千问驱动,强调多模态感知和操作 |
| 2025年Q3 | 百度 | DuClaw + RedClaw | 文心大模型支撑,搜索业务深度整合 |
| 2025年Q4 | 字节跳动 | ArkClaw | 豆包大模型驱动,追求跨平台兼容 |
| 2025年Q4 | 小米 | miclaw | 从手机/平板到 IoT 设备的系统级操控 |
| 2026年Q1 | 微软 | Copilot 整合 (Computer Use) | 将计算机操控能力整合进 Windows / Copilot |
| 2026年Q1 | NVIDIA | NemoClaw | 面向开发者,底层算力优化方案 |
| 2026年Q1 | 字节跳动 | Moltbook | 面向移动端/平板端的轻量级解决方案 |
为什么是2025-2026?
这一波集中布局有三大驱动力:第一,Anthropic 在2024年底证明了"AI 操控电脑"的技术可行性,消除了行业疑虑;第二,多模态大模型(尤其是视觉理解能力)在2025年实现了质的飞跃,AI"看懂"屏幕不再是瓶颈;第三,各厂商在纯文本对话助手领域竞争趋于同质化,迫切需要新的差异化赛道——"智能操作"成为兵家必争之地。
二、腾讯(QClaw + WorkBuddy)深度解析
核心定位:腾讯在 OpenClaw 生态中扮演着"双轨并行"策略——底层通过 QClaw 开源框架吸引开发者共建生态,上层通过 WorkBuddy 实现企业级产品落地,充分利用微信/企业微信的社交办公场景优势。
2.1 QClaw:开源计算机操控框架
QClaw 是腾讯混元大模型团队推出的开源计算机操控框架,以"Quasi-human Claw"(类人爪)为设计理念,旨在让 AI Agent 能够像人类一样精确操控计算机界面。其技术特点包括:
- 多模态感知层:基于混元大模型的视觉能力,实时截取屏幕画面并解析 UI 元素的位置、类型和状态,支持桌面端(Windows/macOS)和移动端(Android)界面识别。
- 精细化操控引擎:采用"先定位、后操作"的两阶段架构——先通过视觉定位模型标注目标元素坐标,再生成精确的鼠标/触控操作指令。定位精度达到像素级。
- 动作规划模块:将复杂任务(如"填写报销单")分解为原子操作序列(打开浏览器 -> 导航到 OA 系统 -> 点击报销入口 -> 填写表单字段 -> 提交),支持动态纠错和重试。
- 安全沙箱机制:内置敏感操作确认、操作审计日志、权限分级控制等安全措施,防止 AI Agent 执行越权操作。
- 开源策略:采用 Apache 2.0 协议开源,提供 Python SDK 和标准 API 接口,社区贡献者已超过200人。
QClaw 架构概览
QClaw 整体采用"感知-规划-执行"三层架构:感知层负责屏幕截图解析和 UI 元素检测;规划层基于混元大模型的任务分解能力生成操作步骤序列;执行层调用底层系统接口完成具体的鼠标点击、键盘输入等操作。三层之间通过标准化的"操作指令协议"通信,支持各层独立升级替换。
2.2 WorkBuddy:企业级办公 Agent
WorkBuddy 是腾讯在 QClaw 之上构建的企业级 AI 办公助手产品,深度集成于企业微信和腾讯文档生态中。核心功能包括:
- 自动化流程执行:能够自动完成请假审批、费用报销、合同审核等标准办公流程。用户只需自然语言描述需求,WorkBuddy 即可自动操作企业微信后台完成全流程。
- 跨应用操作:支持在企业微信、腾讯文档、腾讯会议、CRM 系统之间自由穿梭操作,实现数据自动流转和任务衔接。例如:从会议纪要中提取待办事项,自动创建腾讯文档任务并分配责任人。
- 文档智能处理:基于计算机操控能力自动排版、格式化、合并/拆分文档,支持批量处理 Excel 数据报表、生成 PPT 演示文稿等。
- 培训与演示:企业内测数据显示,WorkBuddy 在标准办公流程场景中可将操作时间平均缩短 60%,错误率降低 85%。
2.3 腾讯的差异化优势
- 社交+办公生态闭环:微信/企业微信连接了超过 1500 万家企业,天然适合 Agent 产品的规模化渗透。
- 开源策略抢占开发者心智:QClaw 的开源策略吸引了大批开发者和企业用户,形成了良好的社区生态。
- 混元大模型的自研能力:腾讯混元在多模态理解和指令跟随方面的持续迭代,为 QClaw 提供了底层能力保障。
三、阿里巴巴(CoPaw + HiClaw + Hermes Agent)
核心定位:阿里巴巴采用"三箭齐发"策略,CoPaw 聚焦电商运营场景,HiClaw 定位通用平台框架,Hermes Agent 则探索更前沿的 Agent 架构。阿里云的通义千问大模型和丰富的电商/企业服务场景构成了其核心护城河。
3.1 CoPaw:电商运营 Agent
CoPaw 是阿里巴巴推出的面向电商运营场景的 AI 计算机操控 Agent,其名称寓意为"协同之爪"(Collaborative Paw)。核心应用场景涵盖:
- 商品上架与详情页优化:自动登录千牛卖家中心,上传商品图片、填写标题和描述、设置价格和库存参数,优化详情页排版。
- 店铺运营自动化:自动进行优惠券设置、满减活动配置、店铺装修、客服消息批量回复等日常运营操作,大幅减少人工重复劳动。
- 竞品分析监控:定时访问竞品店铺页面,采集价格变动、上新情况、促销策略等信息,生成分析报告。
- 数据报表处理:自动从生意参谋等后台系统中提取销售数据,进行可视化处理和异常检测。
CoPaw 在淘宝/天猫商家群体中已开放内测,首批 5000 家商户的使用数据显示,店铺日常运营效率平均提升 3-5 倍,商品上架时间从平均 15 分钟缩短至 2 分钟以内。
3.2 HiClaw:通用 Agent 平台
HiClaw 是阿里巴巴推出的通用计算机操控 Agent 平台,定位为"AI Agent 的操作系统":
- 跨平台兼容:支持 Windows、macOS、Linux 桌面环境,以及 Android、iOS 移动端界面操控,统一的 API 接口降低了开发者的适配成本。
- 插件生态:提供插件市场,第三方开发者可以开发专用的"操作技能包"(如 Photoshop 操作技能包、SAP 系统操作技能包),每个技能包针对特定应用的操作流程进行优化。
- 通义千问深度集成:底层依赖通义千问 2.5 的多模态能力,在 UI 元素识别、操作意图理解和任务规划方面表现出色。
- 阿里云服务整合:与阿里云的函数计算、OSS 存储、日志服务等无缝集成,方便企业构建生产级 Agent 工作流。
3.3 Hermes Agent:下一代 Agent 架构探索
Hermes Agent 是阿里巴巴达摩院的前沿研究项目,代表了下一代 Agent 架构方向:
- 自我反思与纠错:引入"思考-行动-观察-反思"的循环机制,Agent 在执行每一步操作后主动评估结果是否正确,发现错误自动回退重试。
- 长期记忆与经验积累:支持从过往操作中学习经验,形成可复用的"操作记忆库"(Operation Memory Bank),类似人类的肌肉记忆。
- 多 Agent 协作:支持多个 Agent 实例协同完成复杂任务(如一个 Agent 负责数据收集、另一个负责数据分析、第三个负责报告撰写),通过标准化通信协议协调。
- 研究定位:Hermes Agent 目前更多地处于研究探索阶段,其技术积累正在逐步反哺 CoPaw 和 HiClaw 的产品迭代。
"阿里巴巴的 Agent 布局从来不是单一产品思维,而是构建一个从底层模型到平台框架再到垂直场景的全栈能力体系。CoPaw 解决今天的问题,HiClaw 构建明天的平台,Hermes Agent 探索后天的方向。"
四、字节跳动(ArkClaw + Moltbook)
核心定位:字节跳动以"豆包"大模型为核心引擎,ArkClaw 面向桌面端提供通用计算机操控能力,Moltbook 专注移动端/平板端轻量化方案。字节的策略侧重于内容创作和广告投放等核心业务场景的深度结合。
4.1 ArkClaw:通用桌面操控 Agent
ArkClaw(名称取自"方舟之爪")是字节跳动推出的通用桌面端计算机操控 Agent,基于豆包大模型的多模态能力构建。技术特色包括:
- 高性能 UI 识别:自研的界面元素识别模型在主流 UI 组件检测基准上达到业界领先水平。支持动态元素(如弹出菜单、下拉列表、加载动画)的状态感知,操控成功率超过 92%。
- 跨平台兼容设计:基于 Chromium 渲染引擎的截图分析技术,在 Windows、macOS、Linux 上实现一致的操控体验,对 Electron 应用的操控尤其稳定。
- 错误恢复机制:引入"执行回滚"能力 —— 当某一步操作失败时,Agent 能够自动恢复到操作前的界面状态重新尝试,而非简单重试导致错误累积。
- 内容创作场景深耕:与剪映、飞书、巨量引擎等字节系产品深度整合,支持视频剪辑自动化、文章排版发布、广告素材制作等工作流。
ArkClaw 在广告投放中的应用
字节跳动的核心收入来自广告业务。ArkClaw 的一个关键应用场景是巨量引擎广告账户管理——Agent 能够自动完成广告计划创建、素材上传、出价调整、数据监控等日常操作。据内部数据,广告优化师使用 ArkClaw 后,账户管理效率提升 4 倍以上,人效比显著改善。
4.2 Moltbook:移动端 Agent
Moltbook 是字节跳动面向移动端/平板端推出的轻量级计算机操控方案,具有以下特点:
- 轻量化架构:模型体积压缩至桌面版的 1/5,可在中端手机上流畅运行,端侧推理延迟控制在 200ms 以内。
- 触控操作优化:针对触控交互特点优化——支持滑动、长按、多点触控等移动端特有操作,而非简单模拟鼠标点击。
- App 内操作能力:支持操作抖音、今日头条、番茄小说等字节系 App 的界面,以及第三方应用,实现跨 App 数据流转。
- 应用场景:直播助手(自动回复评论、上架商品)、内容运营(自动发布和管理多平台内容)、移动办公(自动处理邮件和消息)等。
4.3 字节的独特视角
字节跳动在 Agent 领域的布局有三个独特特点:第一,强调"内循环优先",先解决自己生态内的效率问题(广告、内容、飞书),再向外输出;第二,移动端优先,以 Moltbook 为抓手,在智能手机 Agent 这一增量市场抢占先机;第三,豆包大模型的用户量级为 Agent 产品提供了天然的流量入口和反馈数据。
五、百度(DuClaw + RedClaw + 百度搜索 Skill)
核心定位:百度的策略以"搜索为核心枢纽",DuClaw 作为通用操控框架,RedClaw 聚焦安全场景,同时通过"百度搜索 Skill"将计算机操控能力与搜索引擎深度整合,打造"搜索+操作"的一体化体验。
5.1 DuClaw:通用操控框架
DuClaw 是百度推出的通用计算机操控 Agent 框架,基于文心大模型 4.0 构建:
- 文心大模型驱动:文心 4.0 在中文 GUI 理解和操作意图识别方面表现突出,在百度的内部评测中,对中国软件(如微信、钉钉、WPS 等)的操作准确率领先开源方案 15% 以上。
- 搜索增强架构:独特地融合了百度搜索能力——当 Agent 不确定如何操作时,可以"搜索"相关操作文档和教程,实现操作知识的动态扩展。
- 百度系产品整合:深度支持百度网盘文件管理(自动分类、备份、分享)、百度文库文档处理(格式转换、批量下载)、百度地图路线规划等场景。
- 开发者工具链:提供完整的 SDK、调试工具、模拟测试环境和性能监控面板,降低企业二次开发门槛。
5.2 RedClaw:安全 Agent
RedClaw 是百度推出的面向网络安全领域的计算机操控 Agent,名称取自"红队"(Red Team)的安全测试传统:
- 自动化渗透测试:Agent 能够自动登录目标系统、执行安全扫描、发现漏洞并生成渗透测试报告,将安全测试人员从重复性工作中解放出来。
- 安全运维自动化:自动执行系统安全配置检查、日志分析、异常检测和应急响应操作,7x24 小时监控企业安全状态。
- 合规审计辅助:自动采集和整理安全合规所需的各类证据材料,生成合规审计报告。
- 百度安全生态联动:与百度安全大脑、威胁情报平台深度集成,实现安全事件的智能研判和自动处置。
5.3 百度搜索 Skill
"百度搜索 Skill" 是百度在 OpenClaw 生态中的差异化功能模块,将百度的核心搜索能力以"技能"形式注入 Agent:
- Agent 自主搜索:当任务需要外部信息时,Agent 可以自动打开浏览器,在百度搜索中查找所需信息,并提取关键内容用于后续操作。
- 结果驱动的操作:例如:Agent 搜索"最新报销政策",理解搜索结果后自动调整报销审批流程中的参数。
- 知识库增强:每次搜索和操作的经验沉淀形成企业私有知识库,后续同类任务可直接借鉴历史经验,效率持续提升。
百度的搜索护城河
百度搜索 Skill 的核心价值在于:其他厂商的 Agent 只能操作"已知"的应用,而百度的 Agent 可以通过搜索"学习"操作任何不了解的系统。这种"可搜索"能力使得 DuClaw 在处理未知界面和长尾应用场景时具有独特的理论优势。
六、小米(miclaw + 系统级能力)
核心定位:小米的 miclaw 不追求通用性,而是深耕"系统级操控"——利用小米在手机、平板、智能家居、汽车等终端的系统级权限优势,实现硬件与软件一体化的 Agent 操控体验。这是其他互联网厂商难以复制的差异化能力。
6.1 miclaw:终端操控 Agent
miclaw 是小米 AI 实验室推出的系统级计算机操控 Agent,其最大特点是与小米澎湃 OS(HyperOS)的深度整合:
- 系统级权限:作为手机厂商,小米拥有其他互联网公司不具备的系统底层权限。miclaw 可以直接调用系统 API 而非模拟操作,实现了更高的执行效率和稳定性。
- 跨设备操控:支持在小米手机、小米平板、小米笔记本、小米电视甚至小米汽车之间实现 Agent 的跨设备操作。例如:用户可以说"把手机上的照片传到电视上播放",Agent 自动完成全流程。
- IoT 设备操控:通过与米家生态的深度整合,miclaw 可以操控超过 6 亿台连接设备——开关灯、调节空调、控制扫地机器人等,自然语言指令直接转化为设备操作。
- 小爱同学融合:与小爱同学深度融合,用户唤醒小爱同学后,复杂的设备操作需求由 miclaw 代理执行。
系统级 vs. 模拟级操控
这是理解 miclaw 差异性的关键:多数大厂的 Agent(如 QClaw、CoPaw)采用的是"模拟操作"方式——AI "看"屏幕,然后模拟鼠标/触控操作。而 miclaw 可以直接调用系统 API 执行操作,类似于"程序化操作"。前者更通用但效率和稳定性受限,后者更快更稳但需要系统权限。小米凭借硬件生态,天然拥有走"系统级"路线的资格。
6.2 应用场景
- 智能家居场景:"我准备睡觉了"——Agent 自动关灯、拉窗帘、调低空调温度、开启加湿器、设置起床闹钟。
- 办公场景:在小米笔记本上操控手机 App(如微信、抖音),实现在 PC 上操作手机应用的流畅体验。
- 汽车场景:小米汽车 SU7 的车机系统中,miclaw Agent 可以自动完成导航设置、音乐播放、座椅调节、充电站查找等操作。
- 自动化场景:"每天早上 8 点打开窗帘,播报天气,播放新闻摘要"——Agent 编排一套跨设备的自动化工作流。
6.3 小米的战略意义
小米的 Agent 布局揭示了"硬件+AI"的独特路径:在 Agent 竞争中,软件厂商比拼的是算法和数据,而硬件厂商拥有"端侧入口"和"系统权限"两张王牌。当 Agent 进入"操作万物"的时代,能够操控物理世界(家电、汽车)的 Agent 比仅操控软件的 Agent 具有更广阔的应用想象空间。
"互联网公司做 Agent,是教 AI 使用电脑;小米做 Agent,是教 AI 使用世界。"
七、国际玩家(微软 Copilot 整合评估、NVIDIA NemoClaw)
核心洞察:国际巨头的布局思路与国内厂商形成鲜明对比。微软走"系统整合"路线,将计算机操控能力内置于 Windows 和 Copilot 中;NVIDIA 走"开发者工具"路线,专注于底层算力优化和开发工具链。两者都不追求独立的产品形态,而是强化自身在生态中的底座价值。
7.1 微软:Copilot 计算机操控整合评估
微软在 2026 年初通过 Windows 11 大版本更新,正式将计算机操控 Agent 能力整合进 Microsoft Copilot。这一整合的意义远超单一产品发布:
7.1.1 整合架构
- 系统级嵌入:操作能力不是独立的应用程序,而是嵌入在 Windows 操作系统层面。Copilot 可以直接调用 Windows UI Automation 框架(UIA)进行精确元素定位,而非纯视觉识别,精度和速度均优于模拟方案。
- Office 全家桶覆盖:深度整合了 Word、Excel、PowerPoint、Outlook、Teams 等 Office 应用的操作能力,能够实现"根据邮件内容自动创建 PPT 并发送给团队"等跨应用工作流。
- Azure + 端侧混合架构:简单操作在端侧完成(低延迟),复杂推理任务卸载到 Azure 云端(强算力),实现体验与能力的平衡。
7.1.2 核心能力评估
| 评估维度 | 表现 | 备注 |
| Office 操作精准度 | 极高 | 基于 UIA 框架,非视觉模拟 |
| 第三方应用兼容性 | 中等 | 依赖应用是否支持 UIA |
| 跨应用工作流 | 优秀 | Office + Windows 原生无缝衔接 |
| 学习成本 | 低 | 作为 Copilot 功能模块,无需额外安装 |
| 开放生态 | 有限 | 深度绑定 Microsoft 生态 |
| 端侧性能 | 优秀 | NPU 加速,离线可用 |
7.1.3 战略意义
微软的策略本质上是"能力内置,生态锁定"——通过将计算机操控能力深度嵌入 Windows 和 Office,微软不仅能提升用户体验,更能进一步强化开发者对微软生态的依赖。这是微软在移动时代落后后,希望在 AI Agent 时代重新定义"操作系统的价值"的关键举措。
7.2 NVIDIA NemoClaw
NVIDIA NemoClaw 是 NVIDIA 面向 AI Agent 开发者推出的计算机操控底层优化方案,定位与国内大厂的 Agent 产品截然不同:
- GPU 加速的视觉推理:利用 NVIDIA GPU 的并行计算能力,将屏幕图像解析速度提升 10-50 倍。NemoClaw 的核心创新在于将 UI 元素检测和定位的推理过程直接在 GPU 上完成流水线处理。
- Nemo 框架集成:作为 NVIDIA NeMo 生态的一部分,提供预训练的操作模型、微调工具链和模型部署方案,降低企业开发计算机操控 Agent 的技术门槛。
- 端侧解决方案:推出 NemoClaw-Edge 版本,针对 Jetson 等边缘设备进行了优化,支持在机器人、自动驾驶、工业检测等边缘场景中部署计算机操控能力。
- 性能基准:在标准 GUI 操作测试集上,NemoClaw 优化后的视觉定位模型在 A100/H100 GPU 上实现了 60fps 的实时处理能力,延迟低于 20ms。
NVIDIA 的"卖铲子"策略
NVIDIA 再次践行了"淘金热中卖铲子"的策略——不直接参与 Agent 产品竞争,而是提供基础设施。无论哪家厂商的 Agent 胜出,都需要更快的 GPU、更好的推理框架,这正是 NVIDIA 的优势所在。NemoClaw 的推出可以看作是 NVIDIA 在 AI Agent 时代的"算力护城河"加固工程。
7.3 国际 vs. 国内策略对比
| 维度 | 国内厂商 | 国际厂商 |
| 产品形态 | 独立框架/平台,强调开源 | 整合进现有生态(Windows/Office) |
| 技术路线 | 视觉识别 + 模拟操作 | 系统 API + 混合架构 |
| 重点场景 | 电商运营、广告投放、办公 | 系统自动化、Office 办公 |
| 商业模式 | 开源引流 + 企业版收费 | 生态锁定 + 订阅制 |
| AI 模型 | 自研大模型(混元/通义/文心/豆包) | OpenAI/Copilot + 自研 |
| 硬件整合 | 小米独有,其他较少 | NVIDIA 的 GPU 优化 |
八、产业意义与竞争格局
核心判断:OpenClaw 领域的竞争不仅仅是技术竞赛,更是"下一代人机交互入口"的争夺战。谁能率先实现 Agent 对桌面/移动端操作的规模化替代,谁就能在 AI 时代的"操作系统"层面占据制高点。
8.1 产业价值定位
计算机操控 Agent 的产业价值可以从三个层面理解:
- 效率革命层:将人类从重复性电脑操作中解放出来。据麦肯锡估算,全球企业员工平均有 30-40% 的工作时间用于标准化的数字操作(数据录入、报表生成、信息检索等),这些工作理论上均可由 Agent 替代。仅此一项,Agent 技术每年可释放数万亿美元的经济价值。
- 交互范式层:人机交互正经历从 CLI → GUI → LUI(语言用户界面)的第三次跃迁。计算机操控 Agent 是 LUI 落地的关键一环——用户不再需要通过点击菜单和按钮来操作软件,而是直接用自然语言描述需求,由 AI Agent 自动执行。
- 商业模式层:Agent 正在创造全新的"操作即服务"(Operation as a Service)商业模式。厂商可以根据 Agent 执行的操作次数、操作复杂度或节省的时间来收费,这比传统的软件许可证或 SaaS 订阅具有更大的灵活性和增长潜力。
8.2 竞争格局分析
目前 OpenClaw 领域的竞争格局可以概括为"一超多强,格局未定":
- 先发优势:腾讯 QClaw 在开源社区中具有先发优势,GitHub Star 数量和社区贡献者数量领先于其他国内开源项目。
- 场景优势:阿里巴巴利用电商场景(CoPaw)实现了最快、最直接的商业化验证,客户付费意愿最强。
- 流量优势:字节跳动凭借豆包 App 的亿级用户量,在 C 端 Agent 产品的用户触达方面最具优势。
- 搜索壁垒:百度的搜索增强 Agent 在"知识+操作"的结合上具备独特的差异化能力。
- 硬件的降维打击:小米从硬件切入 Agent 赛道,拥有其他互联网公司无法复制的系统级操控能力和 IoT 生态。
- 系统霸权:微软凭借 Windows 和 Office 的垄断地位,在桌面端 Agent 领域拥有最强大的生态议价能力。
未来格局推演
中期来看(1-2年),市场可能出现以下演变:第一,差异化竞争仍将持续,各厂商在自身优势场景中深耕;第二,标准化趋势浮现,行业可能形成统一的操作指令协议和 Agent 互操作标准;第三,并购整合加速,拥有独特技术但缺乏生态的中小团队可能被大厂收购。长期来看(3-5年),Agent 能力可能像今天的"云服务"一样成为底层基础设施,竞争焦点将从"谁的 Agent 更强"转向"谁的生态更丰富"。
8.3 关键挑战
- 技术可靠性:计算机操控 Agent 面临的核心挑战是"99% 的成功率等于不可用"——在关键业务场景中,一次错误操作可能导致严重后果。目前各厂商的操控成功率在 85-95% 之间,距离生产级可靠还有明显差距。
- 安全性:Agent 拥有操作电脑的权限,这意味着它可能被滥用或恶意攻击。权限控制、操作审计、行为隔离等安全机制是 Agent 规模化落地的前提。
- 标准化缺失:各厂商的操作指令格式、Agent 通信协议、安全规范尚未统一,这阻碍了跨平台 Agent 协作和生态互通。
- 用户信任:让用户放心地将电脑操作权限交给 AI 需要时间,用户教育是 Agent 普及的重要前提。
九、核心要点总结
9.1 全景速览表
| 厂商 | 核心产品 | 技术优势 | 场景优势 | 差异化标签 |
| 腾讯 | QClaw + WorkBuddy | 混元大模型 + 开源生态 | 企业办公/企业微信 | 开源先行,办公落地 |
| 阿里巴巴 | CoPaw + HiClaw + Hermes | 通义千问 + 达摩院前沿 | 电商运营/阿里云企业 | 电商深耕,三箭齐发 |
| 字节跳动 | ArkClaw + Moltbook | 豆包大模型 + 端侧优化 | 内容创作/广告投放 | 移动优先,内容为王 |
| 百度 | DuClaw + RedClaw | 文心大模型 + 搜索增强 | 搜索生态/安全服务 | 搜索驱动,安全并行 |
| 小米 | miclaw | 系统级 API + 端侧 AI | IoT/智能设备/汽车 | 硬件降维,操控万物 |
| 微软 | Copilot Computer Use | Windows API + Office | 桌面办公/企业 IT | 系统内置,生态锁定 |
| NVIDIA | NemoClaw | GPU 加速 + NeMo 工具链 | 开发者生态/边缘计算 | 底层赋能,卖铲策略 |
9.2 十大核心洞察
- 集体爆发非偶然:2025-2026 年国内外巨头集中布局计算机操控 Agent,标志着 AI 从"对话"走向"操作"的范式转变。
- 开源成为标配:国内厂商普遍选择开源策略(QClaw 等),旨在抢占开发者生态,这与国际巨头的闭源整合形成鲜明对比。
- 场景决定路径:各厂商的 Agent 产品与其核心业务高度绑定——腾讯连办公、阿里连电商、字节连内容、百度连搜索,没有放之四海而皆准的通用方案。
- 系统级 vs 模拟级:小米的"系统 API"路线和微软的"UIA 框架"路线在效率和稳定性上优于纯视觉模拟方案,但受限于生态覆盖范围。
- 安全是命门:Agent 安全(权限控制、操作审计、防滥用)是所有厂商面临的最大共同挑战,也是用户信任的基础。
- 人机交互的代际革命:从 CLI 到 GUI 再到 LUI(语言用户界面),计算机操控 Agent 是第三代交互范式的关键技术支柱。
- 商业模式创新:"操作即服务"(OaaS)正在成为新的定价模式,按操作次数/复杂度/节省时间计费将改变软件行业。
- 标准化需求迫切:统一的操作指令协议和 Agent 通信标准是行业发展的基础设施需求,标准之争可能成为下一阶段竞争焦点。
- 硬件厂商的独特优势:拥有系统级权限的硬件厂商(小米、微软)在 Agent 操控能力上具有软件厂商难以追赶的底层优势。
- 变局仍在继续:当前的操控成功率(85-95%)距离生产级可靠(99.9%+)还有明显差距,技术竞赛远未结束。
最终总结:OpenClaw 大厂布局全景图揭示了 AI Agent 产业化的关键转折点——计算机操控能力正在从实验室走向规模化应用。各厂商的布局思路虽然策略各异(开源 vs 闭源、通用 vs 垂直、软件 vs 硬件),但共同指向了一个明确的方向:未来的人机交互将不再局限于"让 AI 回答问题",而是"让 AI 替你做事情"。这场竞赛的终局,将决定下一个十年的人机交互入口和 AI 时代的"操作系统"归属。