雷峰网讯 百度针对企业级场景设计的桌面级 AI 智能体 DuMate 于今年 3 月 22 日全量上线。从我们对于 AI 办公产品的以往测评来看,能够真实进入办公场景的产品还是不多见。
DuMate 能否打破中看不中用的魔咒,成为一款真正能 " 抗活儿 " 的 AI 搭子?带着这样的疑问,我们设计了一项覆盖项目研究、结果整理以及包括四种交付物的多形态输出任务。看看百度智能云 DuMate,究竟能把任务推进到什么程度。

先看产品逻辑:解决真实工作流问题
中国一众 AI 玩家里,百度的打法一直有自己的逻辑。文心一言打头部认知市场,秒哒打无代码应用搭建,而 DuMate 则试图填补一个更具体的位置,个人及团队的日常办公场景中,真正替代那些需要 " 操作软件、串联文件、交付结果 " 的重复劳动。
本质上,这就是桌面级 Agent 的生态位。AI 助手的价值,不在于 " 答得更好 ",更在于 " 做得更多 "。当大模型的推理能力逐渐同质化,真正拉开差距的,是谁能更好地把 AI 嵌入真实工作流,并交付可留存、可复用的结果。
根据百度智能云公开资料,DuMate 强调的不只是问答,而是 " 看见屏幕、操作软件、处理文件、串联业务系统 "。看起来简单的功能定位,实际上覆盖了从桌面执行、工作区、技能扩展到本地安全、办公交付的整条工作链。在技术逻辑上,这需要 DuMate 具备三个层次的能力。
第一层是感知与理解。DuMate 需要理解用户在说什么、想做什么,这背后是将自然语言指令映射为具体操作序列的能力。
第二层是工具调用与执行,理解之后,DuMate 需要调起正确的工具,读写文件、操作浏览器、执行代码、调用 API。这要求它对桌面环境有真实的感知和控制能力,而非只返回一个 API 调用建议。
最后就是结果交付与归档。执行完成后,结果需要以正确的形态输出,对于办公助手来说,这往往是 Word 文档、Excel 表格、PPT 演示或者网站页面。而且交付物本身必须可留存、可复用。
今年 3 月 22 日全量上线后,DuMate 迅速补齐了技能广场、Word/PPT/Excel 优化、文件预览解析、每日总结、消息渠道接入和正式计费等能力。在不到一个月的时间内,核心办公能力已经基本完整。DuMate 办公工作台的产品逻辑已经越发清晰:即通过一个智能体,将用户模糊的目标,直接转化为可留存、可复用的最终交付物,从而真正嵌入并解决真实的工作流问题。
02
实测:一套事实底稿,四种交付物
这次测试,我们没有选择常见的 " 写一篇文章 " 或 " 整理一份表格 " 之类不痛不痒的轻任务,而是给 DuMate 布置了一项更接近真实工作的复杂任务,围绕某一个 GitHub 项目,完成一次 " 项目研究 + 多形态交付 " 任务。
比如让 AI 做一张 excel 或者生成一张 PPT,这类任务太简单、太干净,现实中很少有人这样工作,根本测不出来 AI 的水平。但是用一个真实的、杂乱的、多源信息的任务来考核 AI,比如围绕一个 GitHub 项目做任务,这正是研发、产品、技术写作人员日常会碰到的工作。如果 AI 在这种任务上表现不错,那它在真实办公场景中大概率也能派上用场。
这次我们选择的 GitHub 项目叫做 everything-claude-code,给不熟悉的朋友介绍一下。这个项目在 GitHub 上的 Star 数已经超过了 14 万。比起某种工具,它更像是一套专为 Claude Code 等 AI 编程工具设计的工程化配置系统,既能用来调教 AI,也能拿它学习怎么跟 AI 打配合。
Everything-claude-code 被设计出来的目的就是把 AI 从 " 聊天助手 " 升级成可遵循规范、沉淀经验的智能工程系统。
具体来说它解决的是四大痛点:
持久化记忆:通过自动化钩子实现跨会话上下文保存,避免换项目就失忆;
规范化流程:将开发拆解为规划、审查、测试等环节;
自动化检查:内置安全扫描工具 AgentShield,含 1282 项测试和 102 条安全规则;
持续学习:AI 自动提取有效模式沉淀为团队知识。
整个项目组件像一个完整的 "AI 开发流水线 ",包括 30 多个各司其职的 Agent,150+ 个可复用 Skill 固化成的最佳实践,70+ 条快捷命令一键触发复杂流程,还有 30 余条规则构成 AI 的行为底线。
简单来说,everything-claude-code 就是将一位资深工程师的一次性对话变成了可积累、可优化的 " 工程实践 ",并且能直接服务于你的私人 Agent 助理。
我们为 DuMate 设计的测试任务,就是要求它对开源在 GitHub 上的 everything-claude-code 进行整理,并把这份 " 秘籍 " 以 Excel 内容目录、Word 说明书、PPT 大纲与逐页内容、网站四种形式进行输出。
测试题目:
代码块
请围绕 GitHub 项目 everything-claude-code(https://github.com/affaan-m/everything-claude-code)完成一次 " 项目研究 + 多形态交付 " 任务。
注意:该项目不是普通应用,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统。请重点分析其 commands、skills、hooks、rules、guides、install scripts、配置与集成方式,不要误写成传统 SaaS 或单体软件。
请你先基于 GitHub 仓库和公开网络资料完成研究,形成一份 " 统一事实底稿 ",再基于这同一套事实底稿输出以下 4 项交付物:
1. 一份可归档的正式 Word 说明书 , 以计算机类专业书籍的格式呈现
2. 一份适合介绍 / 汇报的 PPT 内容稿,面向计算机专业群体
3. 一个可本地预览的展示型静态网站
4. 一份 Excel 统计表,用于统计当前项目的组件 / 模块 / 目录 / 关键文件数量、名称、作用说明及备注
一、研究范围
至少覆盖:
- 项目定位、目标用户、解决的问题、典型场景
- commands / skills / hooks / rules / guides / scripts / 配置文件 / tests / integrations 的结构与作用
- 安装、配置、接入方式、典型用法
- 架构或工作机制
- 当前版本状态、最近更新、维护活跃度
- 风险、限制、不确定项
- GitHub 之外的 guide、release、官网、文档、博客、社区、教程、讨论等资料
二、统一事实底稿
请先输出一份结构化项目情报,作为后续全部交付物的唯一事实来源。
要求:
- 先输出 " 统一事实底稿 ",标注【已确认】【推断】【待确认】,尽量附来源链接
- 如有资料冲突,列出冲突点与判断依据
- 所有后续交付物必须严格基于同一套事实底稿,彼此不得矛盾
- 不得编造项目中不存在的功能、组件、版本或官方信息
三、交付物要求
1)Word:面向首次接触者,章节完整、专业正式,适合归档 / 培训 / 对外说明;若不能直接生成 .docx,则提供完整正文、标题层级、封面建议、排版建议和文件名
2)PPT:适合介绍 / 汇报,不照搬说明书;先大纲后逐页;每页含标题、3-6 个要点、图示建议、演讲备注;10-18 页;若不能直接生成 .pptx,则提供完整逐页内容和文件名
3)网站:若不能直接发布,则生成本地可运行的静态网站目录;至少包含首页、项目介绍、核心能力、安装使用、架构说明、FAQ、参考资料;提供目录结构、全部文件内容、入口文件名和打开方法;优先使用无需复杂构建的 HTML/CSS/JS
4)Excel:先说明统计口径;统计当前项目的目录、commands、skills、hooks、rules、scripts、docs/guides、配置文件、tests、integration targets 等数量、名称、路径、作用说明、所属类别、备注、来源依据;若不能直接生成 .xlsx,则提供可直接导入 Excel 的 CSV 或表格内容及文件名
四、输出顺序
1. 研究方法与信息来源
2. 统一事实底稿
3. Excel 统计口径与统计表
4. Word 说明书
5. PPT 大纲与逐页内容
6. 网站目录结构与文件内容
7. 风险说明、未确认项、受限项
8. 最终交付清单与建议文件名
五、全局约束
- 所有产出必须基于同一套事实底稿,彼此不得矛盾
- 不得编造 GitHub 仓库中不存在的功能、组件、版本或官方信息
- 对不确定内容必须明确标注
- 不得在无法生成真实 .docx/.pptx/.xlsx 文件时谎称 " 已生成完成 "
这项任务的难点在于,everything-claude-code 不是普通应用程序,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统,因此 DuMate 不能把它误写成传统 SaaS 或单体软件。
此外由于超高的热度,everything-claude-code 在网络上有大量公开资料补充,DuMate 的研究不能局限于 GitHub 仓库。良莠不齐的公开资料又对交付质量提出了挑战,即所有内容必须基于同一套 " 统一事实底稿 ",DuMate 需要甄别、摒弃那些自相矛盾的错误信息。
最终,它需要交付四样东西:一份 Word 说明书、一份 PPT 内容稿、一个可本地预览的静态网站,以及一份 Excel 统计表。
DuMate 的表现如何呢?下面来看看:
搭底稿:先研究,后输出
第一步,DuMate 先读懂 everything-claude-code 项目,并从公开网络补充 guide、release、文档、博客和社区资料,最终形成 " 统一事实底稿 "。这一步最值得看的,不光是它会不会把仓库 README 摘一遍,还有它有没有能力把仓库内信息和仓库外信息合并起来,再组织成后续交付物共同依赖的底层材料。
从实际界面看,DuMate 没有停留在 " 对话框里给一段总结 ",而是把任务拆成了多个阶段节点。右侧 " 进程 " 栏会显示当前正在生成的 Word、PPT、网站目录与最终清单等内容,左侧则能看到当前对话与工作区文件。这意味着它的执行过程不是黑箱,用户能知道它正在做什么、哪些文件已经生成、后续还会走到哪一步。对一款以 " 真干活 " 为卖点的办公 Agent 来说,可观察、可控的使用体验是必不可少的。



在事实底稿之后,DuMate 被要求生成 Excel 统计表。这里的难点不是 " 做个表 ",而是要明确统计口径,梳理项目模块、目录、关键文件、数量、路径、作用说明和备注,并且与前面的研究结论保持一致。
实际任务中,它给出的不是一张临时列表,而是一份更接近可二次使用的统计材料,包含统计口径说明、各字段定义,以及能够与后续文档交叉核对的结构化数据。

接着是 Word 说明书。这一步更像交付验证,普通聊天助手往往只能给你一段 " 可以复制到 Word 里 " 的正文,而 DuMate 则进入了真实文件生成流程,最后直接拿出一个可以直接预览的 .docx 文档。
用户看到的不再是 " 文本建议 ",而是一个已经生成出来、可以继续流转和保存的文件。这其中的差距,远比听上去的大。


PPT 的呈现效果也不错。事实上这个环节的难点从来不在于把文档压缩到几个画面上,而是要让内容从书面叙述切换到视觉表达。DuMate 在这一环节继续沿用同一套事实底稿,没有重新发明一套逻辑,项目说明就此转化为了更适合介绍和汇报的结构。


03
桌面级 AI 办公工具的 PMF 分水岭
从 " 单次生成 " 到 " 任务闭环 ",桌面级 AI 办公工具正在经历一场不容拒绝的范式转移。
回看过去一年的 AI 办公赛道,大多数产品的逻辑依然是 " 提问 - 生成 - 复制 " 的三步循环。用户在对话框里输入需求,AI 返回一段文字或一张图表,用户再手动把它搬到 Word、PPT 或邮件里。但复制这个动作,恰恰是拦住办公 Agent 落地的最后一道门槛,它让 AI 只能扮演内容供应商的角色,而不是真正接手、执行这套工作流。
这类产品无法嵌入日常办公场景,也不能被称为办公助手。DuMate 这次展示的方向,就是办公 Agent 从 " 内容提供商 " 到 " 办公搭子 " 的转向,这也是办公 Agent 赛道此后真正的技术分水岭。
一位长期关注 AI 办公赛道的投资人向我们透露,2025 年到 2026 年上半年,主流 AI 办公产品其实都在做同一件事,那就是把对话交互做得更流畅、把模型幻觉率压得更低、把生成速度压到秒级。但这些指标的提升,本质上还是在优化 " 单次生成体验 "。而真正的战场,已经在向 " 任务闭环能力 " 转移。让 AI 在真实工作流里跑完全程,只是未来留在牌桌上的入场券。
这是商业闭环逻辑之下的必然选择,订阅制的 AI 办公产品最怕的不是用户流失,而是 " 用不起来 "。即使用户付了月费,但如果只拿来写周报,ROI 算不过来,最后还是会停掉续费,这样的产品是没有 PMF 可言的。
换言之,而当 AI 能够真正替代部分重复性办公劳动时,用户的付费意愿和续费动力才会真正被唤起,这个市场才真的有可能出现。
从被动的 " 生成 - 反馈 " 循环,进化到主动的 " 感知 - 规划 - 执行 - 交付 ",百度在这条路上的选择很有意思。DuMate 没有去卷对话体验或者试图用模型参数解决一切,而是把赌注押在了 " 执行层 ",也就是让 AI 看见屏幕、操作软件、串联文件,把结果直接交付成可留存、可复用的形态。
当然,这条路并不好走。它要求 AI 系统对桌面环境有更深的感知能力,对任务有更长的记忆和规划能力,对交付形态有更灵活的支持能力。任何一个环节出现短板,闭环都会断裂。这或许也是为什么,大多数 AI 办公产品仍然选择停在 " 生成 " 这一层。" 闭环 " 级别的稳定性,确实已经构成了技术门槛和护城河。在我们看来,这种能力很有可能是桌面级 AI 办公工具达成 PMF 的 分水岭。
DuMate 这次的压力测试,固然也有不足。PPT 的设计、网站的交互仍有优化空间,但它已经无法用单纯的生成质量进行评价,而是在任务完成度这个更靠近真实工作场景的维度上被审视。从帮你做得更快,到替你做得更多,这或许就是 AI 办公赛道真正走向成熟的标志。
雷峰网文章