关于ZAKER Skills 合作
雷锋网 46分钟前

百度智能云 DuMate 测评:办公 Agent 教我用 Claude Code,效果如何?

雷峰网讯 百度针对企业级场景设计的桌面级 AI 智能体 DuMate 于今年 3 月 22 日全量上线。从我们对于 AI 办公产品的以往测评来看,能够真实进入办公场景的产品还是不多见。

DuMate 能否打破中看不中用的魔咒,成为一款真正能 " 抗活儿 " 的 AI 搭子?带着这样的疑问,我们设计了一项覆盖项目研究、结果整理以及包括四种交付物的多形态输出任务。看看百度智能云 DuMate,究竟能把任务推进到什么程度。

01

先看产品逻辑:解决真实工作流问题

中国一众 AI 玩家里,百度的打法一直有自己的逻辑。文心一言打头部认知市场,秒哒打无代码应用搭建,而 DuMate 则试图填补一个更具体的位置,个人及团队的日常办公场景中,真正替代那些需要 " 操作软件、串联文件、交付结果 " 的重复劳动。

本质上,这就是桌面级 Agent 的生态位。AI 助手的价值,不在于 " 答得更好 ",更在于 " 做得更多 "。当大模型的推理能力逐渐同质化,真正拉开差距的,是谁能更好地把 AI 嵌入真实工作流,并交付可留存、可复用的结果。

根据百度智能云公开资料,DuMate 强调的不只是问答,而是 " 看见屏幕、操作软件、处理文件、串联业务系统 "。看起来简单的功能定位,实际上覆盖了从桌面执行、工作区、技能扩展到本地安全、办公交付的整条工作链。在技术逻辑上,这需要 DuMate 具备三个层次的能力。

第一层是感知与理解。DuMate 需要理解用户在说什么、想做什么,这背后是将自然语言指令映射为具体操作序列的能力。

第二层是工具调用与执行,理解之后,DuMate 需要调起正确的工具,读写文件、操作浏览器、执行代码、调用 API。这要求它对桌面环境有真实的感知和控制能力,而非只返回一个 API 调用建议。

最后就是结果交付与归档。执行完成后,结果需要以正确的形态输出,对于办公助手来说,这往往是 Word 文档、Excel 表格、PPT 演示或者网站页面。而且交付物本身必须可留存、可复用。

今年 3 月 22 日全量上线后,DuMate 迅速补齐了技能广场、Word/PPT/Excel 优化、文件预览解析、每日总结、消息渠道接入和正式计费等能力。在不到一个月的时间内,核心办公能力已经基本完整。DuMate 办公工作台的产品逻辑已经越发清晰:即通过一个智能体,将用户模糊的目标,直接转化为可留存、可复用的最终交付物,从而真正嵌入并解决真实的工作流问题。

02

实测:一套事实底稿,四种交付物

这次测试,我们没有选择常见的 " 写一篇文章 " 或 " 整理一份表格 " 之类不痛不痒的轻任务,而是给 DuMate 布置了一项更接近真实工作的复杂任务,围绕某一个 GitHub 项目,完成一次 " 项目研究 + 多形态交付 " 任务。

比如让 AI 做一张 excel 或者生成一张 PPT,这类任务太简单、太干净,现实中很少有人这样工作,根本测不出来 AI 的水平。但是用一个真实的、杂乱的、多源信息的任务来考核 AI,比如围绕一个 GitHub 项目做任务,这正是研发、产品、技术写作人员日常会碰到的工作。如果 AI 在这种任务上表现不错,那它在真实办公场景中大概率也能派上用场。

这次我们选择的 GitHub 项目叫做 everything-claude-code,给不熟悉的朋友介绍一下。这个项目在 GitHub 上的 Star 数已经超过了 14 万。比起某种工具,它更像是一套专为 Claude Code 等 AI 编程工具设计的工程化配置系统,既能用来调教 AI,也能拿它学习怎么跟 AI 打配合。

Everything-claude-code 被设计出来的目的就是把 AI 从 " 聊天助手 " 升级成可遵循规范、沉淀经验的智能工程系统。

具体来说它解决的是四大痛点:

持久化记忆:通过自动化钩子实现跨会话上下文保存,避免换项目就失忆;

规范化流程:将开发拆解为规划、审查、测试等环节;

自动化检查:内置安全扫描工具 AgentShield,含 1282 项测试和 102 条安全规则;

持续学习:AI 自动提取有效模式沉淀为团队知识。

整个项目组件像一个完整的 "AI 开发流水线 ",包括 30 多个各司其职的 Agent,150+ 个可复用 Skill 固化成的最佳实践,70+ 条快捷命令一键触发复杂流程,还有 30 余条规则构成 AI 的行为底线。

简单来说,everything-claude-code 就是将一位资深工程师的一次性对话变成了可积累、可优化的 " 工程实践 ",并且能直接服务于你的私人 Agent 助理。

我们为 DuMate 设计的测试任务,就是要求它对开源在 GitHub 上的 everything-claude-code 进行整理,并把这份 " 秘籍 " 以 Excel 内容目录、Word 说明书、PPT 大纲与逐页内容、网站四种形式进行输出。

测试题目:

代码块

请围绕 GitHub 项目 everything-claude-code(https://github.com/affaan-m/everything-claude-code)完成一次 " 项目研究 + 多形态交付 " 任务。

注意:该项目不是普通应用,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统。请重点分析其 commands、skills、hooks、rules、guides、install scripts、配置与集成方式,不要误写成传统 SaaS 或单体软件。

请你先基于 GitHub 仓库和公开网络资料完成研究,形成一份 " 统一事实底稿 ",再基于这同一套事实底稿输出以下 4 项交付物:

1. 一份可归档的正式 Word 说明书 , 以计算机类专业书籍的格式呈现

2. 一份适合介绍 / 汇报的 PPT 内容稿,面向计算机专业群体

3. 一个可本地预览的展示型静态网站

4. 一份 Excel 统计表,用于统计当前项目的组件 / 模块 / 目录 / 关键文件数量、名称、作用说明及备注

一、研究范围

至少覆盖:

- 项目定位、目标用户、解决的问题、典型场景

- commands / skills / hooks / rules / guides / scripts / 配置文件 / tests / integrations 的结构与作用

- 安装、配置、接入方式、典型用法

- 架构或工作机制

- 当前版本状态、最近更新、维护活跃度

- 风险、限制、不确定项

- GitHub 之外的 guide、release、官网、文档、博客、社区、教程、讨论等资料

二、统一事实底稿

请先输出一份结构化项目情报,作为后续全部交付物的唯一事实来源。

要求:

- 先输出 " 统一事实底稿 ",标注【已确认】【推断】【待确认】,尽量附来源链接

- 如有资料冲突,列出冲突点与判断依据

- 所有后续交付物必须严格基于同一套事实底稿,彼此不得矛盾

- 不得编造项目中不存在的功能、组件、版本或官方信息

三、交付物要求

1)Word:面向首次接触者,章节完整、专业正式,适合归档 / 培训 / 对外说明;若不能直接生成 .docx,则提供完整正文、标题层级、封面建议、排版建议和文件名

2)PPT:适合介绍 / 汇报,不照搬说明书;先大纲后逐页;每页含标题、3-6 个要点、图示建议、演讲备注;10-18 页;若不能直接生成 .pptx,则提供完整逐页内容和文件名

3)网站:若不能直接发布,则生成本地可运行的静态网站目录;至少包含首页、项目介绍、核心能力、安装使用、架构说明、FAQ、参考资料;提供目录结构、全部文件内容、入口文件名和打开方法;优先使用无需复杂构建的 HTML/CSS/JS

4)Excel:先说明统计口径;统计当前项目的目录、commands、skills、hooks、rules、scripts、docs/guides、配置文件、tests、integration targets 等数量、名称、路径、作用说明、所属类别、备注、来源依据;若不能直接生成 .xlsx,则提供可直接导入 Excel 的 CSV 或表格内容及文件名

四、输出顺序

1. 研究方法与信息来源

2. 统一事实底稿

3. Excel 统计口径与统计表

4. Word 说明书

5. PPT 大纲与逐页内容

6. 网站目录结构与文件内容

7. 风险说明、未确认项、受限项

8. 最终交付清单与建议文件名

五、全局约束

- 所有产出必须基于同一套事实底稿,彼此不得矛盾

- 不得编造 GitHub 仓库中不存在的功能、组件、版本或官方信息

- 对不确定内容必须明确标注

- 不得在无法生成真实 .docx/.pptx/.xlsx 文件时谎称 " 已生成完成 "

这项任务的难点在于,everything-claude-code 不是普通应用程序,而是一个面向 Claude Code、Codex、Cursor、OpenCode 等 AI agent harness 的性能增强系统,因此 DuMate 不能把它误写成传统 SaaS 或单体软件。

此外由于超高的热度,everything-claude-code 在网络上有大量公开资料补充,DuMate 的研究不能局限于 GitHub 仓库。良莠不齐的公开资料又对交付质量提出了挑战,即所有内容必须基于同一套 " 统一事实底稿 ",DuMate 需要甄别、摒弃那些自相矛盾的错误信息。

最终,它需要交付四样东西:一份 Word 说明书、一份 PPT 内容稿、一个可本地预览的静态网站,以及一份 Excel 统计表。

DuMate 的表现如何呢?下面来看看:

搭底稿:先研究,后输出

第一步,DuMate 先读懂 everything-claude-code 项目,并从公开网络补充 guide、release、文档、博客和社区资料,最终形成 " 统一事实底稿 "。这一步最值得看的,不光是它会不会把仓库 README 摘一遍,还有它有没有能力把仓库内信息和仓库外信息合并起来,再组织成后续交付物共同依赖的底层材料。

从实际界面看,DuMate 没有停留在 " 对话框里给一段总结 ",而是把任务拆成了多个阶段节点。右侧 " 进程 " 栏会显示当前正在生成的 Word、PPT、网站目录与最终清单等内容,左侧则能看到当前对话与工作区文件。这意味着它的执行过程不是黑箱,用户能知道它正在做什么、哪些文件已经生成、后续还会走到哪一步。对一款以 " 真干活 " 为卖点的办公 Agent 来说,可观察、可控的使用体验是必不可少的。

更关键的是,DuMate 先搭底稿,再做输出。这个动作的价值在于:一旦底稿成型,后面的 Word、PPT、网站和 Excel 才有可能保持前后一致。对有过真实项目经历的人来说,最耗人的往往不是写材料,而是来回核对材料之间是否矛盾。DuMate 表现出来的,是一种更接近项目工作的研究先行 + 一稿多用思路。

Excel 统计:统计口径先行

在事实底稿之后,DuMate 被要求生成 Excel 统计表。这里的难点不是 " 做个表 ",而是要明确统计口径,梳理项目模块、目录、关键文件、数量、路径、作用说明和备注,并且与前面的研究结论保持一致。

实际任务中,它给出的不是一张临时列表,而是一份更接近可二次使用的统计材料,包含统计口径说明、各字段定义,以及能够与后续文档交叉核对的结构化数据。

Word 说明书:进入真实文件生成流程

接着是 Word 说明书。这一步更像交付验证,普通聊天助手往往只能给你一段 " 可以复制到 Word 里 " 的正文,而 DuMate 则进入了真实文件生成流程,最后直接拿出一个可以直接预览的 .docx 文档。

用户看到的不再是 " 文本建议 ",而是一个已经生成出来、可以继续流转和保存的文件。这其中的差距,远比听上去的大。

到这一步,交付物已经展现出了俗的落地价值。everything-claude-code 本身就是极具分享价值的实践经验,在此基础上形成的技术说明书,更是把这份 " 大牛指南 " 掰开揉碎了喂给用户。架构设计和核心组件介绍都是最基本的,这份 35 页的文档里,一半以上都是可以直接指导 Agent 实践的部署教程和最佳实践案例。就连高频出现的问题,都整理成了一份故障排除指南。

PPT + 网站:内容形态切换

PPT 的呈现效果也不错。事实上这个环节的难点从来不在于把文档压缩到几个画面上,而是要让内容从书面叙述切换到视觉表达。DuMate 在这一环节继续沿用同一套事实底稿,没有重新发明一套逻辑,项目说明就此转化为了更适合介绍和汇报的结构。

最后一环是展示型网站。这里考验的就不再是文档生成能力,而是信息架构迁移:项目介绍、核心能力、安装使用、FAQ、参考资料等模块,需要被重新组织成网页表达。DuMate 最终生成了可本地预览的静态网站目录。这意味着同一套事实底稿,已经不只是能被 " 写成文档 ",而是能被 " 做成网站 "。

把这四项交付串起来看,DuMate 这次最有价值的表现,并不是某一个单项上做得比别人更漂亮,而是它在研究—整理—文件生成—展示化输出这条链路上可靠地跑完了全程。对于办公 Agent 来说,在多个任务步骤之间能顺滑地衔接,恰恰是落地最关键的门槛。

03

桌面级 AI 办公工具的 PMF 分水岭

从 " 单次生成 " 到 " 任务闭环 ",桌面级 AI 办公工具正在经历一场不容拒绝的范式转移。

回看过去一年的 AI 办公赛道,大多数产品的逻辑依然是 " 提问 - 生成 - 复制 " 的三步循环。用户在对话框里输入需求,AI 返回一段文字或一张图表,用户再手动把它搬到 Word、PPT 或邮件里。但复制这个动作,恰恰是拦住办公 Agent 落地的最后一道门槛,它让 AI 只能扮演内容供应商的角色,而不是真正接手、执行这套工作流。

这类产品无法嵌入日常办公场景,也不能被称为办公助手。DuMate 这次展示的方向,就是办公 Agent 从 " 内容提供商 " 到 " 办公搭子 " 的转向,这也是办公 Agent 赛道此后真正的技术分水岭。

一位长期关注 AI 办公赛道的投资人向我们透露,2025 年到 2026 年上半年,主流 AI 办公产品其实都在做同一件事,那就是把对话交互做得更流畅、把模型幻觉率压得更低、把生成速度压到秒级。但这些指标的提升,本质上还是在优化 " 单次生成体验 "。而真正的战场,已经在向 " 任务闭环能力 " 转移。让 AI 在真实工作流里跑完全程,只是未来留在牌桌上的入场券。

这是商业闭环逻辑之下的必然选择,订阅制的 AI 办公产品最怕的不是用户流失,而是 " 用不起来 "。即使用户付了月费,但如果只拿来写周报,ROI 算不过来,最后还是会停掉续费,这样的产品是没有 PMF 可言的。

换言之,而当 AI 能够真正替代部分重复性办公劳动时,用户的付费意愿和续费动力才会真正被唤起,这个市场才真的有可能出现。

从被动的 " 生成 - 反馈 " 循环,进化到主动的 " 感知 - 规划 - 执行 - 交付 ",百度在这条路上的选择很有意思。DuMate 没有去卷对话体验或者试图用模型参数解决一切,而是把赌注押在了 " 执行层 ",也就是让 AI 看见屏幕、操作软件、串联文件,把结果直接交付成可留存、可复用的形态。

当然,这条路并不好走。它要求 AI 系统对桌面环境有更深的感知能力,对任务有更长的记忆和规划能力,对交付形态有更灵活的支持能力。任何一个环节出现短板,闭环都会断裂。这或许也是为什么,大多数 AI 办公产品仍然选择停在 " 生成 " 这一层。" 闭环 " 级别的稳定性,确实已经构成了技术门槛和护城河。在我们看来,这种能力很有可能是桌面级 AI 办公工具达成 PMF 的 分水岭。

DuMate 这次的压力测试,固然也有不足。PPT 的设计、网站的交互仍有优化空间,但它已经无法用单纯的生成质量进行评价,而是在任务完成度这个更靠近真实工作场景的维度上被审视。从帮你做得更快,到替你做得更多,这或许就是 AI 办公赛道真正走向成熟的标志。

雷峰网文章

相关标签
ai
雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容