关于ZAKER Skills 合作
钛媒体 24分钟前

ROI 这口利剑,终于悬在了 AI 员工头顶

文 | 字母 AI

过去,AI 公司习惯按使用量收费。无论是 token 消耗制还是额度制,本质上都是 " 用多少、付多少 "。

这套模式适合模型 API,却未必适合越来越深入工作流的企业 Agent。为了完成一个任务,它们会不断读取上下文、提炼信息、调用工具…… token 消耗很容易膨胀。

一些企业甚至开始出现 token maxxing 的情况——员工和 Agent 不断增加 AI 使用量,却很难证明这些 token 最终创造了多少价值。

如此这般,企业 AI 的成本越来越高,生产力回报却并不总是清晰。Gartner 预计,到 2028 年,AI 编程工具的成本甚至可能超过开发者薪资。

就在大家还在讨论 token 该怎么省的时候,AI 编程 Agent 公司 Cognition 提出了另一种思路:

它没有继续强调 Devin 消耗了多少 token,而是把 Devin 完成的工作折算成 " 等效工程师小时 ",再换算成美元价值。更进一步,Cognition 还推出了 Productivity Guarantee ——如果 Devin 创造的工程价值低于客户支付的费用,公司将返还最高 1000 万美元额度的使用 credits。

比起 "AI 能不能干活 ",Cognition 试图回答另一个老板更为关心的问题:

这个 AI 员工,到底值不值这个价。

token 消耗只是成本,不是价值

单看产品形态,Cognition 的主产品 Devin 仍然属于 AI 编程 Agent:写代码、修 Bug、提交 PR,都是这个赛道里的标准能力。让它脱颖而出的是,Cognition 没有把 Devin 只当成一个开发者工具来卖,而是把它包装成一套能用 ROI 来衡量的生产力方案。

在 David Senra 6 月 28 日的最新访谈里,Cognition 的 CEO Scott Wu 专门用了一个章节讨论 "Measuring ROI Instead Of Token Spend"(用 ROI 而不是 token 消耗,来衡量 AI 的价值)。

他提到,一些企业开始统计员工用了多少 AI、消耗了多少 token,甚至把 token 用量当成内部指标。但这样很容易偏离真正的问题。

因为 token 消耗只是成本,不是价值。

企业真正关心的根本不是谁用了更多 AI,而是这些 AI 最终完成了多少工作。

Scott Wu 举了一个例子:

如果一个原本需要花 1500 万美元、18 个月的项目,最终借助 Devin 和内部团队,只花 100 万美元、3 个月就完成了,那么对于 CEO 和 CFO 来说,这笔投资就是划算的。

他们其实并不在意这个项目花了多少 token,甚至不在意你用的是哪家的 AI ——只要你能帮我解决我的问题、完成我的任务,我就觉得这笔钱画得值。

我用更少的钱、更短的时间,拿到了同样甚至更好的结果,我就赚了。

Cognition 会派团队到客户现场,帮他们找适合 Devin 的使用场景,做用户培训,搭建工作流程,写 playbook,配合安全审查和私有云部署。

也就是说,Devin 被包装成一套企业生产力改造方案,而不是被当作一个 " 开箱即用 " 的工具。

这套打法不太像一家普通 SaaS 公司,更像一家咨询公司或 IT 外包公司。企业采购咨询服务,最终买单的是项目成果;采购 AI Agent,也正在越来越接近这种逻辑。

在这套逻辑下,Cognition 想证明的不只是 Devin 的代码能力,更重要的是,它值不值得进入企业预算。

AI 员工的价值,是怎么被计算出来的

问题是,ROI 并不是一句空话。

如果 Devin 要向企业证明自己 " 值这个价 ",Cognition 首先要回答一个更具体的问题:一个 AI 工程师完成的工作,到底怎么换算成美元价值?

Cognition 专门写了一篇文章解释这套方法。它承认,直接计算 AI 带来的商业价值很难——一个 PR 到底带来多少收入,一个 Bug 修复到底避免了多少损失,这些很难被精确归因。所以 Cognition 没有一上来就计算最终商业收益,它选择了一个中间指标:" 有效工程师小时 "

首先,他们收集了126 位企业开发者、258 个真实 Devin Session的数据。每位开发者都会回答一个问题:如果没有 Devin,这项工作你自己需要花多久?

这些真实反馈,被用来训练和校准整套评估系统。之后,每一次 Devin 完成任务,这套系统都会重新评估它到底创造了多少价值。

整个过程大致可以分为三步:

第一步,先过滤掉无效工作。

不是每一次 Devin Session 都算生产力。

如果 Devin 生成了一堆代码,最后没有被采用、没有推进项目、也没有真正解决问题(PR 没有被合并),那么这些 token 消耗就不会被计入价值。

对于没有 PR 的任务,它还会用分类器判断这个 Session 是否真的推进了工作。比如查找未使用依赖、扫描安全漏洞、审查 PR、跑数据查询、排查 Bug 等等,这些工作不一定产生代码,但仍然可能是有效工程工作。

相反,如果 Devin 因为没有权限无法继续,或者向用户追问后没人回复,这类 Session 就会被过滤掉。

第二步,估算人类工程师完成同样任务需要多少时间。

评估系统会读取整个 Session,包括用户需求、Devin 执行过程、代码、PR、日志以及代码库上下文,然后估算一名普通工程师完成同样结果需要投入多少时间。

它甚至会考虑很多细节,例如:如果用户已经告诉了 Devin 具体怎么改,那只计算写代码的时间;如果 Bug 需要自己定位,那定位时间也要算进去;如果这是一个陌生的遗留代码库,人类需要先花时间熟悉,而 Devin 已经完成了这部分工作,这些时间同样会计入价值。

第三步,再把工程师时间换算成美元。

Cognition 采用统一的工程师成本标准,把 " 等效工程师小时 " 转换成美元价值,再与企业实际支付的费用进行比较。

如果创造的价值高于成本,企业获得正 ROI;如果低于成本,Cognition 就通过 Productivity Guarantee 返还 credits(最高价值 1000 万美元)。

当然,Cognition 并没有宣称这套算法能够精确计算每一个任务的真实价值,他们在技术文档里承认,单个任务的估算可能存在 2 到 3 倍误差。但他们认为,随着企业部署规模扩大、任务数量增加,整体平均结果会越来越稳定,更接近 AI 创造的真实生产力。

这套机制值得关注的地方也不是它能把每一行代码都精确折算成多少钱。重点在于,它把 AI Agent 的价值衡量,从 " 消耗了多少 token",转向了 " 替企业节省了多少工程时间 "。

因为那些大体量的客户并不会只因为一个 AI 产品看起来很酷,就去大规模部署。它们要过预算、合规、安全、采购和财务审核,必须有人解释:为什么这笔钱值得花?

过去,ROI 往往是客户内部采购部门、业务部门或财务部门需要自己计算的事。软件公司只负责卖工具,至于工具有没有真正提升效率、节省成本,更多要靠客户自己证明。买了、用了、效果不好,通常也是客户自己消化。

但 Cognition 把这件事揽了过来,在销售阶段就主动帮客户把这笔账算清楚,还用 Productivity Guarantee 把一部分风险接了过去。

这套打法也确实成为了 Cognition 扩张故事的一部分:Cognition 在融资时披露,企业用量今年以来增长超过 10 倍,run-rate revenue 已经达到 4.92 亿美元;同时,它把 Citi、Goldman Sachs、Santander、Mercedes-Benz、Dell、美国陆军和海军等大客户放在了最显眼的位置。

Cognition 这套逻辑带来的最大价值就在于,它让 Devin 从工程师手里的 AI 编程工具,变成了 CFO 能看懂、采购部门能推进、CEO 能批准的预算项。

毕竟,不是所有老板都会写代码,但所有老板都会算账。

AI 越像员工,就越要看结果

如果把视角从 AI 编程 Agent 放大到企业 Agent,事实上,按结果衡量价值这件事,客服 Agent 已经先走了一步。

比如 Intercom。它原本就是做客户服务软件的,Fin 是它推出的 AI 客服 Agent,它就是按一次成功结果收费,官方价格是每个结果 0.99 美元。

Zendesk 也是类似逻辑,作为老牌客服软件公司,它的 AI Agent 面向客服工单场景,收费单位是 " 自动解决 ":只有 AI 独立解决了一次客户问题,才会被计入收费。

Sierra 则从一开始就把自己定位成 " 按业务结果收费 " 的企业 Agent 公司,服务客服、销售、续费、退订挽回等场景,客户为 AI 完成了多少次有效业务结果付费。

因为客服场景的结果最容易定义。用户问题有没有被解决、工单有没有关闭、客户有没有被成功转化……这些结果比 " 一个 PR 到底创造了多少商业价值 " 更容易被衡量。

传统的企业服务本来就看重结果,ROI 叙事本身就是企业软件、咨询服务和 IT 外包行业里非常常见的商业逻辑。可以说,客服 Agent 率先把这套逻辑转移到了 AI 领域,而 Devin 又把这套逻辑搬到了更复杂的软件工程场景。

不过,AI 行业里并不是所有产品都适合用 ROI 直接计费。

底层模型 API 就像水电煤,模型公司提供的是算力和模型调用能力,客户调用一次模型,就会产生真实的推理成本。所以 OpenAI、Anthropic、Google 这类模型公司,仍然很难完全摆脱 token、调用量或 credits 计费。

Copilot 类产品则更像传统软件,GitHub Copilot、Microsoft 365 Copilot、ChatGPT Business 这类产品,主要卖的是一个固定入口和一套使用权限,所以更适合按人头、按月订阅。

但 Agent 产品不一样。

我们之前在讨论 Claude Tag 的时候就提过,"AI 同事 " 并不等于免费牛马

企业 Agent 越像一个真正的同事,token 消耗就越不可能像普通聊天那样可控。当这个 AI 同事足够聪明、足够勤快、足够愿意加班的时候,企业反而需要限制它的使用。

AI 同事也要有预算;而一旦有预算,老板就会继续往下问:这笔预算带来了多少回报?

换句话说,如果 AI 只是工具,企业可以按使用量、按席位、按额度付费;但如果 AI 被包装成一个员工,老板自然也会用考核员工的方式考核它。

ROI 叙事未必代表 AI 计费方式的终点,也不意味着所有企业 Agent 都会立刻转向按成果收费。但 Cognition 确实在软件工程这个更难量化的场景里,重新建立了一套 ROI 计算方法,展示了 Agent 商业化的一条清晰路径。

毕竟,当 "AI 员工 " 正式上岗,老板迟早会问一句:

这个 AI 员工,到底值不值这个价?

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容