“框架”比“模型”本身对 Agent 成功的影响大 7 倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

谁是 AI Agent 竞赛中真正的胜负手？1781 次真实运行给出的答案不是模型。

AI 评估平台 Braintrust 从 Hugging Face 抓取了 1781 条 Agent 在生产环境中的完整运行轨迹，覆盖六款主流模型在六大类任务中的表现，然后用 GPT-4o 逐条打分。结论第一条就极具冲击力：保持模型不变，仅更换包裹模型的 " 智能体框架 "（harness），成功率可以从 12% 直接跳到 92% ——波动幅度超过 80 个百分点。

回归分析把这一直觉量化为精确数字。在控制基准测试和模型两个变量后，智能体框架能解释约 5.3% 的成功率差异，模型仅能解释 0.7%。换智能体框架的影响力是换模型的 7 倍以上。更关键的是，智能体框架切换的成本几乎为零——同一任务中不同智能体框架的 Token 消耗基本相当。

对 AI 创业公司而言，这组数据改写了竞争规则。当模型层商品化加速、六款主流模型在编程任务上的表现差距已缩小至个位数百分点时，" 选哪个模型 " 不再是决定性变量。" 用什么工具把模型部署到生产环境 "、" 每次成功任务的推理成本控制在什么水平 " ——这两项能力正在替代 " 接入哪个模型 "，成为区分赢家和输家的核心变量。

智能体框架：成功率 81 个百分点的最大杠杆

Braintrust 测试了五种架构完全不同的智能体框架。claude_code 是 Anthropic 的原生 Agent 循环，以类 XML 格式让模型自主管理工具调用和上下文。smolagents_code 允许模型编写 Python 代码串联操作。tool_calling 是标准的结构化 JSON 函数调用，一次一个工具。tool_calling_with_shortlisting 在前者基础上每轮预筛选可用工具。openai_solo 则是最薄的 OpenAI 封装。

同模型、同任务下切换智能体框架的数据令人触目惊心。Claude 在 SWE-bench 编程任务中，claude_code 下成功率 100%，换成 tool_calling 骤降至 14%。Kimi 在 AppWorld 多应用编排任务中，smolagents_code 下 92%，tool_calling 下仅 12%。GPT-4.1 在电信客服任务中，smolagents_code 下 51%，claude_code 下只剩 18%。

每个成功率的悬崖背后都是同一个模型。智能体框架设计中的微小差异——是让模型自主管理上下文，还是用固定模板约束每一步；是允许模型写代码来串联工具调用，还是只能一次调用一个工具——把成功率的差距拉到了近一个数量级。

tool_calling_with_shortlisting 的失败尤其值得注意。这个智能体框架试图通过 " 每轮缩小可用工具列表 " 来提高效率，但数据表明它反而拖累了表现——缩小选项可能切掉了有用工具，也可能引入了路由错误。" 更精密的控制 " 并不自动等于 " 更好的结果 "。

开源模型的生产力账本：编程任务每次成功 0.73 美元

在 SWE-bench 编程基准上，开源模型的成绩与最顶尖闭源模型处于同一档位。DeepSeek V3.2 达到 96% 成功率，Kimi K2.5 达到 94%，Claude Opus 4.5 为 100%，GPT-5.2 为 93%，Gemini 3 Pro 为 87%。

但真正的分水岭在成本端。Braintrust 对每次运行按 LiteLLM 的实际 Token 费率定价，然后用成功率折算每次成功任务的成本。

在 SWE-bench 上，claude_code 配合 Kimi K2.5 每次成功仅花费 0.73 美元，配合 DeepSeek V3.2 为 1.27 美元。闭源的 Claude Opus 要 4.28 美元，Gemini 3 Pro 要 4.97 美元。在 AppWorld 任务上，差距进一步拉大：Kimi 配合 smolagents_code 每次成功仅 0.40 美元，Claude 配 claude_code 高达 84.33 美元——差了 200 倍以上。

开源模型还有一个闭源模型不具备的成本结构优势：自托管。不用每次调用都付费，不用承受 API 涨价的被动风险。对于需要大规模部署 Agent 的公司，这构成了一条结构性的成本护城河，不是短期 Token 降价能抹平的。

"Token 最便宜 " 不等于 " 效率最高 "

GPT-4.1 在这个分析中扮演了教科书级的反面角色。

它的 Token 账单在纸面上漂亮得惊人——比同等任务下的其他模型便宜 10 到 100 倍。但 Braintrust 拆开每条运行轨迹后发现：GPT-4.1 在 SWE-bench 和 AppWorld 这类硬核任务上的失败率高达 53% 到 90%，它之所以 " 便宜 "，是因为 " 更快地失败了 "。

没有成功率的成本指标不是效率指标，而是 " 用更少 Token 完成一次失败 " 的数字。衡量效率的正确维度是每次成功成本（cost per success），即单次任务成本除以成功率。这个指标完全重塑了配置排名。

在编程类任务上，开源模型走到了成本效率前沿线的最优位置。在对话客服类任务上，局面彻底翻转—— GPT-4.1 以每次成功 0.02 至 0.03 美元的成本大幅领先 Claude 的 1.95 美元，且开源模型根本没有运行这批对话测试。

对于 AI 创业公司，不存在一个通吃的 " 最便宜模型 "。编码任务用 DeepSeek 或 Kimi 自托管，客服对话用 GPT-4.1 ——不同的任务家族对应完全不同的成本最优解。

没有全能的模型，只有分任务的最优解

六个基准测试，四个不同的冠军。

Claude 赢下 SWE-bench（编程）、BrowseComp+（网页研究）和 TAU2 零售 / 电信客服。Gemini 在 TAU2 航空客服上以 100% 成功率夺冠。DeepSeek 和 Kimi 则在 AppWorld 多应用编排任务上大幅领先。不存在一个在所有场景中通杀的模型。

甚至在同一智能体框架内，不同模型的表现也差距悬殊。AppWorld 任务中，Claude 在自家原生的 claude_code 下仅有 26% 成功率，远低于同智能体框架下 DeepSeek 的 80% 和 Kimi 的 78%。模型与任务的匹配度、以及与智能体框架之间的协同效应，远比模型参数的绝对规模更能预测最终表现。

Braintrust 还发现，高平均成功率会掩盖致命的局部塌方。某些配置总体得分不错，但在某个具体任务类型上完全崩盘。把每个配置的跨任务成功率标准差画出来，高方差配置和可靠配置泾渭分明—— Claude Opus 的 claude_code 虽然总体上 73% 领先 Gemini 的 71%，但跨任务标准差却更高（0.27 vs 0.24），意味着它在某些测试套件上波动更大。

对创业公司的采购策略而言，这意味着不应当押注单一模型。 合理的路径是按任务类型构建一个差异化的模型 - 智能体框架组合矩阵，让每一类任务都跑在最合适、成本最优的配置上。

两种失败，两种完全相反的工程策略

Braintrust 还揭示了一个对工程部署有直接指导意义的模式：Agent 失败时的行为，在编码任务和对话任务上方向完全相反。

在 SWE-bench 和 AppWorld 这类硬核编程任务中，失败伴随着 " 颠簸 " —— Agent 比成功的同行发出更多 LLM 调用、消耗更多 Token、运行更长时间。BrowseComp+ 的失败运行消耗的 Token 是成功运行的 2.3 倍。claude_code 智能体框架的失败运行 Token 用量中位数约 0.8M，尾部甚至超过 3.7M。

在 TAU2 客服对话类任务中，模式完全反转。失败的 Agent 调用更少、Token 更少、结束更快——没有颠簸挣扎，直接自信地给出了一个错误答案后收工。

两种截然相反的失败模式意味着，生产环境的监控策略不能用一个规则覆盖所有场景。编码任务需要 Token 用量的上限告警——在 Agent 陷入无限循环或反复挣扎时及时止损。对话任务则需要下限告警——捕捉那些 " 过于流畅地完成了一次错误交付 " 的异常。一刀切的单一阈值，会帮助一类任务，同时摧毁另一类。

推理成本管理和部署效率：创业公司的真正壁垒

Braintrust 这组数据讲述的是一个比 " 谁家的模型跑分更高 " 更根本的叙事。

六个主流模型在编程任务上的成功率差距已经收窄到个位数百分点，开源模型的单次成功成本甚至已经系统性低于闭源。模型层的商品化速度比绝大多数人预想的更快。继续在 " 接入哪个最新模型 " 上构筑商业故事，护城河正在快速蒸发。

真正开始拉开差距的，是模型之外的三项能力：为每类任务匹配最优智能体框架、按每次成功成本而非每次任务成本衡量效率、对不同任务类型建立差异化的失败监控体系。

这三件事的核心指向同一组关键词——推理成本的精细管理和部署效率的系统优化。AI Agent 赛道上，比 " 你的模型比我的好多少 " 更关键的问题是：你在给定任务上把每次成功成本控制到什么水平？你能否在客户自建方案做不到的成本线以下交付相同的成功率？

对于 ToB 的 AI 创业公司，产品定义的重心需要从 " 我们接入了哪个模型 " 转向 " 我们在什么任务场景、用什么成本结构、以什么成功率交付 "。叙事不再是比模型——是比成本、比效率、比工程。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

“框架”比“模型”本身对 Agent 成功的影响大 7 倍！“推理成本”和“部署效率”才是创业公司的核心竞争优势

宙世代

一起剪

相关阅读

对话雅诗兰黛集团总裁兼CEO司泰峰：让一家“慢”公司变快，这是他的第一年

最新评论

全天候科技

热门推荐

企业资讯