谁是 AI Agent 竞赛中真正的胜负手?1781 次真实运行给出的答案不是模型。
AI 评估平台 Braintrust 从 Hugging Face 抓取了 1781 条 Agent 在生产环境中的完整运行轨迹,覆盖六款主流模型在六大类任务中的表现,然后用 GPT-4o 逐条打分。结论第一条就极具冲击力:保持模型不变,仅更换包裹模型的 " 智能体框架 "(harness),成功率可以从 12% 直接跳到 92% ——波动幅度超过 80 个百分点。
回归分析把这一直觉量化为精确数字。在控制基准测试和模型两个变量后,智能体框架能解释约 5.3% 的成功率差异,模型仅能解释 0.7%。换智能体框架的影响力是换模型的 7 倍以上。更关键的是,智能体框架切换的成本几乎为零——同一任务中不同智能体框架的 Token 消耗基本相当。
对 AI 创业公司而言,这组数据改写了竞争规则。当模型层商品化加速、六款主流模型在编程任务上的表现差距已缩小至个位数百分点时," 选哪个模型 " 不再是决定性变量。" 用什么工具把模型部署到生产环境 "、" 每次成功任务的推理成本控制在什么水平 " ——这两项能力正在替代 " 接入哪个模型 ",成为区分赢家和输家的核心变量。
智能体框架:成功率 81 个百分点的最大杠杆
Braintrust 测试了五种架构完全不同的智能体框架。claude_code 是 Anthropic 的原生 Agent 循环,以类 XML 格式让模型自主管理工具调用和上下文。smolagents_code 允许模型编写 Python 代码串联操作。tool_calling 是标准的结构化 JSON 函数调用,一次一个工具。tool_calling_with_shortlisting 在前者基础上每轮预筛选可用工具。openai_solo 则是最薄的 OpenAI 封装。

每个成功率的悬崖背后都是同一个模型。智能体框架设计中的微小差异——是让模型自主管理上下文,还是用固定模板约束每一步;是允许模型写代码来串联工具调用,还是只能一次调用一个工具——把成功率的差距拉到了近一个数量级。
tool_calling_with_shortlisting 的失败尤其值得注意。这个智能体框架试图通过 " 每轮缩小可用工具列表 " 来提高效率,但数据表明它反而拖累了表现——缩小选项可能切掉了有用工具,也可能引入了路由错误。" 更精密的控制 " 并不自动等于 " 更好的结果 "。
开源模型的生产力账本:编程任务每次成功 0.73 美元
在 SWE-bench 编程基准上,开源模型的成绩与最顶尖闭源模型处于同一档位。DeepSeek V3.2 达到 96% 成功率,Kimi K2.5 达到 94%,Claude Opus 4.5 为 100%,GPT-5.2 为 93%,Gemini 3 Pro 为 87%。
但真正的分水岭在成本端。Braintrust 对每次运行按 LiteLLM 的实际 Token 费率定价,然后用成功率折算每次成功任务的成本。


"Token 最便宜 " 不等于 " 效率最高 "
GPT-4.1 在这个分析中扮演了教科书级的反面角色。
它的 Token 账单在纸面上漂亮得惊人——比同等任务下的其他模型便宜 10 到 100 倍。但 Braintrust 拆开每条运行轨迹后发现:GPT-4.1 在 SWE-bench 和 AppWorld 这类硬核任务上的失败率高达 53% 到 90%,它之所以 " 便宜 ",是因为 " 更快地失败了 "。
没有成功率的成本指标不是效率指标,而是 " 用更少 Token 完成一次失败 " 的数字。衡量效率的正确维度是每次成功成本(cost per success),即单次任务成本除以成功率。这个指标完全重塑了配置排名。

对于 AI 创业公司,不存在一个通吃的 " 最便宜模型 "。编码任务用 DeepSeek 或 Kimi 自托管,客服对话用 GPT-4.1 ——不同的任务家族对应完全不同的成本最优解。
没有全能的模型,只有分任务的最优解
六个基准测试,四个不同的冠军。
Claude 赢下 SWE-bench(编程)、BrowseComp+(网页研究)和 TAU2 零售 / 电信客服。Gemini 在 TAU2 航空客服上以 100% 成功率夺冠。DeepSeek 和 Kimi 则在 AppWorld 多应用编排任务上大幅领先。不存在一个在所有场景中通杀的模型。
甚至在同一智能体框架内,不同模型的表现也差距悬殊。AppWorld 任务中,Claude 在自家原生的 claude_code 下仅有 26% 成功率,远低于同智能体框架下 DeepSeek 的 80% 和 Kimi 的 78%。模型与任务的匹配度、以及与智能体框架之间的协同效应,远比模型参数的绝对规模更能预测最终表现。
Braintrust 还发现,高平均成功率会掩盖致命的局部塌方。某些配置总体得分不错,但在某个具体任务类型上完全崩盘。把每个配置的跨任务成功率标准差画出来,高方差配置和可靠配置泾渭分明—— Claude Opus 的 claude_code 虽然总体上 73% 领先 Gemini 的 71%,但跨任务标准差却更高(0.27 vs 0.24),意味着它在某些测试套件上波动更大。
对创业公司的采购策略而言,这意味着不应当押注单一模型。 合理的路径是按任务类型构建一个差异化的模型 - 智能体框架组合矩阵,让每一类任务都跑在最合适、成本最优的配置上。
两种失败,两种完全相反的工程策略
Braintrust 还揭示了一个对工程部署有直接指导意义的模式:Agent 失败时的行为,在编码任务和对话任务上方向完全相反。
在 SWE-bench 和 AppWorld 这类硬核编程任务中,失败伴随着 " 颠簸 " —— Agent 比成功的同行发出更多 LLM 调用、消耗更多 Token、运行更长时间。BrowseComp+ 的失败运行消耗的 Token 是成功运行的 2.3 倍。claude_code 智能体框架的失败运行 Token 用量中位数约 0.8M,尾部甚至超过 3.7M。
在 TAU2 客服对话类任务中,模式完全反转。失败的 Agent 调用更少、Token 更少、结束更快——没有颠簸挣扎,直接自信地给出了一个错误答案后收工。
两种截然相反的失败模式意味着,生产环境的监控策略不能用一个规则覆盖所有场景。编码任务需要 Token 用量的上限告警——在 Agent 陷入无限循环或反复挣扎时及时止损。对话任务则需要下限告警——捕捉那些 " 过于流畅地完成了一次错误交付 " 的异常。一刀切的单一阈值,会帮助一类任务,同时摧毁另一类。

Braintrust 这组数据讲述的是一个比 " 谁家的模型跑分更高 " 更根本的叙事。
六个主流模型在编程任务上的成功率差距已经收窄到个位数百分点,开源模型的单次成功成本甚至已经系统性低于闭源。模型层的商品化速度比绝大多数人预想的更快。继续在 " 接入哪个最新模型 " 上构筑商业故事,护城河正在快速蒸发。
真正开始拉开差距的,是模型之外的三项能力:为每类任务匹配最优智能体框架、按每次成功成本而非每次任务成本衡量效率、对不同任务类型建立差异化的失败监控体系。
这三件事的核心指向同一组关键词——推理成本的精细管理和部署效率的系统优化。AI Agent 赛道上,比 " 你的模型比我的好多少 " 更关键的问题是:你在给定任务上把每次成功成本控制到什么水平?你能否在客户自建方案做不到的成本线以下交付相同的成功率?
对于 ToB 的 AI 创业公司,产品定义的重心需要从 " 我们接入了哪个模型 " 转向 " 我们在什么任务场景、用什么成本结构、以什么成功率交付 "。叙事不再是比模型——是比成本、比效率、比工程。