文 | 硅基星芒
过去两年,AI 叙事的坐标系近乎失准。
MMLU、HumanEval 这类静态指标像高考榜单一样被反复张贴,不断刷新的数字仿佛宣告通用人工智能已抵近终点线。
然而,一种名为APEX Agents的新基准戳破了这层幻象。
它揭示的并非模型智商的线性进步,而是一个残酷的悖论:当 AI 试图从 " 回答问题 " 跨越到 " 完成工作 " 时,能力的提升正陷入严重的数据饥渴。
从 LLM(语言大模型)到 Agent 的转向,不是版本的升级,而是一次从静态智力到动态生产力的范式转移。其跨越难度,被整个行业严重低估。
评测权杖的交接
在过去的三年中,LLM 一直是 AI 的主要形态。
那时,人们评测模型的重心在于 " 智商 ",也就是模型能够掌握多少静态知识、能否正确进行逻辑推导。
但随着 AI 的形态在不到半年间从 LLM 全面过渡到 Agent,评测的权杖也必须发生交接。
Agent 的核心本质就在于它必须与数字环境甚至真实物理环境进行高频的感知和交互。
APEX-Agents 基准测试选择彻底摒弃了以往 " 一问一答 " 式的数学和编程考卷,取而代之的则是 33 个数据丰富的模拟世界(Worlds)。
每个世界都代表一个独特的项目场景,其中平均包含 166 个文件并涉及 9 个以上的应用程序工具。
对于模型来说,这与大语言模型 " 纸上谈兵 " 的交互方式截然不同。
它被投放在一个数字沙盒之中,但这次要面对的不是各种复杂的数学题和编程题,而是要像人类员工一样在长达数小时的任务链条中观察环境变化、拆解复杂指令、调用各种工具并交付最终成果。

这种评价标准的转变,反映出了 AGI 门槛的实质性变化:
它关心的不是模型知道什么,而是在复杂的环境下能做成什么。
为了模拟真实职场给人类带来的 " 重力感 ",APEX 还下血本邀请了来自麦肯锡、高盛、思科等企业共 256 位拥有平均 12.9 年行业经验的顶级专家。
这些专家不仅要基于专业知识给模型提出任务,还要给出明确的 " 过程准则(Rubrics)",让评测从一场智力游戏彻底蜕变成生产力的挑战。
被无情揭开的性能 " 遮羞布 "
面对 APEX-Agents 的 Pass@1(一次通过率)排行榜结果,任何出于商业化目的鼓吹 "AGI 即将实现 " 的说法都不攻自破。
数据展现出了令人冷静的低迷,而这种低准确率和高跑分结果形成了鲜明的对比,直接戳破了 AGI 的泡沫。
这项基准测试的场景主要用于评估三个职位:企业律师、管理顾问和投资银行分析师。
报告显示,全球 AI 三巨头之一的 Google 旗下的 Gemini 3 Flash 在开启高度思考模式下,也只得到了 24% 的分数。

具体到细分的职业场景中,分数也都不太理想,再先进的模型也难以突破 30% 的门槛。

关键的问题在于,为什么以前使用体验很好的 LLM 在实际任务中表现得如此差劲?
APEX 报告指出了几个关键的失败模式,而这正是大模型无法转变为生产力工具的最大限制:
死循环(Doom Looping):模型在遇到工具调用失败时,无法进行有效的反思,而是反复尝试同样的错误指令,直到消耗完预设的步数限制。因此,现阶段的 Agent 仍然缺乏认知能力。
流氓行为(Rogue Behavior):GPT-5.2 在测试中曾经犯下大错,意外删除了 21 个关键的生产文件。对于严谨的金融和法律领域,这种误操作必然招致灾难性的后果。
长时程规划迷失:当任务步骤超过了限制,模型的 " 意图漂移(Intent Drift)" 现象极为严重这也是 Vibe Coding 中最常见的情况,模型在任务执行到一半时早已忘记了初始目标。
若将尝试次数放宽至 8 次(Pass@8),顶尖模型的得分能够接近 40%,但衡量稳定性的指标却降到了最低 6.5%,这就是当前智能体的典型特征:具备潜力,但极不稳定。
换句话说,智能体能够产出碎片化的有效信息,但难以完成闭环交付。
这些数据也揭示了一个被刻意掩盖的真相:
现阶段的智能体最多只能算是 AGI 的最初级形态。
那些鼓吹 AGI 进度已经完成大半的说法,完全是基于静态智商测试的商业包装。
传统 LLM 的性能瓶颈主要在于算力和参数量,而 Agent 时代的门槛已经转移到任务编排、状态管理、错误恢复和长程规划。
智能体连 " 可用 " 和 " 可靠 " 之间的鸿沟都无法跨越,更不要提 " 好用 ",在复杂的工作流面前,AI 依然显得十分稚嫩。
成本的陷阱
在现有的 Agent 测评中,准确率顺理成章地成为了唯一的主角,但对商业落地具有决定性影响的 token 消耗成本往往无人提及。
众所周知,Agent 相比于 LLM,消耗的 token 成本完全不在一个量级。
APEX 报告提供的数据让这种差距更加具象化:

然而,性能优势的差距只有 1%。
这个数字已经足以让所有开发者在做出决策前冷静下来。
如果按照目前闭源模型的价格核算,完成一个复杂的投行任务,算力成本必然高达几十美金。
即便不考虑模型部署的固定成本,AI 的运行成本也已经逼近甚至超过了初级人类分析师的时薪。
目前智能体展现出来的较低水平的准确率,本质上也是建立在不计成本的暴力推理之上而实现的。
模型可以通过海量的思维链(CoT)和反复重试来换取成功率,但在商业情境下,这两种方式都不可能无限制使用。
因此,这种 " 高消耗 + 低增益 " 的边际递减效应直接指向了一个产业级的命题:
在智能体时代,性价比必须与准确率同等重要,甚至更具决定性。
未来的 Agent 基准测试,必须引入基于 token 的投资回报率。
如果 Agent 无法实现低功耗、高精度的闭环,它就永远无法成为社会期待的通用基础设施。
生态分化与商业格局
APEX 报告中另一个值得关注的现象在于开源模型在这场基准测试中的全面溃败。
在 LLM 时代,开源模型凭借着参数量的扩张和高质量语料库的预训练,在多项静态基准中已经屡屡逼近甚至反超 AI 巨头的上一代旗舰模型。
但进入 Agent 时代以后," 开源平权 " 的叙事已经接近失效。
尽管全球范围内的顶尖模型也做不到 " 可靠 ",但闭源模型还是对开源模型形成了降维打击,像 GPT-OSS-120B 和 Kimi K2 的得分甚至低于 5%。

当然,把这种落差单纯归因于基础模型推理能力不足并不客观,智能体能力的系统复合性也极为重要。
一个能稳定执行长周期任务的 Agent 不仅需要底层模型具备强大的语言理解能力,还需要把轨迹优化、状态一致性等 LLM 时代容易被忽视的细节做得更完美。
闭环数据、大规模算力调度、端到端的技术栈,这些都是闭源厂商在智能体时代的商业命脉。
但开源模型目前仍然停留在初期阶段,缺少高质量的行为对齐数据。
掌控了智能体的 " 办事逻辑 " 和执行轨迹,就等同于建立起一道坚固的数据壁垒。
因此,LLM 时代 AI 逻辑被颠覆的同时,我们也可以清晰地看到眼前的事实和未来的趋势:
那些真正能放在智能体中 " 办事 " 的模型,几乎都不是免费的。
存量数据正成为重大挑战
无论是 LLM 的时代,还是 Agent 的时代,AI 的三要素始终没有变化:算法、算力和数据。
在上一篇文章中算力经济学的逻辑,在 Agent 时代彻底改写了,我们已经说过算力紧缺是客观存在且短期内不可改变的事实。
但智能体取代 LLM 成为新时代的 AI 形态的同时,一个根本性的挑战也已经摆在所有人的面前:
Agent 能力的提升已经陷入严重的数据饥渴。
字节跳动震惊全球的 Seedance 2.0 成功案例已经证明,在 TikTok 的加持下,凭借海量真实的视觉数据,即便算力相比 Google 和 OpenAI 处于劣势,但仍然能超越 Veo 和 Sora 实现多模态领域的突破。
但这一套成功的逻辑并不能直接套用到智能体上,因为文本、图像、音频和视频都是现实世界中在 AI 出现之前就已经存在的 " 非结构化 " 存量。
Agent 执行任务的逻辑与多模态模型不同,它是一套" 人如何使用工具完成任务 " 的隐形逻辑。
显然,这种逻辑在 AI 出现之前不可能被大规模数字化记录。
人类如何打开 Excel、如何根据报错修改公式、如何在邮件中确认需求,这些日常生活中最常见的情景,对于 AI 来说极其复杂而且难以抽象。
互联网上存在海量的高质量文本数据,却几乎没有高质量的 " 任务执行轨迹 "。
事实上,黄仁勋在 2024 年的预言就精确命中了这个痛点:单纯依赖现有的数据堆砌无法支撑下一代 AI 的演进。
和具身智能一样,想要解决现阶段智能体的瓶颈,必须构建高保真的虚拟世界环境,并通过合成数据(Synthetic Data)技术生成高质量的训练样本。
APEX 基准测试中构建的 Archipelago 基础设施,实际上就是为了智能体专门提供的加速迭代试验场。
在这些虚拟环境中,Agent 可以经历数百万次失败和修正,模拟真实职场中难以复现的极端场景。
未来的 AGI 门槛,将不再是谁阅读过的互联网文本更多,而是谁在仿真环境里见过的行动轨迹更丰富。
智能体训练的本质仍是强化学习,而在没有充足的 " 学习资料 " 的当下,结果只能是严重的欠拟合。
APEX 基准测试不仅是一个技术指标,还是一次对行业认知的重塑。
人们应该看清,我们距离真正的 AI 生产力革命还有多远。