2025 年 4 月,还在 OpenAI 的姚顺雨发了一篇博文《The Second Half》,提出一个判断:AI 进入下半场了,接下来比的不是谁模型更大,而是谁能更好地定义问题。
半年后他加入腾讯。又过了两个月,他主导的第一个研究成果发布了。这个成果并未推出新模型,它直接抛出了一个数据,GPT-5.1 在一项新测试中只拿到了 23.7%。
测试的设定很简单,把所有需要的信息都放在上下文里,让模型去完成任务。考的是模型能否从眼前的材料里学会新东西。
结果是模型看了,但没学会。
没法作弊的考试
这篇论文叫 CL-bench,全称 Context Learning Benchmark,2026 年 2 月 3 日由腾讯混元团队和复旦大学联合发布。作为项目负责人,姚顺雨排在作者列表的最后一位。

为了实现这个目标,研究团队在数据构建上下了狠功夫。
目前业界防止数据污染最常见的做法比较简单粗暴,设定时间切割点(比如只考 2024 年以后的新闻)、把题库藏起来不公开、或者用算法去重。CL-bench 做的完全是另一回事,它在 " 造物 "。
研究团队组织了一批领域专家,凭空虚构了多个平行宇宙和假知识。比如,他们编造了一部叫《Sol Accord》(索尔协定)的星际法律,在现实中根本不存在,模型不可能在预训练数据里背过相关法条;他们还编造了一个 SkyNet 无人机 SDK,里面的函数名、调用规则全是假的,模型如果用它记忆里的 Python 知识去写代码,必错无疑。此外,他们还修改了现实世界的内容来创建变体,比如改变历史事件的走向、调整科学定义,并纳入一些极其小众、几乎不可能出现在预训练数据中的长尾内容。

这种通过 " 反事实 " 和 " 全虚构 " 来构建 benchmark 的方法,是对抗刷榜最彻底、也是最难的手段。验证效果很直接,在不给任何上下文的情况下,让 GPT-5.1 直接做这些任务,结果只能做对不到 1%。这说明模型确实没见过这些知识,必须从给定的上下文里学。没法作弊,也是通过率只有 17.2% 的核心原因。
最终,CL-bench 包含了 500 个复杂上下文、1899 个任务、31607 个验证标准。平均每个上下文的标注耗时约 20 小时,全部由资深领域专家制作。这个工作量本身就说明了研究团队的野心,他们想造的不是一个刷分榜单,而是一把真正能测出模型 " 学习能力 " 的尺子。
四种角色,四场考试
在这场测试中,AI 需要扮演四种角色。
有时它是法官,需要依据一部从未见过的虚构法律断案。给它一部长达 2.3 万字、刚刚生效的新法律,让它判一起真实纠纷。法条全是新的,判例全是新的,模型必须现场阅读、理解、应用。
有时它是程序员,必须用一种全新的语法写代码。比如基于一门新设计的编程语言规范,实现一个带有时间条件终止的周期性程序。模型如果用它记忆里的语法,必错无疑。它必须严格遵守这个 " 假文档 " 的规则。
有时它是操作员,需要在一套从未见过的工作流系统里完成任务。按照一份全新的产品手册,一步步执行操作。流程图是新的,术语是新的,约束条件是新的。
最难的时候,它要像科学家一样,面对一堆杂乱的实验数据,自己从头推导规律。比如分析 300 份原始实验日志,推导关系式并估计共振常数。前三种角色本质上是演绎推理,给你规则让你应用。这一种是归纳推理,让你从数据中自己发现规则。
这四类场景覆盖了大部分真实工作中需要的学习能力:读文档、学规则、照流程、找规律。这也是为什么 CL-bench 的结果如此令人担忧,如果模型连这些基本的学习任务都做不好,它在真实工作场景中的表现可想而知。
研究团队在 CL-bench 上测试了十个最先进的语言模型,结果相当惨淡。
平均任务解决率只有 17.2%。表现最好的 GPT-5.1 ( High ) 也只有 23.7%。要知道,所有完成任务需要的信息都已经明确给出了,就在上下文里,模型却在绝大多数任务上失败了。

忽略或误用上下文是导致失败的主要原因。导致错误的主因往往并非信息缺失,模型对上下文关键细节的忽视才是症结所在。更有意思的是,在许多情况下,模型会倾向于使用它在预训练阶段学到的 " 老经验 " 来解决任务,即使上下文明确定义了新的规则、概念或程序,它也不去学习和使用。这就像一个固执的老员工,宁可用自己的老办法,也不愿意看新文档。
长上下文处理和指令遵循是必要但不充分条件。那些难以跨上下文追踪依赖关系或难以精确遵循约束的模型,表现确实更差。但即使是能够处理长输入、可靠遵循指令的模型,仍然在许多任务上失败。这说明上下文学习需要的能力,远不止能处理长文本和能 " 听话 "。
归纳推理远比演绎推理难。在科学家类任务上,模型的表现明显更差,任务解决率通常低于 10%,而且结果波动很大。从数据中发现规律,比应用给定的规则要难得多。这或许指向了当前大模型架构的一个根本性局限。
此外,论文还发现,更高的推理强度通常能提升上下文学习效果。比如 GPT-5.1 在高推理强度设置下,在某些任务上的表现提升了约 6%。但其他模型提升有限甚至下降,说明单靠多想一会儿并不够,模型还必须能正确吸收和组织上下文信息。
姚顺雨的预判
2025 年 4 月,姚顺雨在博文《The Second Half》中提出了一个核心观点,AI 发展正在从 " 上半场 " 进入 " 下半场 "。上半场的主题是如何训练出更强的模型,更大的参数、更多的数据、更强的算力。下半场的主题则变了,如何定义正确的问题,如何评估真正的进步。
他写道,评估将比训练更重要。我们不再只是问 " 我们能训练出一个能解决 X 的模型吗 ",而是在问 " 我们应该训练 AI 去做什么,以及如何衡量真正的进步 "。
在一次访谈中,他进一步解释,现在方法的问题已基本解决,真正重要的是,我们要用这个通用方法,解决什么问题?
CL-bench 定义了什么问题?它定义的问题是,模型能否从当前上下文中学习?
这个问题之前被忽视了。行业的隐含假设是,只要上下文给到位(context engineering 做得好),模型就能完成任务。CL-bench 的数据打破了这个假设,给到位,不等于做得对。上下文学习,作为一项基础的模型能力,被严重低估了。
姚顺雨在 2024 年主导过另一个 benchmark,τ -bench(ICLR 2025)。那个测试关注的是 Agent 能否遵循领域规则、与用户进行多轮交互。CL-bench 则更进一步,测的是模型能否从上下文学习新知识。两者共同指向一个判断,真实世界需要的是学习能力,而非做题能力。
CL-bench 论文原文有一段话很精准:大语言模型主要依赖 " 参数化知识 ",这是预训练阶段压缩进模型权重的静态记忆。推理时,模型大多调用这些存储的内部知识,而非主动从新输入信息中吸收养分。因此,当前优化的模型擅长推理它们 " 知道 " 的事情,但用户需要的是让模型解决依赖于混乱且动态变化的上下文的任务。
行业正在发生什么变化
如果把近几年 AI 发展的主旋律做个简单梳理,大致是这样的:2024 年的主旋律是 Scaling,更大的模型、更多的数据、更强的算力;2025 年的主旋律是 Reasoning,以 o1、R1、Deep Research 为代表的推理能力提升。
那么 2026 年呢?CL-bench 指向了一个可能的新方向,Context Learning。

有意思的是,西方大厂目前主要在解决另一个问题。Anthropic 在 2024 年底发布了 MCP(Model Context Protocol),OpenAI 和 Google 随后跟进,这个协议被称为 AI 界的 USB-C",目的是让模型更容易接入外部工具和数据源。2025 年 12 月,Anthropic、OpenAI 和 Block 联合成立了 Agentic AI Foundation,将 MCP 捐赠给 Linux 基金会,推动开源标准化。同月,Anthropic 又发布了 Agent Skills 开放标准,让 AI 能执行更具体的任务。
这些努力解决的都是如何把 context 送进模型的问题,如何让模型接入更多数据源,如何让模型调用更多工具,如何让模型执行更复杂的工作流。
CL-bench 问的是,送进去之后,模型能学会吗?
Anthropic 自己的研究也触及了类似问题。他们在关于 context engineering 的博文中提到了 context rot 现象,随着上下文长度增加,模型召回信息的能力会下降。但 CL-bench 揭示的问题是。即使上下文不长,模型也不一定能 " 学会 " 里面的新知识。这是学习能力,与检索无关。
论文在展望部分提到了一个更远的挑战,即使上下文学习能力提升了,它仍然是 " 会消失的 "(ephemeral),上下文窗口清空,学到的东西就没了。下一步的挑战是 Memory Consolidation(记忆巩固),如何让从上下文中学到的知识持久化?这可能是 2026 年之后的新战场。
这对腾讯意味着什么
姚顺雨入职腾讯后主导的第一个研究输出,他选择用一个 benchmark 重新定义问题。
目前腾讯混元在国内大模型市场的份额并不领先,字节豆包、阿里通义排在前面。在这个局面下,腾讯选择关注一个更基础的问题:模型的学习能力。
这个选择可能和腾讯的业务基因有关。腾讯是社交和游戏巨头,其核心业务本质就是海量的 " 动态上下文 ",聊天记录、游戏状态、用户行为。姚顺雨强调 Context Learning,可能是在为腾讯最核心的业务场景打地基,让 AI 读懂此时此刻的用户,而不是通过预训练读懂过去的用户。
他入职后说过:腾讯 To C 基因更强,要思考如何让大模型给用户提供更多价值。很多时候需要的不是更大模型、更强的强化学习,而是额外的 Context。
这或许才是 AI 真正进入人类社会的门票,不再做一个博学的旁观者。
