姚顺雨在腾讯首个研究：在“上下文”这事上，在座的各位都不及格

2025 年 4 月，还在 OpenAI 的姚顺雨发了一篇博文《The Second Half》，提出一个判断：AI 进入下半场了，接下来比的不是谁模型更大，而是谁能更好地定义问题。

半年后他加入腾讯。又过了两个月，他主导的第一个研究成果发布了。这个成果并未推出新模型，它直接抛出了一个数据，GPT-5.1 在一项新测试中只拿到了 23.7%。

测试的设定很简单，把所有需要的信息都放在上下文里，让模型去完成任务。考的是模型能否从眼前的材料里学会新东西。

结果是模型看了，但没学会。

没法作弊的考试

这篇论文叫 CL-bench，全称 Context Learning Benchmark，2026 年 2 月 3 日由腾讯混元团队和复旦大学联合发布。作为项目负责人，姚顺雨排在作者列表的最后一位。

Context Learning 不是新概念，但这篇论文对它的定义极为苛刻，模型必须从上下文中学习到预训练阶段不存在的新知识，并正确应用。简单说，要让模型现场学会它没见过的东西，不只是 " 回忆 " 它以前见过的内容。

为了实现这个目标，研究团队在数据构建上下了狠功夫。

目前业界防止数据污染最常见的做法比较简单粗暴，设定时间切割点（比如只考 2024 年以后的新闻）、把题库藏起来不公开、或者用算法去重。CL-bench 做的完全是另一回事，它在 " 造物 "。

研究团队组织了一批领域专家，凭空虚构了多个平行宇宙和假知识。比如，他们编造了一部叫《Sol Accord》（索尔协定）的星际法律，在现实中根本不存在，模型不可能在预训练数据里背过相关法条；他们还编造了一个 SkyNet 无人机 SDK，里面的函数名、调用规则全是假的，模型如果用它记忆里的 Python 知识去写代码，必错无疑。此外，他们还修改了现实世界的内容来创建变体，比如改变历史事件的走向、调整科学定义，并纳入一些极其小众、几乎不可能出现在预训练数据中的长尾内容。

即便是表现最好的 GPT-5.1 平均得分也仅为 23.7 分。

这种通过 " 反事实 " 和 " 全虚构 " 来构建 benchmark 的方法，是对抗刷榜最彻底、也是最难的手段。验证效果很直接，在不给任何上下文的情况下，让 GPT-5.1 直接做这些任务，结果只能做对不到 1%。这说明模型确实没见过这些知识，必须从给定的上下文里学。没法作弊，也是通过率只有 17.2% 的核心原因。

最终，CL-bench 包含了 500 个复杂上下文、1899 个任务、31607 个验证标准。平均每个上下文的标注耗时约 20 小时，全部由资深领域专家制作。这个工作量本身就说明了研究团队的野心，他们想造的不是一个刷分榜单，而是一把真正能测出模型 " 学习能力 " 的尺子。

四种角色，四场考试

在这场测试中，AI 需要扮演四种角色。

有时它是法官，需要依据一部从未见过的虚构法律断案。给它一部长达 2.3 万字、刚刚生效的新法律，让它判一起真实纠纷。法条全是新的，判例全是新的，模型必须现场阅读、理解、应用。

有时它是程序员，必须用一种全新的语法写代码。比如基于一门新设计的编程语言规范，实现一个带有时间条件终止的周期性程序。模型如果用它记忆里的语法，必错无疑。它必须严格遵守这个 " 假文档 " 的规则。

有时它是操作员，需要在一套从未见过的工作流系统里完成任务。按照一份全新的产品手册，一步步执行操作。流程图是新的，术语是新的，约束条件是新的。

最难的时候，它要像科学家一样，面对一堆杂乱的实验数据，自己从头推导规律。比如分析 300 份原始实验日志，推导关系式并估计共振常数。前三种角色本质上是演绎推理，给你规则让你应用。这一种是归纳推理，让你从数据中自己发现规则。

这四类场景覆盖了大部分真实工作中需要的学习能力：读文档、学规则、照流程、找规律。这也是为什么 CL-bench 的结果如此令人担忧，如果模型连这些基本的学习任务都做不好，它在真实工作场景中的表现可想而知。

CL-bench 的任务类别分布前沿模型集体翻车

研究团队在 CL-bench 上测试了十个最先进的语言模型，结果相当惨淡。

平均任务解决率只有 17.2%。表现最好的 GPT-5.1 ( High ) 也只有 23.7%。要知道，所有完成任务需要的信息都已经明确给出了，就在上下文里，模型却在绝大多数任务上失败了。

论文详细分析了失败原因，几个发现值得注意。

忽略或误用上下文是导致失败的主要原因。导致错误的主因往往并非信息缺失，模型对上下文关键细节的忽视才是症结所在。更有意思的是，在许多情况下，模型会倾向于使用它在预训练阶段学到的 " 老经验 " 来解决任务，即使上下文明确定义了新的规则、概念或程序，它也不去学习和使用。这就像一个固执的老员工，宁可用自己的老办法，也不愿意看新文档。

长上下文处理和指令遵循是必要但不充分条件。那些难以跨上下文追踪依赖关系或难以精确遵循约束的模型，表现确实更差。但即使是能够处理长输入、可靠遵循指令的模型，仍然在许多任务上失败。这说明上下文学习需要的能力，远不止能处理长文本和能 " 听话 "。

归纳推理远比演绎推理难。在科学家类任务上，模型的表现明显更差，任务解决率通常低于 10%，而且结果波动很大。从数据中发现规律，比应用给定的规则要难得多。这或许指向了当前大模型架构的一个根本性局限。

此外，论文还发现，更高的推理强度通常能提升上下文学习效果。比如 GPT-5.1 在高推理强度设置下，在某些任务上的表现提升了约 6%。但其他模型提升有限甚至下降，说明单靠多想一会儿并不够，模型还必须能正确吸收和组织上下文信息。

姚顺雨的预判

2025 年 4 月，姚顺雨在博文《The Second Half》中提出了一个核心观点，AI 发展正在从 " 上半场 " 进入 " 下半场 "。上半场的主题是如何训练出更强的模型，更大的参数、更多的数据、更强的算力。下半场的主题则变了，如何定义正确的问题，如何评估真正的进步。

他写道，评估将比训练更重要。我们不再只是问 " 我们能训练出一个能解决 X 的模型吗 "，而是在问 " 我们应该训练 AI 去做什么，以及如何衡量真正的进步 "。

在一次访谈中，他进一步解释，现在方法的问题已基本解决，真正重要的是，我们要用这个通用方法，解决什么问题？

CL-bench 定义了什么问题？它定义的问题是，模型能否从当前上下文中学习？

这个问题之前被忽视了。行业的隐含假设是，只要上下文给到位（context engineering 做得好），模型就能完成任务。CL-bench 的数据打破了这个假设，给到位，不等于做得对。上下文学习，作为一项基础的模型能力，被严重低估了。

姚顺雨在 2024 年主导过另一个 benchmark，τ -bench（ICLR 2025）。那个测试关注的是 Agent 能否遵循领域规则、与用户进行多轮交互。CL-bench 则更进一步，测的是模型能否从上下文学习新知识。两者共同指向一个判断，真实世界需要的是学习能力，而非做题能力。

CL-bench 论文原文有一段话很精准：大语言模型主要依赖 " 参数化知识 "，这是预训练阶段压缩进模型权重的静态记忆。推理时，模型大多调用这些存储的内部知识，而非主动从新输入信息中吸收养分。因此，当前优化的模型擅长推理它们 " 知道 " 的事情，但用户需要的是让模型解决依赖于混乱且动态变化的上下文的任务。

行业正在发生什么变化

如果把近几年 AI 发展的主旋律做个简单梳理，大致是这样的：2024 年的主旋律是 Scaling，更大的模型、更多的数据、更强的算力；2025 年的主旋律是 Reasoning，以 o1、R1、Deep Research 为代表的推理能力提升。

那么 2026 年呢？CL-bench 指向了一个可能的新方向，Context Learning。

从 Prompt Engineering 到 Context Learning 的演进路径

有意思的是，西方大厂目前主要在解决另一个问题。Anthropic 在 2024 年底发布了 MCP（Model Context Protocol），OpenAI 和 Google 随后跟进，这个协议被称为 AI 界的 USB-C"，目的是让模型更容易接入外部工具和数据源。2025 年 12 月，Anthropic、OpenAI 和 Block 联合成立了 Agentic AI Foundation，将 MCP 捐赠给 Linux 基金会，推动开源标准化。同月，Anthropic 又发布了 Agent Skills 开放标准，让 AI 能执行更具体的任务。

这些努力解决的都是如何把 context 送进模型的问题，如何让模型接入更多数据源，如何让模型调用更多工具，如何让模型执行更复杂的工作流。

CL-bench 问的是，送进去之后，模型能学会吗？

Anthropic 自己的研究也触及了类似问题。他们在关于 context engineering 的博文中提到了 context rot 现象，随着上下文长度增加，模型召回信息的能力会下降。但 CL-bench 揭示的问题是。即使上下文不长，模型也不一定能 " 学会 " 里面的新知识。这是学习能力，与检索无关。

论文在展望部分提到了一个更远的挑战，即使上下文学习能力提升了，它仍然是 " 会消失的 "（ephemeral），上下文窗口清空，学到的东西就没了。下一步的挑战是 Memory Consolidation（记忆巩固），如何让从上下文中学到的知识持久化？这可能是 2026 年之后的新战场。

这对腾讯意味着什么

姚顺雨入职腾讯后主导的第一个研究输出，他选择用一个 benchmark 重新定义问题。

目前腾讯混元在国内大模型市场的份额并不领先，字节豆包、阿里通义排在前面。在这个局面下，腾讯选择关注一个更基础的问题：模型的学习能力。

这个选择可能和腾讯的业务基因有关。腾讯是社交和游戏巨头，其核心业务本质就是海量的 " 动态上下文 "，聊天记录、游戏状态、用户行为。姚顺雨强调 Context Learning，可能是在为腾讯最核心的业务场景打地基，让 AI 读懂此时此刻的用户，而不是通过预训练读懂过去的用户。

他入职后说过：腾讯 To C 基因更强，要思考如何让大模型给用户提供更多价值。很多时候需要的不是更大模型、更强的强化学习，而是额外的 Context。

这或许才是 AI 真正进入人类社会的门票，不再做一个博学的旁观者。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

姚顺雨在腾讯首个研究：在“上下文”这事上，在座的各位都不及格

宙世代

一起剪

相关阅读

追觅科技创始人俞浩：希望三年后追觅实现1万亿的小目标

iQOO 15 Ultra销量远超预期：24+1TB版卖断货 产品经理连夜回去打螺丝

苹果发布iOS 26.3 RC版：三大升级点！与安卓无缝换机

百度文心红包被微信屏蔽：已改为口令红包

黄仁勋对谈达索CEO 英伟达开辟第三战场

红包大战背后：AI入口即未来流量

西数公布高带宽硬盘技术：多通道并行 读写性能可达传统硬盘数倍

稳帧操控双进阶：iQOO 15 Ultra搭载第五代骁龙8至尊版打造性能Ultra

商业火箭，“芯级回收”走到哪一步了？

专访培生CEO阿博什：愿深化对华合作，以AI赋能教育创新

曝荣耀X等系列新机都将采用万级电池 旗舰或将跟进

腾讯元宝回应被微信封杀：正紧急优化分享机制 尽快上线

用“意念”控制轮椅行动，广货科技助残抢滩万亿市场

REDMI Turbo 5 Max上新16GB+1TB版本！首销3399元

玩了一圈元宝派和 moltbook，我发现自己正在失去做「人」的资格

最新评论

硅星人

热门推荐

iQOO 15 Ultra销量远超预期：24+1TB版卖断货产品经理连夜回去打螺丝

西数公布高带宽硬盘技术：多通道并行读写性能可达传统硬盘数倍

曝荣耀X等系列新机都将采用万级电池旗舰或将跟进

腾讯元宝回应被微信封杀：正紧急优化分享机制尽快上线