关于ZAKER Skills 合作
财联社-深度 13分钟前

腾讯姚顺雨:AI 是长期游戏,下半场刚刚开始

《科创板日报》6 月 5 日讯(记者 李佳怡)今日,腾讯云 AI 产业大会如期举行。《科创板日报》记者赶到主论坛现场时,发现场内早已座无虚席,连入口处的过道也挤满了人,几乎无处落脚。记者了解到,不少参会观众都是慕腾讯首席 AI 科学家姚顺雨之名而来。

姚顺雨,前 OpenAI 研究员,于 2025 年 12 月加入腾讯,担任 "CEO/ 总裁办公室 " 首席 AI 科学家,直接向腾讯总裁刘炽平汇报。同时,他还兼任 AI Infra 部与大语言模型部负责人。

大会现场,腾讯集团高级执行副总裁汤道生与腾讯首席 AI 科学家、混元大语言模型及 AI Infra 负责人姚顺雨展开深度对谈。姚顺雨围绕 "AI 下半场 " 分享了对行业趋势、模型演进与产品协同的核心判断。

以下为对谈实录(有删减)

▎ AI 下半场的定义与选择腾讯的原因

汤道生: 为什么 AI 下半场会选择来腾讯?你认为 AI 下半场最重要的是什么?

姚顺雨: 首先解释一下什么叫做 " 下半场 " 我最近感觉这个词有点被滥用。这个概念是我去年的一个博客提出来的。我觉得在去年之前,AI 已经发展了几十年,但是更加重要的是怎么去解决问题、去寻找好的方法。最近方法论已经变得非常成熟,但寻找问题变得更加困难。

比如说过去我们发明 AIphaGo 下围棋,但是这个方法只适合下围棋或者下各种棋类。但是有了预训练和后训练之后我们发现,它是一个通用方法论,可以解决各种各样的问题,反而更困难的是怎么寻找好的问题去解决。

我觉得加入腾讯很重要的一点是,这里有很多好问题、有很多产品。

一方面,好的产品能够解决这一问题,即我们做预训练和后训练之后,到底要把它应用在什么地方产生价值;另一方面,环境非常重要,如果没有好的环境,Agent 没有办法做各种各样的事情;最重要的是 context,无论是企业还是个人。模型越来越擅长把一个非常复杂的输入变成输出,很多时候你的竞争壁垒就在于你有没有最原始的输入,这一点腾讯有非常强的优势;最重要的原因是文化。我记得第一次和你、和其他总办老板聊天的时候,第一印象是大家都非常诚实——哪里做得好、哪里做得不好,非常直白,不会掩盖;此外,腾讯总体是一个基于 trust、而不是基于 metric 去运转的公司,这一点对于做 AI 是非常重要的。包括我们的文化有非常 low ego、非常 solid 的一面,这些文化对于长期做一个 AI 的组织是非常重要的。

AI 下半场最重要的是什么?我个人觉得,我们应该在中国建立一个长期的、基于 AGI 的组织。今天的 AI 主要有三部分:Foundation:我们怎么样把预训练和后训练最基础的东西做得非常 solid;产品:我们怎么样把这样的技术真正为人和社会产生价值;Frontier:我们怎么样探索新的研究范式、探索新的机会。

我觉得最重要的是,要构建一个非常均衡的三角形组织。做 foundation,第一最重要的是有充足资源,第二是需要正确的做事方式。对于产品来说,有好的产品 sense、有做产品的人是至关重要的。第三,在中国我们今天所做的前沿探索不够多,所以我希望能把 frontier exploration 的精神更多地注入到我们组织中。

汤道生: 我觉得我们的做事方式、做产品的理念,其实也是实事求是的。毕竟 AI 赛道是长跑,我觉得有时候认知也很重要,做得好的和不好的都得认,关键是一个多维度的竞赛。我们看到现在模型有很多进步,做产品其实也有越来越多的形态,不同的场景有不同的需求,未来还是非常可期的。

▎ Co-Design:产品与模型的相互成就

汤道生: 你提到模型和产品,产品可以说提供一个环境,给模型提供 context 上下文。我想问一个问题,我们经常讲 Co-Design,即怎么把产品关模型能够比较紧密底结合起来。今天有元宝、AI 搜索、智能客服、CodeBuddy、Workbuddy 等丰富产品,对模型依赖很深,你怎么思考 Co-Design?

姚顺雨: 第一,Co-Design 的前提是模型本身做得 solid。首先我觉得预训练是一个相对 agnostic 的事情,而且预训练它最大的特点是可泛化学习过程,它的进步可以带给各种各样下游任务持续的价值提升;后训练我觉得最重要一点是要设立好正确的 Eval。中国大家有个不好的倾向是大家喜欢刷榜,但是我觉得更重要的是如何实事求,基于产品、基于真正的应用,构造更加真实的 Eval。

第二,要意识到 " 实用性 " 价值是大于刷榜价值,这一点我们做大量工作,跟各种各样产品进行了深度 Co-Design,Co-Design 很关键一点就是要产生相互信任;第三,LLM 时代最本质的区别是泛化性。今天即使只做一个 Coding Agent,也需要聊天、搜索、指令遵循、推理等复合能力。

汤道生:内部 Eval 和外部榜单有什么区别?

姚顺雨: 首先 benchmark 还是有它的价值的,只是说这些榜非常容易 overfitting。真实世界数据能帮我们发现模型底线问题,预览版的目的就是获取真实反馈;另外,你对真实的 Prompt distribution 会有一个更深的了解。在现实场景中可能大家问的问题都是比较模糊的,它会不停追问,这能启发训练;我们甚至可以在这些产品上获得灵感,推进新榜单或新领域。我觉得产品和模型的互相成就,是越来越重要的 AI 话题。

▎产品第一性原理与混元 3.0 的改进

姚顺雨: 您做过 QQ 空间、QQ 音乐、云到元宝,toC 和 toB 都有。您做产品的第一性原理是什么?哪些不变,哪些变?

汤道生: 做产品,不变的是始终本着用户需求,解决痛点,创造价值。不同时代、不同行业都是如此。

变化在于 PC 和移动时代,产品像 " 预制菜 ",提供固定功能菜单;AI 时代是开放式的,用户问什么你不知道,要靠模型理解、推理、调用工具,产品提供工具和环境。连研发流程都在变——今年大部分代码由 AI 生成,工程师更多做设计,测试左移,要对开放式答案做 alignment。能力要求更全面了。

汤道生: 混元 Hy3 preview 是你在腾讯的首秀,具体混元 3.0 做了什么改变?

姚顺雨: 主要三点:第一,重建 Infrastructure,无论是预训练还是强化学习预;第二,改变数据和 Eval,如何去定义更真实的问题、丰富数据的 taxonomy、提高数据的质量,这是一个永无止境的追求;第三,很多决策是 taste driven 的,没有很清晰的公式。我好奇您对 Co-Design 的边界怎么看——哪些该模型做,哪些该产品做?

汤道生: Co-Design 随模型能力变化。感受最深的是对齐:产品要解决某个问题,模型需要数据,但数据怎么标注、怎么奖惩、评测认不认同,如果各方没对齐,产品行为就不可预测。关键是让多个角色对开放式问题达成一致。

姚顺雨: 我觉得最难的是建立信任和同理心。做模型和做产品的目标有天然不 align 的地方。一个细节:我们曾派后训练最强骨干去帮元宝做后训练,当时预训练还没准备好,很多算法同学不理解,但现在看这个动作让产品团队意识到模型团队是真的为产品着想,为 Hy3 preview 在元宝上线起了重要作用。技术可以探讨,最难的反而是信任和换位思考。

汤道生:Token 的调用对于混元做下一代模型研发,你觉得有哪些地方比较重要?

姚顺雨:今天我觉得 Agent 毫无疑问是每一家模型所发力的重点,我觉得我们做的方法可能会有几个区别:

第一,即使今天 Coding 已经是最重要的事情,但是我们还是会强调体系的全面化。我始终认为要把 Coding 做好,其实需要远远不止 Coding 的数据,也需要聊天、推理,各种各样不同的东西,因为大模型最重要的点是泛化性。

第二,很显然产品作用越来越重要,如何利用好线上回流,我觉得是一个每个模型厂商都在应对和思考的问题。这里刚刚积累很多 CoDesign 经验变得非常重要。

第三,我觉得还需要更多想像力,无论是技术演进,还是产品演进,甚至下一个范式演进,我们需要做探索性甚至不确定性的工作。

▎从 ReAct 到智能体

汤道生: 你是 ReAct 架构提出者,博士研究围绕语言智能体。几年前的观点到今天兑现了吗?

姚顺雨: 我重读了自己的博士论文(《Language Agent: from next token prediction to digital automation》,2019 年)。那时 GPT2 只能做 next token prediction,输出不流畅、还有毛刺。当时我的狂野想象是:GTP 有一天潜力不仅仅是在于吐出下一个 Token,而在于把这个世界上所有的事情全部 automate,我当时想的还不够大,我想的是 digital automation,但是现在看起来也有可能是 digital and physical automation。

博士期间做了两部分:一是如何建立一个 Agent 方法论,最重要的工作是 ReAct。2022 年 7 月,我第一次把 Palm 2 API 和 Wikipedia API 连在一起,让 LLM 基于网页多轮回答问题,那一刻感觉像微弱的电灯突然亮了,人类第一次把 LLM 和互联网连在一起做多轮交互。二是定义 digital automation 任务,如 WebShop、InterCode、SWE-bench。

现在看,Agent 最重要的就是外部 Agent 和 Coding Agent。我博士论文结尾的 future work —— train models for Agent、robust deployment、scientific discovery、help human,我很感慨我现在很幸运确实在做当时列的 future direction。

▎ Token 效率、Agent 产品与组织变革

汤道生: 现在大家有 Token 焦虑、Token 成本爆发式增长。你怎么看待优化 Token 效率?

姚顺雨: 在中国讨论性价比不能只看模型架构。第一是 performance ——更好的模型一次做对,反而更省钱。尤其今年简单任务的 robustness 很重要。第二是成本,中国是领先于世界的,最重要的事情是怎么用一个更小的模型把更高的价值任务做好,在这基础上架构创新,脚手架有很多需要做的事情。

我很好奇,您觉得 Agent,你是什么时候意识到它是一个什么新的产品的机会,以及你现在认知是什么,你觉得现在我们离一个好用的 Agent bottlenck 在哪里呢?

汤道生:在不同场景中,Agent 的设计需充分发挥模型能力。模型越强,Agent 需承担的中间工作越少。随着模型能力提升,产品可更简化,转而提供更多工具、技能和记忆。不同场景(如编码、办公协作)需要不同的相关信息,关键在于理解场景中哪些内容与当前任务最相关,让模型获得所需信息,从而高效完成任务。

姚顺雨: Workbuddy 等产品背后是小团队快速迭代。您觉得 AI 时代的研发和组织管理发生了什么变化?

汤道生: Workbuddy 是非常扁平化的组织,三五个人围绕一个领域攻坚,大量试验,也要包容团队试错,我觉得这是做原生 AI 产品需要的组织形态。另外,工程师把写代码交给 AI,更像驱动多个 Coding Agent 的 leader,针对我们想要的产品需求去做研发、开发,同时要参与评测、测试,也能用好 AI 能力,把这些质量保证工作、对齐工作要做到前面来。

▎ AI 是长期游戏,下半场刚刚开始

汤道生: 很多人说腾讯在 AI 上慢了。你觉得我们真的慢了吗?

姚顺雨: 应该是我问您的问题。AI 今天有两个判断:第一,Al 是一个长期游戏,而非短期窗口。他指出,硅谷部分从业者认为需要 " 赶快赚两年钱退休 " 的心态并不可取,AI 才刚刚开始,ChatGPT 和 Claude Code 不会是仅有的超级应用,未来将持续诞生新的产品机会," 今天可能就像 70 年代 PC 刚刚产生的时候 ";第二,AI 将走向多元而非单一路径。过去几年行业沿着预训练、后训练、Agent 的清晰主线推进,但未来 Coding Agent 之外,多模态、具身智能等大量新方向正在或即将形成,整个世界 " 还有很多空间没有被填满 "。

汤道生: 腾讯是多业态公司,有快有慢,有失败有探索。但就像你说的,这是长跑。腾讯有丰富的场景和 context 积累,我们在长跑中,也请大家多提醒、多提建议、多用我们的产品。

相关标签

相关阅读

最新评论

没有更多评论了

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容