关于ZAKER Skills 合作
雷科技 28分钟前

让 AI 自我构建的 RSI 火了!Google 泼冷水,DeepSeek 们摸到了边

" 递归 " 这个词,最近突然在 AI 圈子里火了。

两家初创公司直接把这个词当成了公司名,许多实验室开始在路线图里塞进一个叫做 RSI 的三字缩写中,也就是递归的英文名—— recursive self-improvement(递归式自我改进)。就像 AGI 一样,RSI 正在变成一个让人既兴奋又忐忑的行业暗号,哪怕大家对它的定义还没完全对齐。

(图源:X)

什么是 RSI?简单来说,就是让 AI 自己训练自己,在技术界,RSI 一直被视为人工智能进步的主要标志之一,与记忆、推理和多模态并列,唯一的限制是算力,人类在其中已经不是必要条件,甚至连帮手都算不上。

听起来很科幻,或者说,听起来很危险?但冷静下来想,这不是 AI 行业的第一次狂热。从 2016 年的 AlphaGo 到 2023 年的 ChatGPT,再到今天各家大模型参数军备竞赛,AI 行业的天性就是追逐下一个 " 改变一切 " 的东西,在雷科技 AGI(ID:leikejiagi)看来,RSI 可能就是下一场狂欢。

今年 5 月,AI 界知名研究员 Richard Socher 高调创办了一家叫 Recursive Superintelligence 的新公司,名字直接就是 RSI。

他表示:"我们的核心目标是构建真正意义上的递归自我改进超级智能,整个研究的构思、实现和验证过程,全部自动完成。"

另一个更让圈内人津津乐道的案例,是安德烈 · 卡帕西(Andrej Karpathy)推进的一个叫 Auto-Research 的项目:用智能体集群来训练语言模型,让模型自己做简单的研究任务,自己去改进自己。

图源:github

安德烈 · 卡帕西也是一个传奇人物,他在特斯拉做自动驾驶、在 OpenAI 做 GPT 都留下过硬货。现在他把 RSI 当成下一站来 all in,而且是用公开透明的方式在推进,这也说明他是真的认为这事可以做到。

有意思的是,他对这个项目出奇地坦诚,定期在推特上更新进展,代码也开了 GitHub 公开仓库。当然,安德烈 · 卡帕西自己也说了,目前的工作还是在 GPT-2 级别的小模型上做迭代," 还不是什么突破性研究(暂时)",但这已经足够带动一大批研究者跟进了。

更重要的是,安德烈 · 卡帕西最近加入了 Anthropic 的预训练团队。Anthropic 有 Claude,卡帕西有 auto-research 这套方法论,两边一合,大模型 + 自训练循环,一旦跑通,就不是 GPT-2 级别的小打小闹了。

图源:haimagazine

另一家叫 Adaption 的公司推出了一个 AutoScientist 工具,目标是自动化前沿模型的训练过程。逻辑跟安德烈 · 卡帕西的 auto-researchers 一样,训练 agent 做渐进式改进。只不过 Adaption 的野心更大,想直接搞定一整个全尺寸前沿模型的训练闭环。

这两家其实代表了两种路线:安德烈 · 卡帕西是从底层逐块验证,一边开源一边在社区里攒势能;Adaption 是直接冲着商业化的大模型训练场景去的,落地意愿更强烈。两条路谁先跑通,对整个行业的影响会截然不同。

关于 RSI,AI 圈大佬们也众说纷纭。

Google CEO 桑达尔 · 皮查伊上个月在一档播客里,措辞相当谨慎地承认了现实:"(RSI)是一个连续体,我们确实都在进步。但如果按照大家描述 RSI 的方式,那代表的是下一个量级的加速,会有很多影响,但我们还没到那一步。"

虽然如此,但这里面的 " 连续体 " 描述,已经包含了不少让人细思极恐的事情。

今年 1 月,Anthropic 一位主导 Claude Code 开发的程序员坦言,团队里接近 100% 的代码是 Claude Code 写的,这是一种字面意义上的 AI 在写自己。不是 AI 辅助工程师写代码,而是 AI 工具在某种程度上已经在替代工程师写自己的代码。

图源:Anthropic

Anthropic 有一份关于 Mythos 预览版本的内部调查:18 位工程师里,有 5 位认为,如果配套系统再改进一下,这个版本的 Mythos 就可以替代一个 L4 工程师,即可以独立承接复杂项目、不需要实时监督的中级程序员。

但缺陷也写得很清楚:"Claude 报告的主要弱点包括:管理周期以上的模糊任务、理解组织优先级、品味、验证、指令遵循和认识论。" 意思就是说,它弱的,恰恰是自我驱动的那些事,而自我驱动,是 RSI 的根基。

好玩的是,Georgetown 安全与新兴技术研究中心(CSET)去年组织了一批专家专门研究 RSI。这群专家在评估时出现了明显分裂,一部分人预期即将迎来 " 超级智能爆炸 ",另一部分人预期进展会更慢、最终会触达某个瓶颈期。

但他们有一个共识:递归,让未来变得格外难以预测。

为此,METR 研究员 Ajeya Cotra 的一篇文章,把 RSI 的进程拆解成几个里程碑,我觉得这是目前最好用的分析框架。

第一级叫 " 足够 "(adequacy):把人类完全移除后,系统依然能做研究——哪怕不如人类,但能运转。

第二级叫 " 对等 "(parity):AI 独立完成的研究,和人类独立完成的研究质量相当。

第三个叫 " 超越 "(supremacy):AI 独立系统的表现,超过了人类与 AI 协作的系统。

有点像自动驾驶里的 L2、3、4、5。Ajeya Cotra 的判断是:我们离第一级已经很近了。但第二级什么时候来,她没给时间表,但她给了一个非常明确的推演,一旦第二级到来,后续加速会远超过往," 一年之内可能就会冲到第三级。"

为什么这么快?因为到了第二级那一刻,AI 就变成了一个不需要睡觉、不需要开会、不需要对齐 KPI 的研究团队。它可以 24 小时不间断地试、改、再试。而人类做研究,哪怕效率再高的人,一天的有效深度工作时间也就那么几个小时,中间还夹着无数打断和沟通成本,一旦这个瓶颈不存在了,加速度是断崖式上升的。

前面聊了一堆海外的进展,你可能想问:国内呢?

坦白讲,国内厂商很少公开喊 RSI,海外的 AI 公司能把 " 递归超级智能 " 写进公司使命,这种事在国内几乎不可想象。但如果说让 AI 自己改进自己,国内厂商其实已经在不同的路径上悄悄摸到边了。

最典型的例子是 DeepSeek。他们花的钱比 OpenAI 少一个数量级,但在很多推理任务上已经可以正面刚。靠的就是算法效率的极致优化—— MoE 架构、激活参数的极致压缩、训练策略的工程化打磨。

虽说这跟 RSI 关系不大,但这是一条用更聪明的方法,替代蛮力堆算力的路。而这条路,恰好是 RSI 的核心逻辑之一:让模型在迭代中找到更聪明的那条路径。

百度文心这边,强化学习驱动模型自我优化已经是常规操作了。虽然没有用 RSI 这个名字,但做的是同一件事:让模型在特定任务上通过自反馈循环不断改进。从这个角度看,国内厂商不是没在做 RSI,只是他们已经把 RSI 的某些环节变成了日常工程实践,只是不挂这个名。

(图源:gemini 生成)

当然,差距也是客观存在的。OpenAI 和 Anthropic 的人才密度,目前国内任何一家都还比不了,这意味着在 RSI 的探索上,眼下仍然是跟随状态。

但历史经验告诉我们,国内厂商在 " 管道路径明确之后 " 的追赶速度往往是惊人的。RSI 的框架正在被海外大神们拆得越来越清晰,Karpathy 的代码也公开在 GitHub 上,一旦可复现的路径走通了,国内玩家的成本控制能力和落地场景密度,会是一个被市场严重低估的变量。

但同时,我们也得适当泼点冷水。事实上,AI 自己生成的数据,用来训练下一版 AI,质量是会往下掉的。RSI 的逻辑是 AI 生成好的数据,然后用这些数据训练下一代 AI,使得下一代 AI 更强。

而实际情况可能反过来,AI 生成的数据里往往会混进它自己的幻觉、偏见、质量退化,这些二手数据被喂给下一版,下一版再产出更差的三手货,循环几代之后整个系统就塌了,就像一个复印机不断复印复印件,印到第十张脸都糊了。

学术界管这个叫模型坍缩,已经有论文验证过这个现象真实存在。

再者,RSI 需要的理想环境,在真实世界里根本不存在。这套系统要跑起来,两个前提缺一不可:无限算力、全球开放协作的研究生态。

而现实是训练一个前沿模型的成本已经到了十亿量级,芯片产能有限、能源有限、优质数据也在变少,出口管制和技术脱钩正在把 AI 研究切成几个互相不流通的圈子,人和货都流不动,连这些基础条件都凑不齐,就别谈什么 RSI 了。

RSI 不只是一个技术问题了,它还需要一个足够开放的世界,而这个前提能不能成立,技术圈还真无法说了算。

最后说个我觉得有意思的观察:整个行业在过去五年里,先是大规模预训练把人拉进了 " 参数崇拜 ",然后是 RLHF(基于人类反馈的强化学习)让人相信 " 价值观可以微调 ",现在是 RSI 在讲一个 " 机器自己跑完整个研发链条 " 的故事。每一步都在让人类往后退一步,不是退出行业,而是退出决策链条。

虽说这种退法不一定是坏事,但它是不可逆的。一旦某个环节被自动化接管了,人的直觉、经验、判断力在那个环节就慢慢退化了,就像不用 GPS 之后你会发现认路能力确实在变差。

到那时候,我们连工具是怎么造出来的,都不一定能真的理解。

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容