
作者丨齐铖湧
编辑丨林觉民
全球首个人形通用小脑 GPT 基座大模型来了。
在美国科罗拉多州丹佛会议中心举行的 CVPR 2026 现场,银河通用联合研究团队提出的 AstraBrain-WBC 0.5,用一组数字直接刷新了行业认知:
▎引入 "20 亿帧最大人类行为数据规模 "
▎真机实测效果,显著优于 SONIC
▎零样本泛化成功率 92.58%
史上最大规模、整整 20 亿帧人类动作数据,80.4M 参数,零样本泛化成功率 92.58%,把传统三层 MLP 的 76.89% 远远甩在身后,在 MPJPE、MPJVE 等多项指标上全面超越 SONIC、TWIST、Any2Track 等当前最优方法。
这是人形机器人运控领域前所未有的事。(雷峰网)
01
引入 " 最大人类行为数据规模 ",
真机实测超越SONIC
一个模型,没有任何预先编程,就能直接跟做从未见过的新动作。在室外泥地里拿起锄头干活,在家庭里丝滑稳定地撸猫 / 铲屎,在拳打脚踢下保持鲁棒,也能风度翩翩跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作,同样是零样本,无需针对任务微调。

AstraBrain-WBC 0.5,作为全球首个人形机器通用小脑 GPT 基座大模型,有几个特点:第一是 GPT 式预训练,告别三层 MLP,实现规模即智能。
它通过引入 GPT 式预训练 + 时序因果建模、加入超大规模数据训练,其中 Transformer 相比 MLP,拥有更强的可扩展性,打破单一动作过拟合,实现了零样本泛化追踪全新动作。
再加上训练数据组最近邻检索,实现完全 OOD 泛化,以及谐波自编码器与聚类,重塑训练流程,让这个人形机器人运控领域的 "GPT 式大规模预训练系统 ",呈现出几个显著亮点:
▎引入了 " 最大人类行为数据规模 "。
从规模上看,AstraBrain-WBC 0.5 包含了 20 亿帧、8000 万参数,其中 20 亿帧可以简单等效于 20 亿 token,这个数字已经比肩 2018 年 GPT-1 的量级(GPT-1 约 1.17 亿参数),这是人形机器人运控领域有史以来最大规模的人类行为数据集。
比此前最常用的公开数据集 AMASS(约 720 万帧)高出两个数量级,是业内同类跟踪模型训练集的 200 倍以上。
▎真机实测效果,显著优于 SONIC。
真机实测中,在没有任何预先编程的前提下,不仅能拿锄头,跳华尔兹,还能完成武术踢腿、篮球运球投篮等高动态动作,而且全是零样本,无需针对任务微调。
在四个未见舞蹈动作的跟踪误差对比中,AstraBrain-WBC 0.5 在 MPJPE、MPJVE 等多项指标上,显著优于 SONIC、TWIST、Any2Track 等当前最优方法;而当模型扩容到 80.4M 参数的 AstraBrain-WBC 0.5,成功率跃升至 92.58%,把三层 MLP 的 76.89% 远远甩在身后。
20 亿帧,堪比 2018 年 GPT-1 的量级,Scaling Law 在人形运动控制领域真实存在。
但这只是结果。要理解 AstraBrain-WBC 0.5 为什么能做到这些,得先看看它解决了什么问题。
在过去几年,人形机器人运动控制领域虽然发展很快,但 " 敏捷 "、" 稳定 " 和 " 泛化 " 始终不可兼得。有些方法能让人形机器人奔跑跳跃,完成舞蹈、武术动作,也有些方法让人形机器人泛化能力强,能跟踪更开放的动作输入,但一遇到复杂舞蹈、快速接触切换、或是 " 金鸡独立 "" 叶问蹲 " 等平衡性动作,机器人全身大幅协调,就会变得僵硬,动作精度明显下降。要敏捷,就会牺牲稳定性和泛化性;要泛化,动作质量就打折扣。

02
AstraBrain-WBC 0.5 解读:把全身运动视为 " 动作语言 "
核心思想,可以概括为一句话:把人体全身运动看作一种 " 动作语言 ",用处理自然语言的方式去理解和生成它。

论文中提到了 GPT 之所以能在文本领域实现通用智能,关键在于以下三方面:
海量且均衡的数据
因果 Transformer 架构的自回归预测能力
从大量 " 专家 " 中提炼出的通用表示(预训练语料)
AstraBrain-WBC 0.5 团队认为,这三点同样适用于人形运动控制,于是先采集海量人类动作数据集,再用谐波运动嵌入方法让模型吃下数据,再经过专家经验的 Transformer 模型训练,最后在部署方面控制住推理延迟。完成了运控大模型的闭环。
我深扒了一下论文,具体来说,AstraBrain-WBC 0.5的整套方案分为三个紧密衔接的阶段:数据基建、架构改造、双阶段训练。
▎第一、数据基建,解决 " 模型吃什么 " 的问题
人形机器人运控数据很稀缺,AstraBrain-WBC 0.5 团队没有局限于某个单一数据集,而是整合了 AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++ 等多个来源的动作数据,再加上超过一千小时的高质量内部采集数据,统一重定向到宇树 G1 的 29 自由度关节空间。

AstraBrain-WBC 0.5 团队引入了 Harmonic Motion Embedding(HME,谐波运动嵌入)技术,基于动作的周期特征进行聚类,把约 20 亿帧原始数据切分成大约 300 个运动簇。
这一步非常关键。它相当于给动作数据做了一次 " 词性标注 " 和 " 句法分析 ",让后续的训练更有条理。没有这一步,20 亿帧数据就是一锅粥;有了这一步,它变成了一本结构清晰的词典。
▎第二、架构改造,解决 " 用什么吃数据 " 的问题
团队彻底抛弃了浅层 MLP,改用 GPT 风格的 Causal Transformer(因果 Transformer)。这个选择不是跟风,而是有扎实的控制理论依据:在线动作跟踪本质上是一个时序预测问题,机器人每一步的决策都依赖于过去的状态和动作历史。Causal Transformer 的 " 因果注意力 " 机制,天然适合处理这种 " 只能看过去、不能偷看未来 " 的场景。
相比 MLP 只能看当前几帧的 " 短视 ",Transformer 可以捕捉更长的时间上下文,理解动作的连贯性和节奏感。一个舞蹈动作失败,往往不是因为当前这一步错了,而是因为三步之前的重心没调好。Transformer 的长记忆能力,让它能够 " 复盘 " 历史,做出更连贯的决策。
▎第三、双阶段训练,解决 " 怎么消化 " 的问题
团队没有天真地指望一个 Transformer 直接硬啃 20 亿帧数据。他们采用了 " 先分后总 " 的策略:第一阶段,为 300 个运动簇分别训练约 300 个 PPO(近端策略优化)运动专家,让每个专家把自己那一类动作学到极致;
第二阶段,用 DAgger(数据集聚合)算法,把这 300 个专家的经验蒸馏到单一的 AstraBrain-WBC 0.5 模型中,相当于专科会诊,再培养一个全科医生。专家策略负责在各自领域达到性能上限,蒸馏过程则负责把分散的知识整合成通用能力。

这是一个系统工程,不是某个单点技术的突破。
03
架构创新:Transformer 重构小脑,终结 MLP 时代
接下来聊聊 AstraBrain-WBC 0.5 的创新性。我觉得论文中首先值得一提的,是架构创新。
简单来说,用 Transformer 替代 MLP,是首次实现人形运控模型的规模化扩展。
这是论文最直接、但也最容易被我们 " 理所当然化 " 的贡献。
这部分团队做了非常扎实的对比实验:在同样的 2M token 训练数据下,三层 MLP 的成功率是 76.89%,8 层 TCN(时序卷积网络)提升到 81.48%,而参数量仅 5.7M 的 AstraBrain-WBC 0.5-S 就达到了 83.26%。
当数据量提升到 20 亿 token、模型参数扩展到 80.4M 时,成功率跃升至 92.58%。
论文中也给出了对比:当数据量达到最大的 AstraBrain-WBC 0.5-L,在全部评测指标上几乎都实现性能最优。
这组数字说明了两件事。
第一,Transformer 的容量天花板远高于 MLP 和 TCN,能够持续从更多数据中 " 汲取营养 ";第二,在人形运动控制领域,Scaling Law 是真实存在的。
更值得注意的是,团队证明了 Transformer 在保持高容量的同时,依然可以满足实时控制的严苛要求。
这里面有个细节:团队通过 ONNX 导出、TensorRT 编译、C++ 流式数据通道等工程优化,在单张 RTX 4090 显卡上把端到端推理延迟压到了 1.5 毫秒以下。作为对比,传统方案 TWIST 在 CPU ONNX 上的延迟是 2.79 — 3.32 毫秒。

这一点打破了 " 大模型必然慢 " 的偏见,为后续更大规模的模型奠定了基础。
04
20 亿帧超大规模人类动作数据集:
首次验证小脑大模型 Scaling low
如果说架构创新是最容易被看见的,数据基建就是这篇论文中最容易被忽略的部分。
我们都知道,人形动作数据如果分布太窄,模型只会在窄分布里越来越熟。未来要接住各种动作,数据来源必须更杂。我看了下论文里提到的 20 亿帧、8000 万参数的分布,这个参数量达到了 " 最大人类行为数据规模 ",这体现出银河通用团队在数据积累层面的强大技术壁垒。
他们统一不同数据源的骨骼偏差、过滤低质量动作片段、进行时序分段和数据增广、通过 HME 聚类保证数据分布均衡。
在最终的数据集里,我又发现了一个细节。看右侧图表这样的配比,能看得出来,这个数据配比融入了各种数据来源,既保证了多样性,又避免了某些数据源的过度主导,明显是多次试验验证得到的。
<>
05
零样本泛化关键:300 个专家 " 会诊 "1 个模型
双阶段训练是整套系统的核心,也是炼成通用能力的关键。
在第一训练阶段,论文提到一个细节:AstraBrain-WBC 0.5 团队没有把所有动作直接扔给一个模型硬学。它先用 HME 把动作分簇,再训练一批 motion experts。AstraBrain-WBC 0.5 的处理很直接:先承认动作分布不同,让专家各自把一块学稳,再把专家经验蒸馏回一个大模型。
训练这 300 个 PPO 专家,消耗了 15000 GPU 小时中的 75%,投入是巨大的,但也是必要的。


其实当时看论文看到这里,我想到一个现实问题:以后人形机器人底层运控如果真的走向基座化,算力账本可能不会只出现在 VLA 和世界模型里。身体这一层,也开始有自己的数据账本、专家账本和蒸馏账本。
06
从 " 只会走 " 到 " 全身动 ":伯克利之后,谁把 GPT 范式推到了极致?
其实 AstraBrain-WBC 0.5 的工作,并不是凭空出现的范式创新。不少人看到这里,应该想到了 2024 年伯克利团队的《Humanoid Locomotion as Next Token Prediction》论文,它的核心思路是用 " 预测下一个 token" 的自回归方式做人形机器人的行走控制。
当时这篇论文在学术界引起了很大反响,因为它首次把 GPT 的范式引入机器人运动领域,证明了在单一行走任务上,自回归模型可以取得不错的效果。
而 AstraBrain-WBC 0.5,则是在此基础上往前迈出了一大步。
伯克利的工作主要聚焦于行走(Locomotion),这是一个相对单一的任务域。行走虽然复杂,但本质上是一个周期性运动,状态空间相对有限。
而 AstraBrain-WBC 0.5 解决的是全身运动跟踪,涵盖走路、跑步、舞蹈、武术、搬运、倒地起身等极其丰富的动作类型。
从 " 只会走 " 到 " 全身都会动 ",这中间的难度跨越不是线性的,而是指数级的。
更重要的是,AstraBrain-WBC 0.5 实现了零样本泛化。

第一是高动态动作支持。 真机实测视频中,机器人可以完成跳跃、快速转身、武术踢腿等动作。
很多人形动作失败,看起来发生在某一帧,根源往往在前面几步。节奏没接上,重心提前偏了,脚落点稍微错了一点,后面再想补就很难。Transformer 真正有用的地方,是它给 tracker 更长的时间视野。
第二是超低延迟响应。 端到端推理延迟低于 1.5 毫秒。在人形机器人控制中,延迟非常要命。每多一毫秒,机器人在受到扰动时的恢复窗口就小一分。
第三是鲁棒性。 论文展示了机器人在受到外部推力、地面摩擦变化等干扰下的表现。这不是 " 死记硬背 " 某个动作轨迹,而是真正理解。
论文里,团队用四个未见舞蹈动作的真机跟踪误差横向对比 AstraBrain-WBC 0.5 与 SONIC、TWIST、Any2Track,AstraBrain-WBC 0.5-B 在多项指标上优于 GMT、TWIST、Any2Track。

07
银河通用重构人形机器人商业版图
最后,抛开顶会论文的学术意义,我们再聊聊 AstraBrain-WBC 0.5 的产业价值。
首先,AstraBrain-WBC 0.5 作为一个预训练的 " 运控基座 ",其他研究者可以直接零样本跟踪新的参考动作,大幅降低研究门槛。再加上开源了代码和部分工具,这意味着全球的研究者都可以在此基础上进行二次开发。

最后,必须要说的是,AstraBrain-WBC 0.5 也是具身头部公司银河通用的 " 银河星脑 " 的小脑部分。
银河星脑是全球首个集成 " 大脑 - 小脑 - 神经控制 " 于一体的全身全手端到端具身大模型,其中 AstraBrain-WBC 0.5 所擅长的,就是把高层指令转化为具体的关节运动。
回顾银河通用的发展轨迹,这家公司成立于 2023 年 5 月,短短两年多时间,已经完成了从零样本抓取、零售场景、导航基座到 AstraBrain(全身全手大模型)的技术布局。

银河通用带领团队的这项工作,在学术领域最大的意义或许在于:在人形机器人运控领域已经找到了一条可扩展、可复现的技术路径,就像 2018 年的 GPT-1 的出现,虽然远不及今天的 GPT-4,但它却奠定了一个路书。
而在商业视角下,AstraBrain-WBC 0.5 的价值还在于它正在重构人形机器人的商业模型。
一个预训练的通用运控基座,意味着银河通用无需为每个新场景重新投入研发成本,舞蹈、巡检、救援共用同一套 " 身体操作系统 "。
边际成本随部署规模递减,毛利率曲线将显著抬升。而零样本泛化能力大幅缩短了客户验证周期,从 " 定制开发 " 变成 " 即插即用 ",客户获取速度有望复制软件行业的规模化扩张路径。(雷峰网)