超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

AstraBrain-WBC 0.5 论文深度解读

作者丨齐铖湧

编辑丨林觉民

全球首个人形通用小脑 GPT 基座大模型来了。

在美国科罗拉多州丹佛会议中心举行的 CVPR 2026 现场，银河通用联合研究团队提出的 AstraBrain-WBC 0.5，用一组数字直接刷新了行业认知：

▎引入 "20 亿帧最大人类行为数据规模 "

▎真机实测效果，显著优于 SONIC

▎零样本泛化成功率 92.58%

史上最大规模、整整 20 亿帧人类动作数据，80.4M 参数，零样本泛化成功率 92.58%，把传统三层 MLP 的 76.89% 远远甩在身后，在 MPJPE、MPJVE 等多项指标上全面超越 SONIC、TWIST、Any2Track 等当前最优方法。

这是人形机器人运控领域前所未有的事。（雷峰网）

引入 " 最大人类行为数据规模 "，

真机实测超越SONIC

一个模型，没有任何预先编程，就能直接跟做从未见过的新动作。在室外泥地里拿起锄头干活，在家庭里丝滑稳定地撸猫 / 铲屎，在拳打脚踢下保持鲁棒，也能风度翩翩跳起华尔兹。武术踢腿、篮球运球投篮等高动态动作，同样是零样本，无需针对任务微调。

这就是银河通用最新发布——全球首个人形通用小脑 GPT 基座大模型的含金量。

AstraBrain-WBC 0.5，作为全球首个人形机器通用小脑 GPT 基座大模型，有几个特点：第一是 GPT 式预训练，告别三层 MLP，实现规模即智能。

它通过引入 GPT 式预训练 + 时序因果建模、加入超大规模数据训练，其中 Transformer 相比 MLP，拥有更强的可扩展性，打破单一动作过拟合，实现了零样本泛化追踪全新动作。

再加上训练数据组最近邻检索，实现完全 OOD 泛化，以及谐波自编码器与聚类，重塑训练流程，让这个人形机器人运控领域的 "GPT 式大规模预训练系统 "，呈现出几个显著亮点：

▎引入了 " 最大人类行为数据规模 "。

从规模上看，AstraBrain-WBC 0.5 包含了 20 亿帧、8000 万参数，其中 20 亿帧可以简单等效于 20 亿 token，这个数字已经比肩 2018 年 GPT-1 的量级（GPT-1 约 1.17 亿参数），这是人形机器人运控领域有史以来最大规模的人类行为数据集。

比此前最常用的公开数据集 AMASS（约 720 万帧）高出两个数量级，是业内同类跟踪模型训练集的 200 倍以上。

▎真机实测效果，显著优于 SONIC。

真机实测中，在没有任何预先编程的前提下，不仅能拿锄头，跳华尔兹，还能完成武术踢腿、篮球运球投篮等高动态动作，而且全是零样本，无需针对任务微调。

在四个未见舞蹈动作的跟踪误差对比中，AstraBrain-WBC 0.5 在 MPJPE、MPJVE 等多项指标上，显著优于 SONIC、TWIST、Any2Track 等当前最优方法；而当模型扩容到 80.4M 参数的 AstraBrain-WBC 0.5，成功率跃升至 92.58%，把三层 MLP 的 76.89% 远远甩在身后。

20 亿帧，堪比 2018 年 GPT-1 的量级，Scaling Law 在人形运动控制领域真实存在。

但这只是结果。要理解 AstraBrain-WBC 0.5 为什么能做到这些，得先看看它解决了什么问题。

在过去几年，人形机器人运动控制领域虽然发展很快，但 " 敏捷 "、" 稳定 " 和 " 泛化 " 始终不可兼得。有些方法能让人形机器人奔跑跳跃，完成舞蹈、武术动作，也有些方法让人形机器人泛化能力强，能跟踪更开放的动作输入，但一遇到复杂舞蹈、快速接触切换、或是 " 金鸡独立 "" 叶问蹲 " 等平衡性动作，机器人全身大幅协调，就会变得僵硬，动作精度明显下降。要敏捷，就会牺牲稳定性和泛化性；要泛化，动作质量就打折扣。

AstraBrain-WBC 0.5 正是冲着这个 " 不可能三角 " 去的。

AstraBrain-WBC 0.5 解读：把全身运动视为 " 动作语言 "

核心思想，可以概括为一句话：把人体全身运动看作一种 " 动作语言 "，用处理自然语言的方式去理解和生成它。

https://arxiv.org/abs/2606.03985

论文中提到了 GPT 之所以能在文本领域实现通用智能，关键在于以下三方面：

海量且均衡的数据

因果 Transformer 架构的自回归预测能力

从大量 " 专家 " 中提炼出的通用表示（预训练语料）

AstraBrain-WBC 0.5 团队认为，这三点同样适用于人形运动控制，于是先采集海量人类动作数据集，再用谐波运动嵌入方法让模型吃下数据，再经过专家经验的 Transformer 模型训练，最后在部署方面控制住推理延迟。完成了运控大模型的闭环。

我深扒了一下论文，具体来说，AstraBrain-WBC 0.5的整套方案分为三个紧密衔接的阶段：数据基建、架构改造、双阶段训练。

▎第一、数据基建，解决 " 模型吃什么 " 的问题

人形机器人运控数据很稀缺，AstraBrain-WBC 0.5 团队没有局限于某个单一数据集，而是整合了 AMASS、LAFAN1、MotionMillion、PHUMA、Motion-X++ 等多个来源的动作数据，再加上超过一千小时的高质量内部采集数据，统一重定向到宇树 G1 的 29 自由度关节空间。

但光是 " 堆数据 " 不够。不同动作的频率、幅度、风格差异巨大，直接混在一起训练，模型会 " 消化不良 "。

AstraBrain-WBC 0.5 团队引入了 Harmonic Motion Embedding（HME，谐波运动嵌入）技术，基于动作的周期特征进行聚类，把约 20 亿帧原始数据切分成大约 300 个运动簇。

这一步非常关键。它相当于给动作数据做了一次 " 词性标注 " 和 " 句法分析 "，让后续的训练更有条理。没有这一步，20 亿帧数据就是一锅粥；有了这一步，它变成了一本结构清晰的词典。

▎第二、架构改造，解决 " 用什么吃数据 " 的问题

团队彻底抛弃了浅层 MLP，改用 GPT 风格的 Causal Transformer（因果 Transformer）。这个选择不是跟风，而是有扎实的控制理论依据：在线动作跟踪本质上是一个时序预测问题，机器人每一步的决策都依赖于过去的状态和动作历史。Causal Transformer 的 " 因果注意力 " 机制，天然适合处理这种 " 只能看过去、不能偷看未来 " 的场景。

相比 MLP 只能看当前几帧的 " 短视 "，Transformer 可以捕捉更长的时间上下文，理解动作的连贯性和节奏感。一个舞蹈动作失败，往往不是因为当前这一步错了，而是因为三步之前的重心没调好。Transformer 的长记忆能力，让它能够 " 复盘 " 历史，做出更连贯的决策。

▎第三、双阶段训练，解决 " 怎么消化 " 的问题

团队没有天真地指望一个 Transformer 直接硬啃 20 亿帧数据。他们采用了 " 先分后总 " 的策略：第一阶段，为 300 个运动簇分别训练约 300 个 PPO（近端策略优化）运动专家，让每个专家把自己那一类动作学到极致；

第二阶段，用 DAgger（数据集聚合）算法，把这 300 个专家的经验蒸馏到单一的 AstraBrain-WBC 0.5 模型中，相当于专科会诊，再培养一个全科医生。专家策略负责在各自领域达到性能上限，蒸馏过程则负责把分散的知识整合成通用能力。

这三个阶段环环相扣，缺一不可。没有高质量的数据基建，Transformer 就是无米之炊；没有架构升级，数据再多也装不进小容量的 MLP；没有双阶段训练，大规模数据会导致训练不稳定、收敛困难。

这是一个系统工程，不是某个单点技术的突破。

架构创新：Transformer 重构小脑，终结 MLP 时代

接下来聊聊 AstraBrain-WBC 0.5 的创新性。我觉得论文中首先值得一提的，是架构创新。

简单来说，用 Transformer 替代 MLP，是首次实现人形运控模型的规模化扩展。

这是论文最直接、但也最容易被我们 " 理所当然化 " 的贡献。

这部分团队做了非常扎实的对比实验：在同样的 2M token 训练数据下，三层 MLP 的成功率是 76.89%，8 层 TCN（时序卷积网络）提升到 81.48%，而参数量仅 5.7M 的 AstraBrain-WBC 0.5-S 就达到了 83.26%。

当数据量提升到 20 亿 token、模型参数扩展到 80.4M 时，成功率跃升至 92.58%。

论文中也给出了对比：当数据量达到最大的 AstraBrain-WBC 0.5-L，在全部评测指标上几乎都实现性能最优。

这组数字说明了两件事。

第一，Transformer 的容量天花板远高于 MLP 和 TCN，能够持续从更多数据中 " 汲取营养 "；第二，在人形运动控制领域，Scaling Law 是真实存在的。

更值得注意的是，团队证明了 Transformer 在保持高容量的同时，依然可以满足实时控制的严苛要求。

这里面有个细节：团队通过 ONNX 导出、TensorRT 编译、C++ 流式数据通道等工程优化，在单张 RTX 4090 显卡上把端到端推理延迟压到了 1.5 毫秒以下。作为对比，传统方案 TWIST 在 CPU ONNX 上的延迟是 2.79 — 3.32 毫秒。

这意味着，即便模型大了几十倍，真机部署时的响应速度依然比很多传统小模型更快。

这一点打破了 " 大模型必然慢 " 的偏见，为后续更大规模的模型奠定了基础。

20 亿帧超大规模人类动作数据集：

首次验证小脑大模型 Scaling low

如果说架构创新是最容易被看见的，数据基建就是这篇论文中最容易被忽略的部分。

我们都知道，人形动作数据如果分布太窄，模型只会在窄分布里越来越熟。未来要接住各种动作，数据来源必须更杂。我看了下论文里提到的 20 亿帧、8000 万参数的分布，这个参数量达到了 " 最大人类行为数据规模 "，这体现出银河通用团队在数据积累层面的强大技术壁垒。

他们统一不同数据源的骨骼偏差、过滤低质量动作片段、进行时序分段和数据增广、通过 HME 聚类保证数据分布均衡。

在最终的数据集里，我又发现了一个细节。看右侧图表这样的配比，能看得出来，这个数据配比融入了各种数据来源，既保证了多样性，又避免了某些数据源的过度主导，明显是多次试验验证得到的。

某种意义上，它证实了一件事：只要你有足够的数据、足够的算力、足够好的架构，人形机器人的运动控制也能像自然语言一样，通过规模化实现质变。

零样本泛化关键：300 个专家 " 会诊 "1 个模型

双阶段训练是整套系统的核心，也是炼成通用能力的关键。

在第一训练阶段，论文提到一个细节：AstraBrain-WBC 0.5 团队没有把所有动作直接扔给一个模型硬学。它先用 HME 把动作分簇，再训练一批 motion experts。AstraBrain-WBC 0.5 的处理很直接：先承认动作分布不同，让专家各自把一块学稳，再把专家经验蒸馏回一个大模型。

训练这 300 个 PPO 专家，消耗了 15000 GPU 小时中的 75%，投入是巨大的，但也是必要的。

第二阶段是蒸馏。团队用 DAgger 算法，让 AstraBrain-WBC 0.5 在专家策略生成的轨迹上学习，逐步把 300 个专家的 " 集体智慧 " 压缩到一个模型里。为防止越学越偏，用算法收集学生模型的 " 犯错数据 " 并交给专家重新标注，这就解决了 " 分布偏移 "。

最终得到的 AstraBrain-WBC 0.5，既保留了专家策略的高性能，又具备了单一模型的通用性和部署便利性。这是一种典型的 " 用工程复杂度换模型通用性 " 的思路，也是大模型时代常见的技术路线。

其实当时看论文看到这里，我想到一个现实问题：以后人形机器人底层运控如果真的走向基座化，算力账本可能不会只出现在 VLA 和世界模型里。身体这一层，也开始有自己的数据账本、专家账本和蒸馏账本。

从 " 只会走 " 到 " 全身动 "：伯克利之后，谁把 GPT 范式推到了极致？

其实 AstraBrain-WBC 0.5 的工作，并不是凭空出现的范式创新。不少人看到这里，应该想到了 2024 年伯克利团队的《Humanoid Locomotion as Next Token Prediction》论文，它的核心思路是用 " 预测下一个 token" 的自回归方式做人形机器人的行走控制。

当时这篇论文在学术界引起了很大反响，因为它首次把 GPT 的范式引入机器人运动领域，证明了在单一行走任务上，自回归模型可以取得不错的效果。

而 AstraBrain-WBC 0.5，则是在此基础上往前迈出了一大步。

伯克利的工作主要聚焦于行走（Locomotion），这是一个相对单一的任务域。行走虽然复杂，但本质上是一个周期性运动，状态空间相对有限。

而 AstraBrain-WBC 0.5 解决的是全身运动跟踪，涵盖走路、跑步、舞蹈、武术、搬运、倒地起身等极其丰富的动作类型。

从 " 只会走 " 到 " 全身都会动 "，这中间的难度跨越不是线性的，而是指数级的。

更重要的是，AstraBrain-WBC 0.5 实现了零样本泛化。

从效果上看，AstraBrain-WBC 0.5 在多个维度实现了突破：

第一是高动态动作支持。真机实测视频中，机器人可以完成跳跃、快速转身、武术踢腿等动作。

很多人形动作失败，看起来发生在某一帧，根源往往在前面几步。节奏没接上，重心提前偏了，脚落点稍微错了一点，后面再想补就很难。Transformer 真正有用的地方，是它给 tracker 更长的时间视野。

第二是超低延迟响应。端到端推理延迟低于 1.5 毫秒。在人形机器人控制中，延迟非常要命。每多一毫秒，机器人在受到扰动时的恢复窗口就小一分。

第三是鲁棒性。论文展示了机器人在受到外部推力、地面摩擦变化等干扰下的表现。这不是 " 死记硬背 " 某个动作轨迹，而是真正理解。

论文里，团队用四个未见舞蹈动作的真机跟踪误差横向对比 AstraBrain-WBC 0.5 与 SONIC、TWIST、Any2Track，AstraBrain-WBC 0.5-B 在多项指标上优于 GMT、TWIST、Any2Track。

此外还有一个在线遥操作验证的实验：实时 MoCap 流持续重定向到 G1 关节空间，AstraBrain-WBC 0.5 不额外微调，直接驱动机器人跟随。这些都是非常直观的突破。

银河通用重构人形机器人商业版图

最后，抛开顶会论文的学术意义，我们再聊聊 AstraBrain-WBC 0.5 的产业价值。

首先，AstraBrain-WBC 0.5 作为一个预训练的 " 运控基座 "，其他研究者可以直接零样本跟踪新的参考动作，大幅降低研究门槛。再加上开源了代码和部分工具，这意味着全球的研究者都可以在此基础上进行二次开发。

放在娱乐场景，AstraBrain-WBC 0.5 让 " 一键生成复杂拟人化表演 " 成为可能。以后舞蹈编导可以给远在千里之外的机器人实时复现，迪士尼或者剧组的机器人拿到远程运控信号，就可以随时开跳。对于应急救援等严肃场景，AstraBrain-WBC 0.5 的泛化能力也让机器人可以在未知环境中执行更复杂的身体任务。

最后，必须要说的是，AstraBrain-WBC 0.5 也是具身头部公司银河通用的 " 银河星脑 " 的小脑部分。

银河星脑是全球首个集成 " 大脑 - 小脑 - 神经控制 " 于一体的全身全手端到端具身大模型，其中 AstraBrain-WBC 0.5 所擅长的，就是把高层指令转化为具体的关节运动。

回顾银河通用的发展轨迹，这家公司成立于 2023 年 5 月，短短两年多时间，已经完成了从零样本抓取、零售场景、导航基座到 AstraBrain（全身全手大模型）的技术布局。

AstraBrain-WBC 0.5 作为其中的 " 小脑 " 模块，不仅补齐了全身运动控制这块关键拼图，也为整个银河星脑的泛化能力提供了坚实的身体底座。

银河通用带领团队的这项工作，在学术领域最大的意义或许在于：在人形机器人运控领域已经找到了一条可扩展、可复现的技术路径，就像 2018 年的 GPT-1 的出现，虽然远不及今天的 GPT-4，但它却奠定了一个路书。

而在商业视角下，AstraBrain-WBC 0.5 的价值还在于它正在重构人形机器人的商业模型。

一个预训练的通用运控基座，意味着银河通用无需为每个新场景重新投入研发成本，舞蹈、巡检、救援共用同一套 " 身体操作系统 "。

边际成本随部署规模递减，毛利率曲线将显著抬升。而零样本泛化能力大幅缩短了客户验证周期，从 " 定制开发 " 变成 " 即插即用 "，客户获取速度有望复制软件行业的规模化扩张路径。（雷峰网）

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

超越 SONIC ！人形机器人通用小脑迎来 GPT 时刻

宙世代

一起剪

相关阅读

荣耀X80 Pro Max行业首发2年免费换屏！摔坏包换

OpenAI 决定靠卖广告养 AI

华为乾崑智驾高阶包下月调价：取消限时优惠 恢复至3.6万元标准价

三星电子平泽P5 Fab 2进度提前约半年，拟于7月破土动工

“物理AI第一股”海清智元上市，9家公司正招股

iPhone 18 Pro系列屏幕已开始量产！首发小号灵动岛

iPhone 18标准版外观出炉：横向大矩阵模组 神似双摄版17 Pro

闪迪新专利曝光：NAND容量暴增64倍

古尔曼曝苹果2026至2027产品线：折叠屏续作、配摄像头AirPods及智能眼镜齐发

华大九天：公司是国内唯一的3D IC设计验证全流程EDA提供商

近半年掉粉超96万！陈震自嘲“黑粉头子终于能营业了”：以后我言语上会变得很温和

被封半年后顶流汽车博主“陈震同学”回归：秀出8块腹肌

硅谷风投教父押宝海洋数据中心：有望比SpaceX太空路线更便宜

小米YU7 GT创全球首个纽北自动驾驶圈速纪录 自动驾驶跑赛道到底有多难？

内存短缺冲击PC市场！高通骁龙X3推迟至2027年发布

最新评论

雷峰网

热门推荐

企业资讯

华为乾崑智驾高阶包下月调价：取消限时优惠恢复至3.6万元标准价

iPhone 18标准版外观出炉：横向大矩阵模组神似双摄版17 Pro

小米YU7 GT创全球首个纽北自动驾驶圈速纪录自动驾驶跑赛道到底有多难？