关于ZAKER Skills 合作
钛媒体 4小时前

VLA 已死,WAM 当立:机器人的 GPT 时刻到了吗?

文 | 脑极体

就在刚刚过去的 4 月底,红杉资本举办的 AI Ascent 2026 大会上,英伟达机器人方向负责人 Jim Fan 抛出了一个极具争议的论断:" 视觉语言模型 VLA 已死,世界动作模型 WAM 当立。" 他还预测,未来一到两年内,机器人学习的主要数据来源将从昂贵的人类遥控操作,转变为互联网上随手可得的第一视角人类视频。

这番话一出,立刻在具身智能领域引发轩然大波。

而就在 Jim Fan 发言前不久,国内具身智能公司银河通用联合英伟达、清华、北大发布的 LDA-1B 模型,已经明确走出了 " 抛弃条件反射式模仿,走世界模型路线 " 的一步。与此同时,生数科技推出的通用世界行动模型 Motubrain,在 WorldArena 与 RoboTwin 2.0 两项国际权威榜单上双双登顶。

Jim Fan 的发言和科技公司的实践让有人高呼 " 终于找对了方向 ",也有人冷笑 " 英伟达又在为自己造势 "。支持者认为,这是机器人从模仿走向理解的必经之路;反对者则指出,VLA 在精细控制上的优势依然不可替代。

那么,这场关于机器人大脑的路线之争,到底在争什么?VLA 真的已经是具身智能的昨日黄花了吗?这场技术之变,对具身智能初创公司有什么影响?

不仅如此,WAM 还在另一个长期困扰机器人领域的难题上取得了进展,那就是长程任务能力。VLA 通常只能处理两到三个动作的简单任务,时序稍有拉长就容易迷失。而 WAM 的表现已经开始脱离 Demo 阶段。生数科技的 Motubrain 已经能够完成十个原子动作级别的复杂任务,这意味着机器人在真实场景中具备了更连续、更鲁棒的执行能力。

国内团队在这条赛道上的进展速度,值得关注。银河通用的 LDA-1B 有清华大学、北京大学和英伟达的联合署名;生数科技的 Motubrain 登顶两项国际榜单;智在无界的 Being-H0.7 综合排名全球第一。

与此同时,海外前沿实验室同样在快速推进。英伟达提出的 DreamZero 在真机实验中展现出对新任务和新环境的强大泛化能力,较顶尖 VLA 模型提升 2 倍以上。

在这个新赛道上,国内和国外几乎是站在同一起跑线上。但热闹背后,一个更根本的问题浮出水面:VLA 真的该退场了吗?

觉得文章不错,微信扫描分享好友

扫码分享

热门推荐

查看更多内容

企业资讯

查看更多内容