APP下载

关于ZAKER

合作

钛媒体 32分钟前

从 VLA 到世界模型，具身智能加速“范式转移”

随着具身智能的向前发展，传统的 VLA 技术路线正在面临越来越多的挑战。

所谓 VLA 模型，即视觉 - 语言 - 动作模型。它的技术逻辑可以简单描述为，将人类指令和外界多模态信息（声音、图像、视频）转化为计算机语言，继而控制机器人行为。

但在 VLA 模型的训练中，互联网上的静态、非结构化文本和图像数据，并不是训练所需的核心数据。物理世界数据的稀缺与复杂性，成为了制约 VLA 模型能力跃升的主要瓶颈。

VLA 之后，具身智能接下来将往何处去？这成为了具身智能整个行业，都在试图解决的问题。

近日，蚂蚁灵波对外开源了 LingBot-Depth、LingBot-VLA 、LingBot-World 以及 LingBot-VA 系列模型。其中 LingBot-VA 所代表的 " 边预测、边行动 " 的具身世界模型范式，正与行业近期的探索形成呼应。而四个模型的开源，则将这套能力拆成可复用的模块与接口，为开发者提供从研究验证到工程试验的基础设施，从而降低具身智能研发与集成门槛。

LingBot-VA 开源，首创 " 自回归视频 - 动作范式 "

蚂蚁灵波开源周中，具身世界模型 LingBot-VA 成为了收官之作，其核心突破在于它改变了机器人的思考方式。

传统机器人主要基于 " 视觉 - 语言 - 动作 " 范式，其决策模式类似于 " 条件反射 "：看到什么，就做什么。这种方式难以应对需要多步骤规划和因果推理的复杂任务。

LingBot-VA 则让机器人具备 " 脑补 " 能力。

在物理执行动作之前，它会在内部模拟并推演未来几秒的世界状态变化，再根据这个推演结果来决定当前的最佳动作。这使得机器人能够像人一样 " 先思后行 "，显著提升了在复杂、长时序任务中的可靠性和智能水平。

实现这一切的基础在于，LingBot-VA 在核心范式上的创新。

LingBot-VA 首创了 " 自回归视频 - 动作范式 "：将大规模视频生成模型与机器人控制深度融合，模型在生成 " 下一步世界状态 " 的同时，直接推演并输出对应的动作序列。

具体而言，Mixture-of-Transformers ( MoT ) 架构让视频流（宽而深，负责视觉推演）与动作流（轻而快，负责运动控制）共享注意力机制又保持独立；闭环推演机制：每一步生成都纳入真实世界的实时反馈（如摄像头数据），形成 " 预测 - 执行 - 感知 - 修正 " 的循环，防止幻觉漂移。

最后，异步推理管线让动作预测与电机执行并行处理，大幅降低延迟。

得益于 LingBot-VA 的技术创新，机器人在制作早餐、插入试管、叠衣物等长时序、高精度、柔性物体操控任务中，成功率相较业界基线模型平均提升约 20%；在双臂协同操作基准 RoboTwin 2.0 上成功率首次超过 90%，在长时序终身学习基准 LIBERO 上达到 98.5% 的平均成功。

LingBot 系列开源，构建具身智能的通用基础设施

除了 LingBot-VA 之外，蚂蚁灵波还连续开源了 LingBot-Depth（空间感知）、LingBot-VLA 以及 LingBot-World。这四者共同构成了一套覆盖 " 感知 - 理解 - 模拟 - 行动 " 的完整具身智能技术栈。

LingBot-Depth 相当于机器人的 " 眼睛 "，通过高精度空间感知模型，解决透明、反光物体识别难题，透明物体抓取成功率从 0 提升至 50%。

LingBot-VLA ，类似于机器人的 " 大脑 "，让机器人理解指令并规划基础动作。基于 2 万小时真实机器人数据训练，LingBot-VLA 在 GM-100 基准测试中，成功率超越基线模型 Pi0.5。

可以看到，与业内主流的 " 仿真到现实 "（Sim-to-Real）路径不同，蚂蚁灵波更笃信基于真实世界数据训练的价值。

LingBot-VLA 覆盖了 9 种主流双臂机器人构型（包括 AgileX，Galaxea R1Pro、R1Lite 、AgiBot G1 等），实现了让同一个 " 大脑 " 可以无缝迁移至不同构型的机器人，并在任务变化、环境变化时保持可用的成功率与鲁棒性。

与高精度空间感知模型 LingBot-Depth 配合，LingBot-VLA 还能获得更高质量的深度信息表征，通过 " 视力 " 的升级，真正做到 " 看得更清楚、做的更明白 "。

LingBot-World，则是机器人的 " 数字演练场 "。

利用多阶段训练和并行加速，LingBot-World 可以实现长达近 10 分钟的连续、稳定和无损视频生成，以解决视频生成中的常见挑战—— " 长时漂移 "，也即长时间的生成通常会出现物体变形、细节崩溃、主体消失或场景结构崩溃等现象。

同时，LingBot-World 在长序列一致性、实时响应性以及对行动和环境动态之间的因果关系进行建模方面表现出色。这使得它能够在数字空间中 " 想象 " 物理世界，为人工智能代理提供一个具有成本效益、高保真环境，用于试错学习。

" 机器人规模化的主要阻碍不在硬件，而在’反复训练 / 再训练（retraining）‘，也就是每做一个新任务或换一种机器人，往往就要重新采数据、重新调参，工程成本很高。这也是机器人很难从试点走向大规模部署的原因之一。"

MarkTechPost CEOAsif Razzag 表示，蚂蚁灵波发布的一系列模型很有意思，从感知到认知，全栈（full-stack）体系，每个模型互为助力，并且全部开源。

也正是基于这样的设计，全面开源的 LingBot 系列模型，构建了具身智能完整的通用基础设施，让开发者可以按需选用或组合。这种新的研究范式，在降低具身智能研发门槛的同时，也加速了具身智能从实验室走向产业化的进程。（文 | 科技潜线，作者 | 饶翔宇编辑 | 钟毅）

查看原文

宙世代

ZAKER旗下Web3.0元宇宙平台

一起剪

ZAKER旗下免费视频剪辑工具

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

从 VLA 到世界模型，具身智能加速“范式转移”

宙世代

一起剪

相关阅读

这代大学毕业生，竞争对手已经不再是人类

特斯拉用户自述被车救命：心梗突发无法驾驶 FSD自动送到医院

AI群聊，最终还是微信的菜？

千问官宣易烊千玺为品牌全球代言人 领跑AI购物新时代

正浩、OPPO前高管创业AI智能运动手表，天使轮估值1亿美金

特朗普T1手机放弃美国制造：只在本土组装！3月发货

龙芯主控芯片获国家级认可 国产打印机规模化应用破局

Anthropic正取代OpenAI，成为中国AI界的白月光

春节出行“外挂”已上线：实测用豆包、千问规划行程，结果比自己查的靠谱10倍

“炒作”之外，OpenClaw和Moltbook 真正的创新是什么？

效率感人！Edge Bug拖两个月才修：CPU单核100%占用终于解决

赚翻了！一千多就拿下价值超9000元的SSD

暴利！iPhone 17 Pro Max电池成本不足百元：苹果售后10倍收费

西数黑盘品牌再见 闪迪推Optimus系列SSD：1TB就要3500元

华为OPPO入局！iPhone这招太狠了

最新评论

钛媒体

热门推荐

千问官宣易烊千玺为品牌全球代言人领跑AI购物新时代

龙芯主控芯片获国家级认可国产打印机规模化应用破局

西数黑盘品牌再见闪迪推Optimus系列SSD：1TB就要3500元