文 | 奇点研究社,作者|孟雯
最近具身智能的数据战打得火热。
前有腾讯发布 Tairos 具身智能开放平台,后京东又上线了具身智能数据交易平台,还要发动 60 万人采集 1000 万小时。
不久前,百度也推出具身智能数据超市,想要解决困扰行业已久的数据质量参差不齐、格式标准不一、使用成本高等痛点。
上周亦庄的人形机器人马拉松大赛,更是把具身智能的热度推向高潮。
荣耀机器人「闪电」跑完 21 公里,净用时 50 分 26 秒,打破了人类男子半马世界纪录。一时间,评论区沸腾," 历史性时刻 "," 部署态元年 " 到来!
但仔细研究会发现这更像一场 " 机械能力 " 的突破,而非 "AI 能力 " 的突破。「闪电」之所以能跑出这个成绩,靠的是 0.95 米大长腿、自研液冷系统、电机关系从 420Nm 提升到 600Nm。

问题不在算法,而在 " 具身智能 " 这个词,装了太多含义。
连续跑 21 公里是一件事;能帮你干活,是另一件事;能在产线上连续工作 8 小时不停机,又是完全不同的一件事
而这三件事,对应的是三种完全不同的数据需求。
" 缺数据 " 喊了三年,但没人说清到底缺什么
" 整个互联网上能训练的数据一共就没有多少 T,现在已经快不够用了。" 国内某头部大模型厂商创始人在采访中说," 现在大家更多是用检索增强来落地 B 端,C 端还是需要基座模型的进化才能突破。"
这是大模型(LLM)领域的真实焦虑。
如今,LLM 的 " 数据焦虑 " 正蔓延到具身智能。去任何一场机器人相关的论坛,几乎所有人都在说,数据不够,是最大的瓶颈。
但如果再往下追问,到底缺的是什么数据?答案却千差万别。
LLM 之所以能够跑通规模定律(Scaling Law),有一个不能忽视的大前提:互联网文本本身就是一个 " 闭环系统 "。
一句话里同时包含意图、语义、甚至隐含的推理路径。模型要做的,便是不断从这些闭环中提取规律。
所以你只需要 " 多喂 ",模型 " 悟 " 得越多,能力就会自然涌现。
但具身智能没有这样的闭环。
你可以采集 100 万小时的人类生活视频,但里面并没有机器人应该如何控制关节的信息;你可以构建 1000 万个仿真场景,但它们往往缺少真实世界里的噪声与长尾分布;你也可以通过遥操作积累 10 万条任务数据,但一旦更换机器人本体,迁移效果就会明显打折。
具身智能的数据,不是 " 被收集 " 的,而是在物理世界中被 " 制造 " 的。
而且不同类型的数据,对 " 规模 " 的反应也完全不同。所以把 LLM 的那一套逻辑原封不动搬过来,本身就是一种误判。
如果把具身智能的数据拆开来看,会更清晰一些。它大致可以分为三类:运动控制、场景理解与任务决策。
运动控制数据告诉机器人 " 怎么动 ",比如关节角度、力矩、运动轨迹等,这类数据高度绑定特定本体,天然不具备规模化复用能力。
场景理解数据告诉机器人 " 看到了什么 ",比如视觉、空间、物体识别等,因为人看到的世界,和机器人看到的世界,在统计意义上是相似的,所以这类数据是目前唯一有可能跑通 Scaling Law 的层级。
最难的是任务决策数据,它要告诉机器人 " 该怎么办 ",这是整个体系里最稀缺的一类数据,因为它要求三件事同时成立:感知、判断、执行,而且必须同步标注。
这三类数据,有些可以靠堆量解决,有些则完全行不通,换言之,在具身智能领域,Scaling Law 不是 " 失效了 ",而是 " 分层成立 "。
行业里其实已经有人描述过这个问题。戴盟机器人接受媒体采访时,称具身智能的数据供给存在一个金字塔结构。
顶层是机器人本体数据,最精确,但最难扩展;中层是可部署采集数据,在精度和规模之间做平衡;底层是人类视角的大规模数据,最容易放量。
底层数据,可以靠 " 规模化 " 堆出来,负责训练 " 认知 "。顶层的数据,必须贴着本体打磨,负责训练 " 执行 " 必须精细打磨,不存在 " 多多益善 "。
这也是为什么,单纯谈 " 数据规模 " 已经不再有意义,关键在于 " 你在放大哪一层 "。
沿着这个思路,学术界也开始尝试给出新的解法。中山大学发表的开源项目 PHYAgentOS,把认知层与执行层解耦,即大模型做认知入口,不做最终执行者。

一旦这一结构成立,数据的使用效率会发生质变:不同层的数据,不再被强行塞进同一个模型里消化。
解决了 " 数据从何而来 ",还要看数据如何 " 被消化 ",这就涉及到当前行业里的几条主流的技术路线。
VLA 最常见,也最主流,它把视觉、语言、动作全部压进一个模型,输出控制信号,代表玩家是 RT-2 和 π 0,这一路线需要 " 图像 + 指令 + 动作 " 三者同时存在的数据,缺一不可,采集成本很高,也最难规模化。

第三种是当前最受关注的世界模型路线,如 DreamDojo、PAR/PhysGen,强调直接从视频里 " 悟 " 出物理规律,以及零动作预训练,代表如国外的英伟达,国内的拓元智慧。
但不同玩家对同一路线也有着不同的理解。拓元智慧选择在隐层空间(而非视频画面)做世界推演。
拓元智慧联合创始人陈添水在接受奇点采访时提到:" 英伟达的 One Action Model 主要指建模 action(动作),拓元同时建模 action 和 physical,隐层特征(几千维)比视频像素(200 万像素)更高效,且能更好地支持 action 预测。"

图灵奖得主杨立昆提出的 JEPA 同样属于这一范式,但它更偏向 " 预测式学习 ",即在抽象空间里推演未来状态,学习因果关系。
写到这里,我们会发现,在具身智能领域,脱离模型架构去谈 " 高质量数据 ",本身并没有太大意义。
零次方联合创始人马晓龙采访中的话,精准点出了本质:" 数据有没有效,本质是匹配问题。对你的模型有用,对我的架构可能毫无意义,第三方换了场景又可能完全没用。"
群核建道场,百度铺管道,京东搭舞台
带着这样思路再来看最近大厂的数据之争,就会发现他们虽然都在 " 抢数据 ",但抢的,根本不是一个东西。
差异不在 " 量 ",而在 " 层 "。
最底层,是群核科技。群和科技占据的是 Scaling Law 最可能成立的那一层:" 物理正确 " 的空间数据。
根据招股书,群核已经积累了 5 亿个 3D 室内场景、4.8 亿个 3D 模型,这些数据并非 " 采集 ",而是来自真实商业使用中被反复调用、修改、验证的结果。

基于这些数据构建的 SpatialVerse,是一个 " 可计算的物理空间 ":球被扔出去会下落,门被推开会有阻力,地板存在摩擦力。
物理正确性,意味着它不依赖任何具体模型架构的演进。无论未来是 Transformer、世界模型,还是其他范式,机器人最终都必须在符合真实物理规律的环境中完成学习和决策。
这意味着,一旦底层数据的 Scaling Law 成立,群核的价值会被指数级放大。它不需要押注 " 哪一个模型会赢 ",它押注的是所有模型,都必须进入 " 道场 "。
如果说群核解决的是 " 数据从哪里来 ",那么往上一层,便是百度在做的事情:回答 " 数据如何流动 "。
百度具身智能数据超市,是一个中立的数据流通平台。它不参与机器人本体,也不直接生产数据,而是试图把分散在不同企业、不同场景中的数据 " 组织起来 "。

更值得一提的是它的 " 重服务模式 "。" 百度数据超市上的数据需专业处理,暂无免费上传机制。我们有高 T 工程师团队免费支持客户,仅收取算力和存储费用。" 百度智能云泛科技创新行业销售总监徐良在采访中提到。
这意味着,它并非一个简单的撮合平台,而更像一个带有强加工能力的 " 数据代工厂 ":数据需要被清洗、标注、结构化,才能进入可用状态。
与此同时,百度还在补另一块更底层的基础设施:数据可信流通。包括云网端安全体系,以及面向出海的合规能力。" 目前百度联合头部客户开发的云网端安全方案,已经被应用到出口欧洲的产品中。" 徐良补充道。
如果用一个更直观的类比,百度更像是具身智能时代的 "Visa":它不直接参与交易,但决定了数据这笔 " 交易 ",能不能发生、如何发生。
再往上走,是京东。
其实京东的价值有被严重低估。上线具身智能数据交易平台,发动 60 万人采集 1000 万小时人类真实场景视频数据,在亦庄马拉松机器人赛事中,京东又作为 AI 科技战略合作伙伴,提供了运输、救援、换电、维修等全周期保障。
赛事直接带动了超过 20 个机器人品牌销售额翻倍,相关搜索量激增 300%。

这恰恰是 Scaling Law 最难成立的一层。京东做的事情,是绕过 " 数据本身的可复用性 ",直接让这类数据在真实世界中产生商业价值:通过赛事、销售、服务,把机器人推入高频使用场景,让每一次真实运行,都变成一次有效的数据积累。
当数据本身无法流通时,就用 " 交易 " 去放大它的价值。价值驱动需求,需求再反过来推动数据回流,这是在 Scaling Law 不成立的顶层,少数可行的商业闭环。
群核在最底层,提供 " 可以无限扩展的道场 ";百度在中间层,打通 " 数据如何被加工与流通的管道 ";京东在最上层,搭建 " 让数据产生价值的真实舞台 "。
三者分别押注数据供给金字塔的不同层级,彼此错位,却又环环相扣。
协议之争与终局想象
PHYAgentOS 论文中有一句话让我印象很深:Docs as API,不是让 Agent 和硬件系统通过大量隐式消息、临时状态和难以追踪的接口直接耦合,而是通过结构化文档进行交互,核心载体包括 Markdown 文件。

底层是空间与视觉,中层是任务与流程,顶层是具体本体的控制信号,它们的数据结构、表达方式、甚至时间尺度都完全不同。
如果没有一套统一的 " 解释机制 ",这些数据就只能各自为政。
问题的核心从 " 数据供给 ",转向 " 协议连接 "。不过现状是,大家都在做自己的标准,构建自己的 " 局部最优 "。
小鹏、阿里、腾讯接连发布了各自的世界模型,英伟达的 Cosmos 已经在工业仿真上建立了壁垒,李飞飞的 Marble API 已对外开放,杨立昆的 JEPA 虽然还在科研期,但代表了最远期的颠覆可能。
各家有各自的数据格式、仿真环境与 API 体系,背后绑定的是不同的技术路线与产品假设。
短期看,这种分裂不可避免,因为没人会在早期阶段主动放弃对体系的控制权。同时也意味着,协议层的统一,会比想象中更难。
它不会是一蹴而就的标准落地,更可能是一个漫长的博弈,在效率、控制力与生态开放之间反复拉扯,直到某 " 足够好 " 的共识形成。
结尾
荣耀「闪电」用 50 分 26 秒证明了机器人的 " 物理极限 " 已经超越了人类。
当未来有一天,我们让机器人去做一件没在数据集里出现过的事,比如拿起一个从没见过形状的杯子,用从没标注过的方式,把它放进从没仿真过的架子里,它还能 " 像人一样 " 完成,具身智能才算 " 走到了终点。"
我相信,那一天会比我们想象的更近。