具身智能数据战：群核建道场，百度铺管道，京东搭舞台

文 | 奇点研究社，作者｜孟雯

最近具身智能的数据战打得火热。

前有腾讯发布 Tairos 具身智能开放平台，后京东又上线了具身智能数据交易平台，还要发动 60 万人采集 1000 万小时。

不久前，百度也推出具身智能数据超市，想要解决困扰行业已久的数据质量参差不齐、格式标准不一、使用成本高等痛点。

上周亦庄的人形机器人马拉松大赛，更是把具身智能的热度推向高潮。

荣耀机器人「闪电」跑完 21 公里，净用时 50 分 26 秒，打破了人类男子半马世界纪录。一时间，评论区沸腾，" 历史性时刻 "，" 部署态元年 " 到来！

但仔细研究会发现这更像一场 " 机械能力 " 的突破，而非 "AI 能力 " 的突破。「闪电」之所以能跑出这个成绩，靠的是 0.95 米大长腿、自研液冷系统、电机关系从 420Nm 提升到 600Nm。

这些都是工程能力的积累，是荣耀把过去十几年消费电子里的轻量化和结构设计能力，迁移到了机器人上。如果把同一套算法塞进另一台机器人，大概率跑不出这个成绩。

问题不在算法，而在 " 具身智能 " 这个词，装了太多含义。

连续跑 21 公里是一件事；能帮你干活，是另一件事；能在产线上连续工作 8 小时不停机，又是完全不同的一件事

而这三件事，对应的是三种完全不同的数据需求。

" 缺数据 " 喊了三年，但没人说清到底缺什么

" 整个互联网上能训练的数据一共就没有多少 T，现在已经快不够用了。" 国内某头部大模型厂商创始人在采访中说，" 现在大家更多是用检索增强来落地 B 端，C 端还是需要基座模型的进化才能突破。"

这是大模型（LLM）领域的真实焦虑。

如今，LLM 的 " 数据焦虑 " 正蔓延到具身智能。去任何一场机器人相关的论坛，几乎所有人都在说，数据不够，是最大的瓶颈。

但如果再往下追问，到底缺的是什么数据？答案却千差万别。

LLM 之所以能够跑通规模定律（Scaling Law），有一个不能忽视的大前提：互联网文本本身就是一个 " 闭环系统 "。

一句话里同时包含意图、语义、甚至隐含的推理路径。模型要做的，便是不断从这些闭环中提取规律。

所以你只需要 " 多喂 "，模型 " 悟 " 得越多，能力就会自然涌现。

但具身智能没有这样的闭环。

你可以采集 100 万小时的人类生活视频，但里面并没有机器人应该如何控制关节的信息；你可以构建 1000 万个仿真场景，但它们往往缺少真实世界里的噪声与长尾分布；你也可以通过遥操作积累 10 万条任务数据，但一旦更换机器人本体，迁移效果就会明显打折。

具身智能的数据，不是 " 被收集 " 的，而是在物理世界中被 " 制造 " 的。

而且不同类型的数据，对 " 规模 " 的反应也完全不同。所以把 LLM 的那一套逻辑原封不动搬过来，本身就是一种误判。

如果把具身智能的数据拆开来看，会更清晰一些。它大致可以分为三类：运动控制、场景理解与任务决策。

运动控制数据告诉机器人 " 怎么动 "，比如关节角度、力矩、运动轨迹等，这类数据高度绑定特定本体，天然不具备规模化复用能力。

场景理解数据告诉机器人 " 看到了什么 "，比如视觉、空间、物体识别等，因为人看到的世界，和机器人看到的世界，在统计意义上是相似的，所以这类数据是目前唯一有可能跑通 Scaling Law 的层级。

最难的是任务决策数据，它要告诉机器人 " 该怎么办 "，这是整个体系里最稀缺的一类数据，因为它要求三件事同时成立：感知、判断、执行，而且必须同步标注。

这三类数据，有些可以靠堆量解决，有些则完全行不通，换言之，在具身智能领域，Scaling Law 不是 " 失效了 "，而是 " 分层成立 "。

行业里其实已经有人描述过这个问题。戴盟机器人接受媒体采访时，称具身智能的数据供给存在一个金字塔结构。

顶层是机器人本体数据，最精确，但最难扩展；中层是可部署采集数据，在精度和规模之间做平衡；底层是人类视角的大规模数据，最容易放量。

底层数据，可以靠 " 规模化 " 堆出来，负责训练 " 认知 "。顶层的数据，必须贴着本体打磨，负责训练 " 执行 " 必须精细打磨，不存在 " 多多益善 "。

这也是为什么，单纯谈 " 数据规模 " 已经不再有意义，关键在于 " 你在放大哪一层 "。

沿着这个思路，学术界也开始尝试给出新的解法。中山大学发表的开源项目 PHYAgentOS，把认知层与执行层解耦，即大模型做认知入口，不做最终执行者。

这背后对应的，是一套新的数据分工方式：底层数据训练认知能力，可以跨本体泛化；顶层数据训练执行能力，始终绑定具体本体。

一旦这一结构成立，数据的使用效率会发生质变：不同层的数据，不再被强行塞进同一个模型里消化。

解决了 " 数据从何而来 "，还要看数据如何 " 被消化 "，这就涉及到当前行业里的几条主流的技术路线。

VLA 最常见，也最主流，它把视觉、语言、动作全部压进一个模型，输出控制信号，代表玩家是 RT-2 和 π 0，这一路线需要 " 图像 + 指令 + 动作 " 三者同时存在的数据，缺一不可，采集成本很高，也最难规模化。

第二条路径，是分层大模型。用 LLM 做高层规划，再调用 VLA 或传统控制算法执行。它牺牲了一部分端到端的一致性，但换来了更高的数据利用效率。典型代表包括谷歌的 Gemini Robotics、北大的 RoboOS，以及前面提到的 PHYAgentOS。

第三种是当前最受关注的世界模型路线，如 DreamDojo、PAR/PhysGen，强调直接从视频里 " 悟 " 出物理规律，以及零动作预训练，代表如国外的英伟达，国内的拓元智慧。

但不同玩家对同一路线也有着不同的理解。拓元智慧选择在隐层空间（而非视频画面）做世界推演。

拓元智慧联合创始人陈添水在接受奇点采访时提到：" 英伟达的 One Action Model 主要指建模 action（动作），拓元同时建模 action 和 physical，隐层特征（几千维）比视频像素（200 万像素）更高效，且能更好地支持 action 预测。"

物理 token 自回归的运作方式：预测未来的帧与动作联合体，与真实环境同步演化

图灵奖得主杨立昆提出的 JEPA 同样属于这一范式，但它更偏向 " 预测式学习 "，即在抽象空间里推演未来状态，学习因果关系。

写到这里，我们会发现，在具身智能领域，脱离模型架构去谈 " 高质量数据 "，本身并没有太大意义。

零次方联合创始人马晓龙采访中的话，精准点出了本质：" 数据有没有效，本质是匹配问题。对你的模型有用，对我的架构可能毫无意义，第三方换了场景又可能完全没用。"

群核建道场，百度铺管道，京东搭舞台

带着这样思路再来看最近大厂的数据之争，就会发现他们虽然都在 " 抢数据 "，但抢的，根本不是一个东西。

差异不在 " 量 "，而在 " 层 "。

最底层，是群核科技。群和科技占据的是 Scaling Law 最可能成立的那一层：" 物理正确 " 的空间数据。

根据招股书，群核已经积累了 5 亿个 3D 室内场景、4.8 亿个 3D 模型，这些数据并非 " 采集 "，而是来自真实商业使用中被反复调用、修改、验证的结果。

群核科技推出的 InteriorNet 数据集（包含约 1 亿 3 千万图像数据）

基于这些数据构建的 SpatialVerse，是一个 " 可计算的物理空间 "：球被扔出去会下落，门被推开会有阻力，地板存在摩擦力。

物理正确性，意味着它不依赖任何具体模型架构的演进。无论未来是 Transformer、世界模型，还是其他范式，机器人最终都必须在符合真实物理规律的环境中完成学习和决策。

这意味着，一旦底层数据的 Scaling Law 成立，群核的价值会被指数级放大。它不需要押注 " 哪一个模型会赢 "，它押注的是所有模型，都必须进入 " 道场 "。

如果说群核解决的是 " 数据从哪里来 "，那么往上一层，便是百度在做的事情：回答 " 数据如何流动 "。

百度具身智能数据超市，是一个中立的数据流通平台。它不参与机器人本体，也不直接生产数据，而是试图把分散在不同企业、不同场景中的数据 " 组织起来 "。

根据官方披露，目前具身智能数据超市已经接入十余家具身智能企业的数据，总量超过 1000 万条。同时推出了 " 繁星计划 "，计划招募约 100 家场景方开放真实空间。

更值得一提的是它的 " 重服务模式 "。" 百度数据超市上的数据需专业处理，暂无免费上传机制。我们有高 T 工程师团队免费支持客户，仅收取算力和存储费用。" 百度智能云泛科技创新行业销售总监徐良在采访中提到。

这意味着，它并非一个简单的撮合平台，而更像一个带有强加工能力的 " 数据代工厂 "：数据需要被清洗、标注、结构化，才能进入可用状态。

与此同时，百度还在补另一块更底层的基础设施：数据可信流通。包括云网端安全体系，以及面向出海的合规能力。" 目前百度联合头部客户开发的云网端安全方案，已经被应用到出口欧洲的产品中。" 徐良补充道。

如果用一个更直观的类比，百度更像是具身智能时代的 "Visa"：它不直接参与交易，但决定了数据这笔 " 交易 "，能不能发生、如何发生。

再往上走，是京东。

其实京东的价值有被严重低估。上线具身智能数据交易平台，发动 60 万人采集 1000 万小时人类真实场景视频数据，在亦庄马拉松机器人赛事中，京东又作为 AI 科技战略合作伙伴，提供了运输、救援、换电、维修等全周期保障。

赛事直接带动了超过 20 个机器人品牌销售额翻倍，相关搜索量激增 300%。

表面看是一次品牌和供应链能力的展示，但它真正解决的问题，其实在数据层。具身智能里，有一类数据天然无法复用：运动控制数据。它高度绑定具体本体、具体结构，几乎不具备跨平台迁移能力，也就很难像互联网数据一样形成规模化流通。

这恰恰是 Scaling Law 最难成立的一层。京东做的事情，是绕过 " 数据本身的可复用性 "，直接让这类数据在真实世界中产生商业价值：通过赛事、销售、服务，把机器人推入高频使用场景，让每一次真实运行，都变成一次有效的数据积累。

当数据本身无法流通时，就用 " 交易 " 去放大它的价值。价值驱动需求，需求再反过来推动数据回流，这是在 Scaling Law 不成立的顶层，少数可行的商业闭环。

群核在最底层，提供 " 可以无限扩展的道场 "；百度在中间层，打通 " 数据如何被加工与流通的管道 "；京东在最上层，搭建 " 让数据产生价值的真实舞台 "。

三者分别押注数据供给金字塔的不同层级，彼此错位，却又环环相扣。

协议之争与终局想象

PHYAgentOS 论文中有一句话让我印象很深：Docs as API，不是让 Agent 和硬件系统通过大量隐式消息、临时状态和难以追踪的接口直接耦合，而是通过结构化文档进行交互，核心载体包括 Markdown 文件。

我觉得这指向了具身智能数据之战的终局想象：标准化协议，即不同数据层，如何被同一个系统理解？

底层是空间与视觉，中层是任务与流程，顶层是具体本体的控制信号，它们的数据结构、表达方式、甚至时间尺度都完全不同。

如果没有一套统一的 " 解释机制 "，这些数据就只能各自为政。

问题的核心从 " 数据供给 "，转向 " 协议连接 "。不过现状是，大家都在做自己的标准，构建自己的 " 局部最优 "。

小鹏、阿里、腾讯接连发布了各自的世界模型，英伟达的 Cosmos 已经在工业仿真上建立了壁垒，李飞飞的 Marble API 已对外开放，杨立昆的 JEPA 虽然还在科研期，但代表了最远期的颠覆可能。

各家有各自的数据格式、仿真环境与 API 体系，背后绑定的是不同的技术路线与产品假设。

短期看，这种分裂不可避免，因为没人会在早期阶段主动放弃对体系的控制权。同时也意味着，协议层的统一，会比想象中更难。

它不会是一蹴而就的标准落地，更可能是一个漫长的博弈，在效率、控制力与生态开放之间反复拉扯，直到某 " 足够好 " 的共识形成。

结尾

荣耀「闪电」用 50 分 26 秒证明了机器人的 " 物理极限 " 已经超越了人类。

当未来有一天，我们让机器人去做一件没在数据集里出现过的事，比如拿起一个从没见过形状的杯子，用从没标注过的方式，把它放进从没仿真过的架子里，它还能 " 像人一样 " 完成，具身智能才算 " 走到了终点。"

我相信，那一天会比我们想象的更近。

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

具身智能数据战：群核建道场，百度铺管道，京东搭舞台

宙世代

一起剪

相关阅读

iPhone 18 Pro复刻远峰蓝：iPhone 13 Pro爆款神色回归 老果粉心动了

今年首款天玑9500+2K直屏旗舰来了！iQOO 15T五月亮相

马斯克“豪赌”Terafab：不造芯片，就没有未来

DeepSeek发布V4：1.6T参数、百万token，还要用国产算力把价格再次打下来

发售5年后微软重燃对Win11热情：系统大改让大家鹅妹子嘤

12万转高速马达！小米米家高速水离子吹风机Pro开售：799元

定了，DeepSeek V4首发华为芯片！国产AI开始打破英伟达「垄断」

夏尔马继续买买买

Anthropic最新AI经济报告：AI 正在取代造它的人

DeepSeek V4终于发布，但它留下的5道主观题还没有答案

国外游戏行业正在进入“后震期”？55%的人被裁后未再就业，44%想离开

融了2000万美金，这家2000万美金ARR的AI公司，推出“视频版Photoshop”「Buzzy」

CPU价格暴涨！AMD锐龙CPU日本涨价超50% AM4处理器也未能幸免

SSD全系上调10%！三星金士顿同时出手：4月第二波涨价潮杀到

GPT-5.5发布 黄仁勋放话：英伟达全员都要用Codex编程

最新评论

钛媒体

热门推荐

企业资讯

iPhone 18 Pro复刻远峰蓝：iPhone 13 Pro爆款神色回归老果粉心动了

GPT-5.5发布黄仁勋放话：英伟达全员都要用Codex编程