关于ZAKER Skills 合作
雷锋网 3小时前

击败主场霸主英伟达与 PI!千寻智能登上具身智能「奥林匹克」最高领奖台

榜单登顶同时,千寻官宣完成 15 亿元 A+ 轮融资。

作者丨向 欣

编辑丨高景辉

在竞技体育中,有一种胜利含金量最高——在对手主场、用对手制定的规则、击败对手。

刚刚,一家中国公司在北美具身智能的 " 奥林匹克 " 赛场上,完成了这一壮举。

由 UC Berkeley、斯坦福和英伟达联合发起的全球具身智能实战评测平台 RoboArena,被誉为机器人领域的 "Chatbot Arena"。RoboArena 最新榜单显示,千寻智能自研的具身基座模型Spirit v1.6,在技术全能项目中力压英伟达最新模型 Cosmos3 与 Physical Intelligence (以下简称 PI)Pi0.5排名全球第一,成为前三名中唯一的中国具身模型。

有趣的是,英伟达和 PI 不仅是参赛者,还是赛事的设计方。就在不久前的 NVIDIA GTC Taipei 2026 大会上,英伟达还专门介绍,自家最新发布的NVIDIA Cosmos 3 模型在 RoboArena 上排名第一。赛事主办方亲自为榜单站台。

而现在榜首换人了。千寻这次登顶,颇有种踢馆成功的意味。以前中美在具身智能赛场是各自练兵,今天千寻直接去美国队的主场,拿了块全能金牌。

同时,千寻智能在资本市场上也获得了顶薪续约。千寻智能今日正式官宣完成15 亿元 A+轮融资,三个月融资四轮,刷新具身智能行业融资速度记录,股东包含一线美元基金、大型产业投资方以及国资基金,老股东持续加码,构筑起顶级财务 PE、国际美元基金、实业产业资本、各地方国资等全方位合围的顶配资本阵容。

至此,千寻今年累计融资金额已近50 亿元

技术登顶与资本顶配两件事放在一起看,背后传递出的信息远比表面看到的更加丰富。

过去一年,具身智能领域融资纪录不断刷新,榜单高分层出不穷,但 " 刷榜 " 现象让这些成绩的真实含金量备受质疑。

RoboArena 受到关注,正是因为试图解决这个问题。它把具身 Benchmark 从标准化考试变成了一场防作弊、重泛化、难以刷分的全球实战擂台赛,模型需要面对完全未知的场景和物体,实打实地考验泛化性与稳定性。

千寻的模型登顶,也足以让整个行业重新审视中国玩家的位置。

长期以来,具身智能领域最重要的话语权主要掌握在美国头部机构手中。如今,中国企业已在模型能力和落地速度上快速追赶,实现并跑甚至领跑。

在具身智能的技术对决中,以千寻智能为代表的中国力量已经具备了与美国顶尖玩家正面掰手腕的底气。

大额融资的持续落地,则让这种技术优势有机会进一步转化为数据优势和场景优势。中国具身智能企业,会跑得越来越快。

01

具身智能的奥林匹克全能赛 RoboArena,为什么难拿冠军?

具身智能行业一直存在一个现实问题:评测成绩与真实世界表现并不能简单画等号。榜单高分与真实世界的泛化落地之间,横亘着一条巨大的鸿沟。

问题出在评测方式上。具身智能领域建立了大量 Benchmark。不同榜单覆盖仿真、真机、导航、操作、长程任务以及 VLA 模型、世界模型等不同条件和方向,为研究者提供了统一的评价体系,也推动了技术进步。

标准化评测天然存在局限。为了保证可重复性,大多数榜单都会固定场景、固定任务和固定评价规则。模型经过反复训练后,可以逐渐适应这些测试条件。

于是行业开始出现" 刷榜 " 现象,不少公司针对榜单进行专项优化,从而刷出高分,但这与具身智能所追求的核心能力 " 泛化 " 背道而驰。结果是,某些模型能够在特定任务上取得极高分数,但换环境、物体或者操作顺序,表现可能大幅下降。

这种做法就像学生靠题海战术拿满分,换个没做过的题目就束手无策。模型越来越会考试,却未必越来越会干活。

PI 的具身模型核心研究员 Karl Pertsch 曾犀利地评价这类榜单:" 注定是徒劳 "。

对于需要进入工厂、门店和家庭的机器人来说,此类成绩参考价值不够高。" 刷榜 " 现象也削弱了榜单的说服力。

RoboArena 的突破性在于重新设计了评测逻辑,与大多数 Benchmark 追求标准化不同,RoboArena 把评测重点放在泛化能力上。模型无法提前适配固定场景,每一次测试都需要面对新的环境、新的物体和新的任务组合。

这份榜单由UC Berkeley、斯坦福、英伟达联合发起,是具身智能领域首个国际公开性评测平台,榜单规则来自行业最核心的一批前沿技术研究者。

值得注意的是,PI 的联合创始人 Sergey Levine、核心研究员 Karl Pertsch也是该测试平台的核心设计者。

PI,这家由斯坦福、伯克利等顶级研究团队创立的公司,一直被视为具身智能领域最具代表性的技术标杆之一。这意味着行业最强玩家用自己的标准认可了这套评测体系。

为了避免人为的技术性干预,RoboArena 采用" 全球众包 + 双盲 "机制。评测员分布在不同国家和地区,任务和场景则由评测研究员自行设计,多聚焦操作类任务,测试整个过程中操作员不会获知模型身份,完全盲测,测试结果全部开源

在这种规则下,赛事对泛化能力的要求近乎苛刻。提前备考的可能性被切断,参赛模型的每一次测试都是临场发挥,需要面对极其多样化的环境与任务,可能是从未见过的物品,也可能是从未适应过的场景。

RoboArena 的评分机制也与众不同,引入了竞技体育中的ELO 动态评级算法

熟悉电竞或者国际象棋的人应该知道,ELO 最大的特点是打败强者获得更多积分。不看你赢了多少次,只看你赢了谁。打败强队加分高,赢弱队加分少。

这种机制大幅降低了刷榜空间,让真正有实力的黑马能够浮出水面,也能够持续淘汰名不副实的高分选手。

RoboArena 中模型的 Elo 分变化趋势:从左到右,按 Elo 分从低到高排列

如果把传统 Benchmark 理解为训练赛,那么 RoboArena 更接近总决赛。当不少团队还在训练赛里争夺 MVP 时,千寻已经在总决赛里拿到了 FMVP。

能在任意场景、任意任务的随机对决中胜出,意味着模型已经具备了走出实验室、进入真实商业场景的核心素养。它比任何单一任务的高分都更具落地参考价值。

02

客场战胜英伟达与 PI,千寻半年内完成 " 两连冠 "

这不是千寻第一次登顶国际权威榜单。今年 1 月,千寻自研的 Spirit v1.5 在 RoboChallenge 的 Table30 榜单上一举登顶,超过了之前的最强模型 PI0.5。

有意思的是,RoboChallenge 和 RoboArena 的评测逻辑完全不同。前者关注模型在统一条件下能做到什么水平;后者关注模型面对随机的任务、未知的世界能否持续发挥。

RoboChallenge 由 Dexmal、Hugging Face、智源研究院等联合发起,是全球首个大规模真机(real-robot)具身智能评测平台,评测采用统一硬件和标准化环境,要求参赛模型完成30 项固定任务,重点考察模型在相同条件下的综合能力与任务完成质量。

RoboArena 的评测环境、任务内容和操作对象则都具有较强随机性

Spirit 能够连续登顶两套逻辑完全不同的评测体系,说明其在标准化环境下的综合能力和开放环境下的泛化能力,都得到了验证。

RoboArena 的评测任务由研究员随机指定,没有固定题库。在众多测试项目中," 将玩具水豚放入餐盘 " 和 " 打开笔记本 " 两个任务,较为典型地体现了 Spirit v1.6 的能力。它们分别对应具身智能里的两类典型难题开放环境中的目标识别与操作执行,以及精细力控

任务一:将玩具水豚放置到餐盘。Spirit v1.6 VS Pi0.5。

任务中,桌面中央摆放着一个餐盘,周围散落着笔、杯子、足球玩具、胶棒等多种物品。

Spirit v1.6 准确识别出玩具水豚,完成抓取并将其放入盘中。Pi0.5 则识别错误,抓取了绿色杯子,且定位不准,反复尝试仍失败。

左 Spirit v1.6 右 Pi0.5

差异背后是模型对场景语义的理解深度不同。千寻的模型能够理解 " 水豚 " 这一语义概念,区分干扰物,并在杂乱环境中保持抓取稳定性;Pi0.5 则在目标识别阶段就出现偏差。

任务二:打开笔记本。Spirit v1.6 VS Cosmos 3

这属于物体操作与精细力控任务,涉及受力点判断、开合角度控制和连续动作规划。笔记本开合处较薄,机器人需要准确找到能够施力的位置,还要控制好力度和角度,避免物体滑动导致操作失败。

Spirit v1.6 成功完成整个打开过程。英伟达最新发布的 Cosmos 3 则多次尝试翻开,始终未能成功。

左 Spirit v1.6 右 Cosmos 3

值得注意的是,Spirit v1.6 的测试环境中还摆放着杯子、毛巾、蔬果等多种干扰物,而 Cosmos 3 的环境相对简单,干扰物较少。

千寻的模型在受力点判断、实时力控和任务理解上更胜一筹,Cosmos 3 则没能定位到笔记本准确的开合位置,缺乏精细的闭环调节。

回看 RoboChallenge,千寻 Spirit v1.5 在插花、桌面清理等任务中同样表现出色。插花需要精细力度控制,桌面清理涉及多物体分类与连续操作,模型均能稳定完成。

RoboArena 榜单更新后,有人将千寻击败英伟达和 PI 视为一次 " 爆冷 "。不过,仔细观察过去半年千寻的发展轨迹,了解其连续登顶 RoboChallenge 和 RoboArena 两大评测体系后,就能够理解这种领先其实不能单纯用偶然来解释。

千寻用对手制定的规则,在对手的主场实现 " 两连冠 ",说明Spirit 的优势并非来自针对性优化,而是模型能力本身的提升。Spirit 在环境理解、目标识别、动作规划和执行稳定性方面展现出更强的一致性整个决策链条更加完整。

03

千寻真正的底牌,不在榜单上

Spirit v1.6 的登顶,是千寻技术实力的最佳证明。这种实力已经转化为资本市场的吸金力。

今年,千寻三个月融资四轮,刷新了具身智能行业融资速度记录,已累计融资近 50 亿元。资金将用于具身基座模型研发、数据体系建设、场景规模化商业落地三大方面。

从投资阵容看,千寻的股东已经是梦之队级别,包含顺为、云锋等顶级的财务 VC,国际美元基金这类海外资本,石溪资本、兆易创新等实业产业资本。

不同的股东能形成各自助力,财务 VC 擅长资本运作与投后赋能,美元基金对技术路线的判断更偏向全球视野,利于海外市场拓展;产业战略投资方则提供供应链、场景等核心资源。

据 AI 科技评论了解,资本市场普遍认为,千寻智能近期连续落地多轮大额融资,是硬科技独角兽上市前的战略铺路布局

市场之所以给予这样的判断,在于千寻已经具备了硬科技企业走向资本市场所需要的基础:技术闭环与商业闭环。

一个广泛共识是,具身智能的 Scaling Law 正在遭遇真实世界数据不足的挑战。高质量、规模化、可持续获取的数据,已经成为决定模型能力上限的关键变量。

围绕这一问题,千寻构建了一套完整的" 数据金字塔 "技术战略:底层依托互联网通用视频完成预训练,中层利用可穿戴设备采集的真实交互数据进行专项迭代,顶层则通过实际落地场景产生的数据持续优化模型表现。

为了解决行业普遍面临的 " 数据采集贵、效率低 " 的痛点,千寻自研了数据采集设备。其自研的uDAS 可穿戴数采设备历经 7 次技术迭代,采集成本降至传统遥操作方式的十分之一,数据可用性提升至95%以上。

设备实现了全身关节、手部力触觉多维度信息同步采集,无需搭建实验室环境,可直接在真实工业、居家、零售场景作业。

千寻智能可穿戴数采设备已遍布全国

解决采集成本问题只是第一步。对于具身公司而言,更大的挑战在于如何持续、稳定地获得海量真实世界数据。

为此,千寻进一步搭建起一套分布式数据超级工厂体系,组建了国内规模最大的真实数据采集团队,近千台可穿戴设备分布在 100 多个城市同步采集数据,并形成了覆盖采集、清洗、标注和质检的数据闭环处理流程。

采用分布式布局,是因为单一地点采集的数据场景单一、物品单一,无法覆盖真实世界的多样性。分布式采集网络可以在不同城市、不同场景同时进行,大幅提升数据的场景覆盖度和品类丰富度。

2026 年,千寻计划将数据规模拓展至 100 万小时。

千寻的数据训练理念也极为独特,他们十分看重 " 脏数据 "

在很多训练体系中,异常数据会被尽可能清理掉。而千寻认为,真实世界本身充满噪声。机器人未来面对的环境,本来就不完美。因此保留一定比例复杂数据、异常数据和失败数据,反而有助于提升模型泛化能力。

在千寻看来,多数玩家仍在使用 " 温室数据 ",导致模型一出实验室就水土不服。脏数据的训练理念,刻意保留了一部分 " 不标准答案 ",能够让千寻的模型在真实社会中长大,泛化能力天然更强。

这种思路也与 RoboArena 的评测逻辑高度一致。RoboArena 考察的,也正是模型面对不确定因素时的适应能力。

数据飞轮能否真正转起来,最终还要看机器人能否进入真实场景。千寻的机器人已经进入宁德时代的产线、京东的门店、博世的全球工厂等场景,大量真实落地场景为千寻提供了美国企业难以获取的数据矿。此外,千寻还开展了全球化合作与生态建设。

由此,千寻构成了 " 场景沉淀数据→数据迭代模型→模型反哺产业 " 的完整闭环。这也是资本敢于重仓的根本逻辑。

04

中国具身智能企业,正在成为技术定义者

此次千寻登顶的意义,不仅属于一家企业,也属于整个中国具身智能产业的发展进程。

行业的一个普遍认知是,美国负责定义具身智能技术,中国负责制造机器人。如今,这种分工正在发生变化。

千寻在 RoboArena 这个由美国顶尖机构设计、长期由美国公司主导的擂台上击败了主场霸主,证明中国团队在具身模型层面同样具备全球顶尖的竞争力。

这是中国具身智能从 " 制造优势 " 向 " 技术话语权 " 延伸的关键一步。以千寻为代表的中国战队,用硬桥硬马的真功夫打出了一波漂亮的攻守转换。

而且,具身智能竞赛是上半场比论文,下半场比落地,当前行业竞争核心正在转向体系能力建设。模型、数据、硬件和场景深度耦合,单一技术领先已经难以构建长期壁垒。

中国企业也在用场景红利和工程能力,实现从追赶到并跑的质变。

模型可以通过迭代持续进步,榜单排名也会不断刷新,但真实场景中的能力沉淀很难被短期复制。数据如何获取、场景如何进入、模型如何迭代、产品如何落地,这些问题都是行业发展的重要命题,而千寻智能已经在这场长跑中,率先卡住了身位。

随着具身智能行业的发展,实战能力会取代论文数量成为新的评判标准,场景数据会成为比参数规模更宝贵的资产,中国具身智能的全球化领跑,才刚刚开始。(雷峰网)

雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容