关于ZAKER Skills 合作
钛媒体 21分钟前

中国机器人,梦想是当打工仔

文 | 伯虎财经,作者 | 楷楷

去年 4 月,人形机器人第一次和人类站在同一条赛道上跑马拉松;今年 4 月,机器人已经跑得比人类还快。

不过,争议声也随之而来:机器人跑那么快有什么用;机器人什么时候才能干实事?但这一次,机器人企业给出了更务实的答案——想要干活,先去实习。

近日,智元机器人宣布新款 A3 人形机器人将通过 " 擎天租 " 平台交付,批量上岗景区;自变量机器人宣布与 58 同城合作提供到家服务,机器人将进入真实家庭,与保洁阿姨协同作业。

具身智能迎来了一波密集的商业化动作,行业叙事也在悄然转向。

过去两年,登上春晚、参加比赛是机器人展示拳脚的最佳舞台;但如今,深入工厂、走进家门,在真实场景中解决实际问题,才是对机器人的真正考验。

01 " 大脑 " 还没长好

早在一个月前,自变量跟 58 同城合作,推出全球首个机器人保洁员,与保洁阿姨协同为用户提供家庭清洁服务。

在社交媒体上,有不少用户进行了 " 尝鲜 ",但整体评价依然是 " 机器人不如人 "。

有用户称,机器人动作比较笨拙,虽然能做晾衣服、收纳之类比较复杂的家务,但叠一件衣服就要接近 10 分钟;机器人的活动范围有限,有台阶、有门槛都进不去。

但这种 " 不足 " 并非一家机器人企业面临的难题,而是整个行业的共同挑战。

自变量 CEO 王潜在近日表示," 今天在全世界范围内,没有任何一台机器人可以在没有遥控操作的情况下,独立完成大部分的日常家务。"

宇树科技创始人王兴兴也提过类似观点,他表示机器人在预设场景任务中,成功率趋近 100%,一旦场景变化或出现从未见过的事件,成功率会断崖式下跌,机器人做家务还要 3-5 年。

这也是当下具身智能行业最大的瓶颈——机器人无法理解真实世界的物理逻辑。

业内有个形象的比喻,机器人虽然 " 小脑 " 发达,但 " 大脑 " 还在发育。" 小脑 " 指的是机器人的运动控制能力,能做武术、舞蹈等复杂动作;" 大脑 " 则是认知、决策能力,是 " 能干事 " 的基础。

因此,让机器人真正拥有一颗会思考的 " 大脑 ",是当下整个机器人行业都在努力的事情,目前来看,主要分成了三条技术路线:

VLA 端到端是当下的主流,也是最成熟的路线,主要通过融合视觉等多模态感知信号与语言指令直接生成机器人动作。

简单来说,就是机器人听命令,然后直接做事情,比如用户说 " 我饿了 ",机器人就会找到食物并递给你,只要机器人见过类似物体,它就能执行指令。

但弊端也很明显,那就是随着任务的复杂程度增加,出现机器人没有训练过的复杂场景和行动轨迹,它就很容易出现 " 逻辑死机 "。

而且,行业中常用的 VLA 架构,基本上是将视觉、语言、动作三个模块各自独立运行,数据每经过一次模块边界就会发生信息损耗和延迟,涉及精细动作," 大脑 " 容易跟不上 " 小脑 "。

世界模型路线则被认为是最接近人类思考模式的路线,它的核心是能理解物理世界的运转规律,从而预测下一刻会发生什么。

比如一只杯子从桌子上掉下来,物理模型能基于对运动、重力等方面的认知,估算出杯子掉落的基本方向,基于这个理解,机器人就可以扶稳杯子,或者避开杯子。

但世界模型也面临着更巨大的成本挑战,包括数据需求、训练成本等,英伟达的 Cosmos 世界基础模型,便经过了 9000 万亿个 Token 的训练。

大小脑分层是更具国内特色的路线,LLM 大模型作为 " 大脑 ",负责理解任务;VLA/ 动作模型作为 " 小脑 ",负责精细控制。

但将大小脑拆分开来,容易导致任务出现延误,难以实现高精度操作。况且,模块越多,成本也会越高。

不过,由于国内大部分机器人企业在 " 小脑 " 环节都有一定积累,采用大小脑分层路线,先立住长板,再集中资源补短板,显然比从零造一个 " 大脑 " 更务实。

02 边 " 干活 ",边 " 补脑 "

总的来说,每一条技术路线都各有优劣,难言谁才是最终路径。

况且,各个机器人企业虽然都有押注的主流技术路线,但也并非只有一条路线走到底,深度融合才是大势所趋。

比如 VLA 端到端和世界模型的融合。智元 Genie 业务部生态及解决方案总监沈咏剑曾在采访中表示,世界模型与 VLA 并不一定是替代关系,也有可能有融合或合作的状态。

今年以来,智元推出了世界模型迭代版本 GE-Sim 2.0、新一代 VLA 基座大模型 Genie Operator-2,以及第二代一体化具身大小脑系统 GenieReasoner。

智元在传统世界模型仅建模 " 状态 " 的基础上,提出了世界动作模型的方向,将 " 状态 - 动作 - 状态演化 " 作为统一建模对象,并未只围绕单一路线推进具身模型。

自变量则推出了世界统一模型架构的具身智能基础模型,将大小脑塞进同一个模型,能更有效消除模块间的信息损耗与延迟,提升机器人在真实物理环境中的泛化能力与交互效率。

其具身智能基础模型 WALL-B 的特点就是 " 干中学 ",让机器人在反复失败、尝试中完成自我迭代。

自变量 CTO 王昊指出," 世界模型并非一个单独的模块,它本质上是一种能力,但这种能力不能简单地累加,并不是在 VLA 后面再挂一个世界模型就能理解世界。"

智平方则提出了快慢双系统融合方案,将智能体划分为 " 快系统 "(负责全身控制)和 " 慢系统 "(负责逻辑推理),让机器人在面对复杂的动态环境时,既能快速反应,又能保持对长程任务的深度理解。

可以看出,无论走哪条技术路线,机器人 " 大脑 " 要真正 " 长好 ",最大的挑战都绕不开两件事:一是理解世界,二是让思考跟上身体的反应速度。

但这并非练得越多就越强。自变量 CTO 王昊举了一个例子," 一个人在泳池里学了 10 年游泳,但把他丢到大海,他还是有可能会淹死。"

他认为实验室里的训练数据太过干净,机器人待在象牙塔里,很难具备真正的独立思考能力,最好的方法就是让机器人到复杂的、充满随机性的环境中学习。

复旦大学计算机科学技术学院教授肖仰华也曾对外表示," 训练具身智能大模型,保守估计当前已有数据量与所需数据量之间至少还差两个数量级。"

出于对真实数据的渴求,机器人开始加速涌入真实场景。

优必选的人形机器人已经进入了工厂。创始人周剑表示,优必选花了两年时间,从新能源汽车制造场景切入搬运、上下料、物料分拣、质检等任务的 POC 实训。

银河通用的 Galbot 机器人开始参与药房运营,可以自主识别订单并抓取药品、扫码、打包;魔法原子的人形机器人则变身 " 汽车销售 ",在汽车专卖店招揽顾客,为顾客讲解车辆参数。

不同的机器人企业,不同的真实场景,大家的目标都只有一个:

在真实场景获取数据,验证机器人的能力,再反哺给具身智能基础模型的迭代,让机器人 " 大脑 " 从单一任务、有限场景,逐步实现物体泛化、背景泛化和任务泛化,变得更加聪明。

03 场景拉高上限

一旦理解了 " 练大脑 " 离不开 " 真数据 ",就能明白为何资本市场对具身智能的估值逻辑,在最近这一年悄然发生了转向。

据第一财经不完全统计,截至 4 月 10 日,国内具身智能领域至少发生 269 起融资事件。

但与往年相比,资本投向的侧重点出现了明显变化——资本正在加速涌向数据与模型算法,本体硬件的估值预期,则从技术叙事转向商业落地。

今年以来,多家侧重于 " 大脑 " 的具身智能企业,完成了数十亿元级别融资:自变量宣布已完成近 20 亿元的 B 轮融资;它石智航拿下 4.55 亿美金 Pre-A 轮融资,刷新中国具身单笔融资纪录;具身数据与仿真基础设施公司光轮智能最新一轮融资达 10 亿元。

行业发展到当前阶段,本体硬件的形态已基本完善。今年机器人马拉松的夺冠者并非传统机器人企业,而是消费电子厂商荣耀,也从侧面说明了硬件的技术门槛正在降低。

市场开始形成一种新共识,那就是决定机器人能否投入实际应用的核心变量在于 " 大脑 ",而 " 大脑 " 背后则是模型能力与数据资产。

如果说过去的资本逻辑,是希望通过硬件销量率先完成占位;那么今天市场在估值时,则会更关注谁的 " 大脑 " 更聪明,并具备充足的泛化能力。

机器人的硬件门槛会随着供应链成熟而逐渐拉平,但 " 大脑 " 却不一样——谁的模型能在更多真实场景中跑通,并将特定场景中学到的技能和知识,迁移到新的对象、任务或环境,谁就能 " 举一反三 ",快速在更多不同场景中落地。

而且,具身模型的泛化能力越强,护城河越高,天花板也更高。

自变量创始人王潜提到," 家庭场景对泛化性要求最为极致,能让模型在极复杂的家庭场景跑得通,进传统的工业场景都能完全降维打击。"

这意味着,模型能力成熟以后,其可以在一个行业甚至多个行业通用,是一个可以无限复用的商业模式。

而且,相较于先构建能力再寻找落地场景,不少机器人企业已经将商业场景置于产品设计之前,将产品服务与商业场景绑定在一起。

比如银河通用推出的两款轮式机器人,强调稳定性和负载能力,更适合执行搬运、抓取、分拣等重复性工作;小鹏 IRON 则明确将会优先落地博物馆、4S 店、商场。

" 机器人到底能干什么 " 这个问题,具身智能已经渐渐摸到了答案。

" 宇树们 " 花了十年时间,让机器人实现从 0 到 1 的突破,但要让机器人具备真正独立思考的能力,摆脱对人类单一重复命令的依赖,背后是从 1 到 10,再到无限的临界点。

手脚能让机器人站起来,但真正活下去,还要靠大脑。

相关标签

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容