
荣耀的人形机器人半马只用 50 分钟完成,宇树的机器人能在春晚舞台上完成人类极难完成的武术动作,这仿佛就是应该的事儿,并且,人们还有疑问,具身智能机器人别整这些活了,干点真正的活儿吧,比如把碗洗了,把衣服收了叠了,把地扫了 ......
但这些普通人能做的家务活,却远比跑马拉松做武术动作难得多,也比进厂在流水线打工难得多。
机器人什么时候,才能真正帮人收拾家里那一地狼藉?4 月 21 日,自变量机器人举行发布会,正式发布新一代具身智能基础模型 WALL-B,并宣布 35 天后,搭载该模型的新一代机器人将进入首批真实家庭。
在这家公司看来,机器人行业真正的决赛场,不在舞台,也不在实验室,而在家庭。因为家庭环境远比工厂复杂,也远比公开演示更难预测:拖鞋可能被踢到沙发底下,孩子把书包扔在地上,猫随时跳上餐桌,刚拖完的地面又被打翻一杯水。这些看似琐碎的小事,恰恰是机器人至今最难解决的问题。

发布会上,自变量创始人兼 CEO 王潜用一个普通清晨开场:「早上七点,闹钟响了。你走到客厅,拖鞋不见了,厨房碗没洗,孩子书包扔在地上,猫又打翻了一杯水。」
这段描述背后的核心判断是:家庭是一个随机、碎片化、持续变化的环境。
而过去大量机器人能力展示,并不发生在这样的场景里。舞台上的后空翻、写毛笔字、跳舞,多数依赖预设轨迹与固定动作流程;工厂里的工业机器人,则建立在高重复、低变量的标准化环境中。
但家庭恰好相反。每一次动作都可能不同,每一个障碍都可能临时出现,每一秒都可能有新变量加入。
自变量认为,当前机器人行业的瓶颈,已经不再是硬件本体,而是「大脑」。双足、灵巧手、力控关节都在快速成熟,但如何理解环境、判断风险、处理意外、持续学习,仍然是机器人进入家庭前最大的门槛。
自变量此前已经推出过第一代具身模型 WALL-A,采用行业常见的 VLA(视觉 - 语言 - 动作)架构。
这类模型的基本逻辑是:
摄像头看见东西(V,Vision)
模型理解语言指令(L,Language)
再生成动作轨迹执行任务(A,Action)
听起来合理,但问题也很明显:这些能力往往来自不同模块,再拼接到一起。
自变量联合创始人兼 CTO 王昊解释称:
视觉模块负责识别物体,语言模块理解指令,动作模块生成轨迹。信息在模块之间逐级传递,每经过一次边界,就会出现损耗和延迟。
更关键的是,这类模型擅长模仿,却不一定理解世界。机器人可以学会「拿杯子」,但未必知道杯子为什么会掉下来;它知道把盘子放桌上,却未必知道半个盘子悬空意味着即将摔碎。

机器人也是类似逻辑。
在 WUM 架构(世界统一模型架构)下,视觉、语言、动作、触觉、物理预测等能力被放进同一个网络里联合训练,不是拆开后再组合。这带来一些重要变化,传统机器人常常是「先识别,再行动」,WALL-B 的目标是同步完成感知与决策。
自变量称,模型从训练第一天起,就让视觉、听觉、语言、触觉、动作数据同时参与训练,实现「多模态输入、多模态输出」。简单来说:它看到杯子的同时,就已经在计算如何抓取;感受到重量时,也会同步调整力度。
王昊表示,模型开始学习重力、惯性、摩擦力、速度等基本物理规律。例如桌边有一个半悬空盘子,即便机器人从未见过这个具体场景,也能推断盘子可能掉落,从而主动把它推回安全位置。这意味着机器人未来不必为每一个家庭重新训练。因为房间布局不同,但物理规律是相同的。
过去很多机器人任务失败后,只会停止执行,等待人工介入,WALL-B 的设想是:失败后重新尝试,成功后把经验直接写进模型。王昊将其比作人类学用筷子的过程:
筷子掉了无数次,但每一次失败都在修正控制方式,最后才形成稳定技能。
如果这一机制真正跑通,机器人迭代速度将不再完全依赖实验室训练,而是来自真实世界持续反馈。

在训练数据上,自变量提出了一个很形象的说法:实验室数据像「糖水」,真实家庭数据像「牛奶」。前者干净、稳定、量大,但营养有限;后者复杂、嘈杂,却更接近真实世界。
王昊透露,为获取这些数据,团队进入了数百个志愿者家庭采集环境样本,而且,每个家庭都不同:灯光冷暖不同,地面材质不同,玩具和拖鞋乱放,猫会突然跳上桌子,孩子会制造新的混乱 ......
这些变量在实验室里很难完整模拟,却是机器人进入家庭后每天都会面对的现实。

当然,自变量并没有把这件事说得过于完美。王潜坦言,当前机器人仍处于「实习生阶段」。它会犯错,可能把拖鞋放进厨房,擦桌子擦到一半停下来思考,也仍然需要远程协助。但另一方面,它可以 24 小时持续工作,并在每天运行中积累新经验。这种「边服务、边成长」的逻辑,和今天的软件产品迭代方式很像,只是这次载体变成了机器人。
过去几年,机器人行业最擅长制造惊艳时刻。但真正改变生活的产品,往往不是最会表演的那个,而是最能解决琐事的那个。
自变量这次发布 WALL-B,本质上是在回答一个更现实的问题:机器人能不能先把家务做好,再谈未来。
35 天后,答案会开始进入第一批用户的客厅。