
近日,北京大学科研团队联合上纬启元研究院和京东,在国际顶级计算机视觉会议 CVPR 2026 推出RealAppliance 数据集及配套 RealAppliance-Bench 评测基准,聚焦说明书驱动下的家电智能操作规划难题,以高保真仿真体系破解家庭服务机器人实操评测痛点,推动具身智能加速落地真实居家场景。
基于说明书的家电操作规划,最难在真实环境中被系统评测。微波炉、烤箱等家电设备一旦发生误操作,轻则损坏设备,重则带来现实安全风险;同时家用电器品类繁杂、购置与维护成本偏高,难以开展大规模、标准化、可复现的实体实验。现存仿真资源也存在明显短板,设备外形、部件功能、运行程序与真实产品偏差较大,无法满足说明书驱动型操作规划的测评需求。
针对上述瓶颈,北京大学长聘副教授、上纬启元首席科学家董豪团队完成了本次 RealAppliance 系列成果研发。此前,该团队已在 CVPR 2025 上首次提出基于说明书的家电操作研究方向;本次研究将测评维度从单一手册理解,拓展为说明书文本、设备外观形态、交互操控功能、程序运行状态一体化的完整操作系统。

RealAppliance 数据集囊括 100 款高精度家电数字模型,覆盖 14 类日常家用电器,从真实说明书、外观构造、交互方式、程序逻辑四大维度,全方位复刻实体家电运行特征。数据集收录中、俄、法、德等多语种设备手册,每一款数字资产均匹配原版使用说明,尺寸参数、部件功能、状态切换规则均与实物保持一致,可为智能算法测试提供可复用、可拓展的仿真实验载体。

与传统仅还原运动结构的仿真数据集不同,RealAppliance 更强调 " 说明书 - 资产 - 程序逻辑 " 的联动体系,不仅还原家电外观样貌,还可模拟操作顺序、状态限制、反馈纠错全流程,为家电操作智能化研究搭建标准化评估框架。
在数字资产搭建过程中,团队广泛搜集海内外家电实物照片与原版说明书,依据 " 可机械操作、文本适配模型处理、步骤描述清晰、数据信息完备 " 四项准则筛选样本。借助专业建模软件复刻家电外观,拆分独立功能部件,精细打磨纹理、色彩与标识细节,导入仿真平台生成标准数字模型,并按运动形式分类配置关节结构。
同时,团队搭建物理与电子两大模块化交互机制,涵盖弹簧复位、磁吸闭合、屏幕显示、电机运转等 10 类运行模式,使仿真家电具备真实操作反馈与状态变化能力。最后对照原版说明书编写运行脚本,设定温度、时长、工作模式等核心参数,完整还原家电开机、运行、启停联动整套工作流程。

依托数据集打造的 RealAppliance-Bench 评测基准,围绕家电实操全流程,设置手册页面检索、开环操作规划、电器部件定位、闭环规划调整、全过程推理五大递进式测试任务,全面考核智能模型文档解析、动作规划、空间识别、故障修正、端到端作业等核心素养,精准衡量算法在家电实操场景的综合性能。
团队选取多款主流多模态大模型、具身规划模型开展系统性测评,测试结果暴露出当前智能算法的能力短板。各类模型在单一细分任务中各有所长,但面对贴合真实场景的说明书驱动家电操作任务时,整体性能距离落地应用仍有较大差距。检索任务中,具身模型文本理解能力偏弱;动作规划普遍存在步骤缺失、动作误用问题,未能吃透设备运行逻辑;部件空间定位精准度偏低,跨模态信息匹配难度突出;面对突发工况,模型难以快速调整作业方案;全流程连贯作业测试中,所有模型均未能实现成功通关,多环节误差叠加,凸显现有算法居家实操稳定性严重不足。

未来,该数据集与评测平台将持续承担标准化测评职能,助力科研人员迭代优化家电操控算法,深挖智能操作策略研发方向。随着仿真体系不断完善迭代,将为家庭服务机器人突破家电操作难关、规模化走进千家万户筑牢技术根基。