11 个数据集全拿 SOTA！机器人终于既会“看”又会“动”了

想象一下，你给机器人看了一张照片，然后说了一句 " 把微波炉打开 "。

结果它不仅认出了该摸的位置，还规划了出完整的三维运动轨迹，关键是真的把门拉开了，而且成功率高达 90%。

这件事，一个叫 AFUN 的新模型做到了，同时还在 11 个数据集上拿到了 SOTA。

这种看出东西能干什么、该怎么动的能力，学术上叫可供性感知。

这个能力，机器人学了很多年，始终差着一口气，不是不会看，就是不会动。

总之，这两件事几乎没被同一个模型同时解决过，直到这篇 AFUN，补上了这个缺口。

机器人为什么能 " 看 " 不能 " 动 "

过去做可供性的人，基本都在解决同一个问题，那就是机器人 " 该摸哪里 "。

这种模式下，只要输出一个分割掩码，或者标几个关键点，研究就算完了。

至于机器人接触之后物体该往哪走、用多大力、沿什么方向运动，几乎没有方法去回答。

但在实际任务中，机器人要完成一个操作任务，光知道 " 抓把手 " 是不够的，它还需要知道抓住之后该往哪个方向拉、转多少角度、走多长距离。

没有这些信息，机械臂只能停在那里。

于是另一批人转去研究运动预测，但很快碰到新的墙。

大多数方法只能在 2D 图像平面上给出轨迹，机器人真正执行的时候需要三维信息，平面上的箭头没法告诉它该往前推还是往上抬。

还有一些方法干脆要求人先指出目标在哪再预测怎么动，绕开了定位问题，导致机器人没法真正自主部署。

两条路都受限于数据。

现有的可供性数据集普遍规模偏小、覆盖场景有限，模型能见到的物体种类和交互类型都很窄。

结果就是，在实验室里调出来的模型效果还算不错，但换一个没见过的物体、换一个新场景，其性能就会大幅下滑。

这也是为什么现有方法很难走出实验室实现真正落地的一个原因。

还有一个更根本的问题，一直没有被正面解决——同一个物体在不同任务下需要交互的区域完全不同。

让机器人使用锤子，它该抓柄；让它用锤子压住纸，它该抓头。

这个问题已经超越了识别，需要模型去理解任务意图，但静态的分割模型，从设计上就没有能力做这种区分。

AFUN 怎么做到的

AFUN 的核心思路是把三个已经训练好的大模型拼在一起，各司其职。

Qwen3-VL 负责理解语言指令，SAM3 负责图像分割，Sonata 负责处理深度图转成的三维点云。

三个模型在训练过程中全程冻结，AFUN 只在它们之间新加了 3200 万个参数，并把它们串联起来。

串联的方式叫 MetaQuery。

简单说，就是在输入的文字指令里插入一组可学习的特殊 token，让它们跟着指令一起过 Qwen3-VL 的 transformer，提取出来的隐层状态，再分别送给分割模型和运动预测模块。

分割和运动两个任务则共享同一次 VLM 的推理，一次前向传播同时出两个结果。

运动的表示方式也是 AFUN 的一个设计选择。

它用贝塞尔样条曲线来描述物体接触后的运动轨迹，起点固定在分割掩码的深度质心上，模型只需要预测后续的控制点。

曲线上均匀采样之后，就得到了机器人可以直接执行的一串三维路径点。

训练分三个阶段进行。

第一阶段先在 Visual Genome 数据集上对齐 MetaQuery 与 SAM3 的特征空间，给后续训练一个稳定的初始化；

第二阶段在四个可供性数据集上专门训练分割；

第三阶段把运动预测加进来联合训练。

这样的安排是为了防止随机初始化的 token 在早期干扰分割质量，让两个任务的学习都能稳定进行。

数据方面，AFUN 从 10 个公开数据源里聚合了 32 万条原始视频，跨越机器人遥操作、人类第一视角、仿真环境和真实场景扫描四类来源。

原始片段经过切分之后有 124 万个动作区间，再经过自动化流水线标注和人工质检，最终留下约 6 万条训练样本。

这套流水线里还有一个容易被忽视的设计纠正。

过去很多数据集用机械臂或手部的运动轨迹作为监督信号，但这段轨迹里混入了大量接触之前的无关运动。

AFUN 将其改为直接追踪物体本身，因为接触发生之后物体往哪走，才是真正有意义的操作信息。

11 个测试集 SOTA

AFUN 在 11 个测试集上拿到了 SOTA，覆盖分割、接触点预测、3D 运动预测三个方向。

在分割任务上，研究团队用 8 个测试集做了验证，覆盖 4 个不同的基准。AFUN 在每个测试集上都拿到了 SOTA，平均 gIoU 和 cIoU 比最强基线分别高出 23.9 和 26.3 个点。

接触点任务重，AFUN 取预测掩码的最远内点作为接触点，在不同测试集上命中率比最佳基线高出 12.7% 到 61.3% 不等。

3D 运动预测方面，在对比条件对 AFUN 并不算有利的条件下，对比模型 General Flow 的 ADE 和 FDE 在全部三个测试集上依然不及 AFUN。

最后是真实机器人部署。

AFUN 在 Franka 机械臂上测了四项任务，拿起螺丝刀、取下锅盖、拉开抽屉、打开微波炉，没有针对这台机械臂做任何微调，平均成功率 90%。

作者简介

本文的两位共同一作分别是 Zhaoning Wang 和 Yi Zhong。

Zhaoning Wang 是密歇根大学博士生，师从 Jun Gao，研究方向涵盖 3D 神经表示、生成模型与具身 AI。

此前他在 Hillbot 和 UC 圣地亚哥苏昊实验室有过研究经历，曾以一作或共同一作身份在 CVPR、ECCV、NeurIPS 等顶会发表论文。

Yi Zhong 同样就读于密歇根大学。

其余作者包括 Jiawei Fu、UC 圣地亚哥机器人研究所所长 Henrik I. Christensen，以及密歇根大学助理教授、NVIDIA 研究科学家 Jun Gao。

论文地址：

https://arxiv.org/abs/2606.02551

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

专属 AI 产品从业者的实名社群，只聊 AI 产品最落地的真问题 扫码添加小助手，发送「姓名 + 公司 + 职位」申请入群～

进群后，你将直接获得：

最新最专业的 AI 产品信息及分析

不定期发放的热门产品内测码

内部专属内容与专业讨论

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

11 个数据集全拿 SOTA！机器人终于既会“看”又会“动”了

宙世代

一起剪

相关阅读

苹果首款OLED MacBook Pro细节曝光 或命名为MacBook Ultra

Steam主机官宣今夏上市：定价与valve原计划截然不同

带风扇的鼠标即将上市！猫头鹰推派世Feinmann F01：专为手汗玩家设计

华擎展示神秘下代显卡：直奔RDNA 5而来！

Intel下代CPU插座实物首曝！尺寸不变针脚更多：旧散热器直接用

豆包启动分层付费，中国AI助手告别免费粗放时代

papi酱直播疑翻车 带货的粘毛器被指毒猫 品牌紧急下场救火

从欧莱雅到联合利华：品牌开始对AI说不

英伟达推出全模态物理AI模型 物理AI规模化落地时代加速到来

618家电变局：价格战退潮，“速度战”加码

国家队下场做AI虚拟细胞，「百曜科技」完成数千万元新一轮融资

中信建投：AI算力增长持续打开超高导热金刚石材料增长空间

苹果MacBook Ultra首发全新OLED：Mini-LED落幕

NBA中国携手阿里巴巴上线首个官方AI大模型

Meta首席AI官称健康领域至关重要 将助力其模型实现差异化

最新评论

量子位

热门推荐

企业资讯

苹果首款OLED MacBook Pro细节曝光或命名为MacBook Ultra

papi酱直播疑翻车带货的粘毛器被指毒猫品牌紧急下场救火

英伟达推出全模态物理AI模型物理AI规模化落地时代加速到来

Meta首席AI官称健康领域至关重要将助力其模型实现差异化