想象一下,你给机器人看了一张照片,然后说了一句 " 把微波炉打开 "。
结果它不仅认出了该摸的位置,还规划了出完整的三维运动轨迹,关键是真的把门拉开了,而且成功率高达 90%。
这件事,一个叫 AFUN 的新模型做到了,同时还在 11 个数据集上拿到了 SOTA。

这个能力,机器人学了很多年,始终差着一口气,不是不会看,就是不会动。
总之,这两件事几乎没被同一个模型同时解决过,直到这篇 AFUN,补上了这个缺口。
机器人为什么能 " 看 " 不能 " 动 "
过去做可供性的人,基本都在解决同一个问题,那就是机器人 " 该摸哪里 "。
这种模式下,只要输出一个分割掩码,或者标几个关键点,研究就算完了。
至于机器人接触之后物体该往哪走、用多大力、沿什么方向运动,几乎没有方法去回答。
但在实际任务中,机器人要完成一个操作任务,光知道 " 抓把手 " 是不够的,它还需要知道抓住之后该往哪个方向拉、转多少角度、走多长距离。
没有这些信息,机械臂只能停在那里。
于是另一批人转去研究运动预测,但很快碰到新的墙。
大多数方法只能在 2D 图像平面上给出轨迹,机器人真正执行的时候需要三维信息,平面上的箭头没法告诉它该往前推还是往上抬。
还有一些方法干脆要求人先指出目标在哪再预测怎么动,绕开了定位问题,导致机器人没法真正自主部署。

现有的可供性数据集普遍规模偏小、覆盖场景有限,模型能见到的物体种类和交互类型都很窄。
结果就是,在实验室里调出来的模型效果还算不错,但换一个没见过的物体、换一个新场景,其性能就会大幅下滑。
这也是为什么现有方法很难走出实验室实现真正落地的一个原因。
还有一个更根本的问题,一直没有被正面解决——同一个物体在不同任务下需要交互的区域完全不同。
让机器人使用锤子,它该抓柄;让它用锤子压住纸,它该抓头。
这个问题已经超越了识别,需要模型去理解任务意图,但静态的分割模型,从设计上就没有能力做这种区分。
AFUN 怎么做到的
AFUN 的核心思路是把三个已经训练好的大模型拼在一起,各司其职。
Qwen3-VL 负责理解语言指令,SAM3 负责图像分割,Sonata 负责处理深度图转成的三维点云。
三个模型在训练过程中全程冻结,AFUN 只在它们之间新加了 3200 万个参数,并把它们串联起来。

简单说,就是在输入的文字指令里插入一组可学习的特殊 token,让它们跟着指令一起过 Qwen3-VL 的 transformer,提取出来的隐层状态,再分别送给分割模型和运动预测模块。
分割和运动两个任务则共享同一次 VLM 的推理,一次前向传播同时出两个结果。
运动的表示方式也是 AFUN 的一个设计选择。
它用贝塞尔样条曲线来描述物体接触后的运动轨迹,起点固定在分割掩码的深度质心上,模型只需要预测后续的控制点。
曲线上均匀采样之后,就得到了机器人可以直接执行的一串三维路径点。
训练分三个阶段进行。
第一阶段先在 Visual Genome 数据集上对齐 MetaQuery 与 SAM3 的特征空间,给后续训练一个稳定的初始化;
第二阶段在四个可供性数据集上专门训练分割;
第三阶段把运动预测加进来联合训练。
这样的安排是为了防止随机初始化的 token 在早期干扰分割质量,让两个任务的学习都能稳定进行。
数据方面,AFUN 从 10 个公开数据源里聚合了 32 万条原始视频,跨越机器人遥操作、人类第一视角、仿真环境和真实场景扫描四类来源。
原始片段经过切分之后有 124 万个动作区间,再经过自动化流水线标注和人工质检,最终留下约 6 万条训练样本。

过去很多数据集用机械臂或手部的运动轨迹作为监督信号,但这段轨迹里混入了大量接触之前的无关运动。
AFUN 将其改为直接追踪物体本身,因为接触发生之后物体往哪走,才是真正有意义的操作信息。

AFUN 在 11 个测试集上拿到了 SOTA,覆盖分割、接触点预测、3D 运动预测三个方向。
在分割任务上,研究团队用 8 个测试集做了验证,覆盖 4 个不同的基准。AFUN 在每个测试集上都拿到了 SOTA,平均 gIoU 和 cIoU 比最强基线分别高出 23.9 和 26.3 个点。
接触点任务重,AFUN 取预测掩码的最远内点作为接触点,在不同测试集上命中率比最佳基线高出 12.7% 到 61.3% 不等。
3D 运动预测方面,在对比条件对 AFUN 并不算有利的条件下,对比模型 General Flow 的 ADE 和 FDE 在全部三个测试集上依然不及 AFUN。
最后是真实机器人部署。
AFUN 在 Franka 机械臂上测了四项任务,拿起螺丝刀、取下锅盖、拉开抽屉、打开微波炉,没有针对这台机械臂做任何微调,平均成功率 90%。
作者简介
本文的两位共同一作分别是 Zhaoning Wang 和 Yi Zhong。
Zhaoning Wang 是密歇根大学博士生,师从 Jun Gao,研究方向涵盖 3D 神经表示、生成模型与具身 AI。
此前他在 Hillbot 和 UC 圣地亚哥苏昊实验室有过研究经历,曾以一作或共同一作身份在 CVPR、ECCV、NeurIPS 等顶会发表论文。
Yi Zhong 同样就读于密歇根大学。

论文地址:
https://arxiv.org/abs/2606.02551
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~

最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见