关于ZAKER Skills 合作
雷锋网 2小时前

CVPR 2026 终极盘点:这 5 篇论文、1 个演讲、3 个展台,藏着计算机视觉下一个十年的答案

视觉 - 语言与多模态 LLM 论文占比一年飙涨 5.7 个百分点,CVPR 正以前所未有的速度把具身智能推上主赛道。

作者丨陈淑瑜

编辑丨岑峰

16,092 篇投稿,4,071 篇录用,25.3% 录取率,今年的 CVPR 创下了多项历史纪录。

但比数字更具风向标意义的是行业风向:5 篇获奖论文中至少 3 篇直指具身智能;展台上 NVIDIA 和 Tesla 正合力把机器人从实验室推向商业化;一场关于 " 可编程生物学 " 的重磅演讲,则彻底打破了计算机视觉与传统药物设计的边界。

如果你没能亲自前往丹佛,这篇全景盘点将带你用最短的时间,一眼看透本届大会的全部精髓。

01

5 篇论文:从 4D 重建到一步式编辑,具身智能全面接管

今年 CVPR 的最佳论文奖项共有 74 篇入围,15 篇进入决赛圈,最终 5 篇获奖。

纵观这些获奖作品,能发现一个显而易见的行业共性:计算机视觉正从 " 被动感知 " 走向 " 主动理解与行动 "

▎最佳论文:D4RT ——让机器人 " 看见 " 第四个维度

动态场景的 4D 重建一直是计算机视觉中的 " 硬骨头 "。现有方法要么把任务拆成多个模块分别处理,慢且复杂。要么无法处理动态区域的对应关系,要么两者皆有。

D4RT 的核心贡献在于范式转换。模型先用编码器把整段视频压缩成一个全局场景表示,再用一个轻量解码器按需回答 " 视频中某个点在某个时刻的 3D 位置是什么 ",深度图、点云、点轨迹、相机参数全部通过同一套查询接口输出。

这一设计的精妙之处在于 " 统一解码接口 ",避免了逐帧密集解码的巨大开销,让模型可以独立且灵活地探测空间中任意点在任意时刻的 3D 位置。比前代方法快 300 倍,在动态 4D 重建与追踪任务上达到新的 SOTA,并支持对视频全部像素进行稠密整体重建。

D4RT 对具身智能的意义尤为深远。机器人在动态环境中需要理解并预测人的动作,D4RT 的 " 全像素跟踪 " 能力提供了时空连续的人体运动感知基础。它能解耦相机运动、物体运动和静态几何,使机器人区分 " 人在动 " 和 " 环境在动 ",为稳定的人机协作感知奠定了基础。

论文: Efficiently Reconstructing Dynamic Scenes One D4RT at a Time

机构: Google DeepMind / UCL / 牛津大学

论文链接: https://arxiv.org/pdf/2512.08924

▎最佳论文提名:NitroGen ——从打游戏到操控机器人的通用具身路线图

NitroGen 的核心定位是 " 视觉 - 动作基础模型 "。它在涵盖 1000+ 游戏、总计 40,000 小时的游戏试玩视频上训练而成,一个模型看游戏画面即可输出手柄操作,并在 1000 个不同游戏中实现零样本泛化。相较于从头开始训练的模型,其任务成功率实现了高达 52% 的相对提升。

NitroGen 背后的灵魂人物是 Jim Fan,NVIDIA 高级研究员、GEAR 团队负责人。他的研究脉络本身就是一条从虚拟到物理的具身智能进化史:SURREAL 的分布式深度强化学习、MineDojo 从 10 万 +Minecraft YouTube 视频中学习、Voyager 首个自主玩 Minecraft 的 AI Agent、Eureka 用 GPT-4 加速机器人训练,直到 NitroGen 指向 " 通用具身 Agent",实现跨技能、跨具身、跨现实(物理和虚拟)泛化。

NitroGen 的研究路线对机器人模仿学习有着直接的迁移价值。这种从大规模视频中自动提取动作标签、训练视觉 - 动作策略的框架,可以直接搬到人机协作场景中,让机器人快速学会人类的协作策略。

论文: NitroGen: An Open Foundation Model for Generalist Gaming Agents

机构: NVIDIA / 斯坦福大学 / 加州理工学院 / 芝加哥大学 / 德州大学奥斯汀分校

论文链接: https://arxiv.org/abs/2601.02427

▎ 最佳论文提名:SAM 3D ——一眼看透 3D 世界

作为 Segment Anything 系列的 3D 延伸,SAM 3D 包含 Objects(重建物体)与 Body(估计人体)两个子模型。两者均采用多阶段 DiT 架构,即便面对普遍遮挡和凌乱环境,也能稳健重建。

研究团队通过 " 人机协同 " 管线实现了这一突破,标注了规模空前的视觉基底 3D 重建数据,并在多阶段训练框架中将合成数据预训练与真实世界对齐相结合,打破了 3D 领域长期存在的 " 数据壁垒 "。在针对真实世界物体和场景的人类偏好测试中,SAM 3D 获得了至少 5:1 的胜率。

对具身智能而言,它让机器人无需依赖高昂的深度传感器,仅凭单张图像即可实时、准确地获取人类的 3D 姿态和空间场景理解。

论文: SAM 3D: 3Dfy Anything in Images

机构: Meta 超级智能实验室

论文链接: https://arxiv.org/abs/2511.16624

▎最佳学生论文:CLAY —— 3D 生成进入大模型时代

3D 生成建模领域近年来进展显著,但现有表示方法仍难以捕捉具有复杂拓扑结构和精细外观的 3D 资产。

CLAY 的核心创新是 O-Voxel,一种新型稀疏体素结构,能同时编码几何与外观,稳健地建模任意拓扑,包括开放、非流形及全封闭表面,同时捕捉纹理颜色之外的丰富表面属性,如基于物理的渲染参数。

基于 O-Voxel,作者设计了稀疏压缩变分自编码器,实现了高空间压缩率和紧凑的潜在空间,随后训练了包含 40 亿(4B)参数的大规模流匹配模型用于 3D 生成。尽管规模庞大,推理过程依然高效,且生成资产的几何与材质质量远超现有模型。

对具身智能研究者而言,CLAY 的价值在于:用 3D 生成模型可以快速构建仿真环境,大幅降低 HRI(人机交互)仿真成本。当然,如何保证生成场景的物理合理性、如何让生成的 3D 场景支持交互仿真,仍是待解的问题。

论文: Native and Compact Structured Latents for 3D Generation

机构: 清华大学 / 微软研究院 / 中国科学技术大学 / 微软 AI

论文链接: https://arxiv.org/abs/2512.14692

▎ 最佳学生论文提名:ChordEdit ——让一步式图像编辑真正可用

一步式文本生成图像(T2I)模型带来了前所未有的生成速度,但将其用于文本引导的图像编辑却困难重重:强行把现有免训练编辑方法压缩到单步推理中,往往导致物体严重变形和非编辑区域一致性丢失。

这个问题的根源在于,直接在模型的结构化场上做朴素的向量运算,会产生高能量、剧烈抖动的轨迹。

ChordEdit 将图像编辑重新表述为一个传输问题:在由源文本提示词和目标文本提示词所定义的源分布与目标分布之间进行传输。基于动态最优传输理论,研究者推导出一种有原则的低能量控制策略,得到更平滑、方差更低的编辑场,使得编辑场可以通过一次较大的积分步长完成遍历,最终让一步式扩散模型首次实现高保真、实时图像编辑。

ChordEdit 是一个模型无关、无需训练、也无需反演的方法,这种优雅的理论框架让它在 5 篇获奖论文中独树一帜。虽然它与具身智能的直接关联较弱,但 " 一步式推理 " 的理念,与端侧部署和实时交互的工业需求高度契合。

论文: ChordEdit: One-Step Low-Energy Transport for Image Editing

机构: 广东工业大学 / 惠州学院 / 深圳大学 / 北京大学

论文链接: https://arxiv.org/abs/2602.19083

02

1 个演讲:Simon Kohl 与 " 可编程生物学 " 的震撼宣言

在 CVPR 2026 的大会特邀演讲环节,前 DeepMind 蛋白质设计团队核心成员、2024 年诺贝尔化学奖获奖项目 AlphaFold 核心研究员、Latent Labs 创始人兼 CEO Simon Kohl 发表了题为 "Programmable Biology: Generative AI for Molecular Design" 的演讲。这场演讲或许是本届 CVPR 最 " 跨界 " 的 Keynote,也是最具冲击力的。

Simon Kohl 指出,传统药物研发由于 " 从错误的分子出发 " 导致九成候选药最终失败。过去五年计算药物设计迎来指数级跃迁,技术已从基础的蛋白质结构预测,演进到抗体设计智能体自主运行的全新阶段。

其团队创建的 AI 智能体 Latent-Y 目前已实现实验室验证。只需输入一句自然语言指令,智能体便能自主接管靶点分析、提示词生成、并行设计及迭代的全流程。在针对 " 不可成药 " 靶标(如 KRAS)和血脑屏障靶标的压力测试中,AI 仅用 1 天计算加 4 周验证,便在结合力上与传统耗时数月的万亿级筛选分庭抗礼。

正如他所言," 生物学终将成为一门可编程的工程学科。" 从 ImageNet 到 AlphaFold,从像素识别到分子设计,AI 正在以前所未有的速度将一个又一个 " 不可能 " 变为 " 可编程 "。

03

3 个展台:从 NVIDIA 到 Tesla 到 Apple,具身智能 " 卷 " 出实验室

论文赛道指明了前沿研究的去向,而展台则揭示了技术正以多快的速度被推向商业市场。在 CVPR 2026 的展览厅里,具身智能和物理 AI 成为了绝对的主旋律。

以下这三个展台,最具代表性:

▎ NVIDIA(Booth 211):具身智能的 " 军火商 "

NVIDIA 是本届 CVPR 最大的展商之一,展台上最吸引眼球的是先进的机器人抓取演示和自动驾驶研究展示。

此外还展示了 Nemotron 3 Nano Omni 模型,一个统一视觉、音频和语言的端侧多模态模型,让开发者在边缘设备上也能部署多模态 AI。

NVIDIA 在 CVPR 2026 的角色更像一个 " 军火商 ",为整个具身智能生态提供从训练到推理的基础设施。从 GPU 算力到仿真平台,从大模型到端侧部署,NVIDIA 的展台几乎覆盖了具身智能全链条。

Jim Fan 团队的 NitroGen 获得最佳论文提名,进一步证明了 NVIDIA 在学术和工程两端的统治力。

▎ Tesla:纯视觉的激进赌注

Tesla 的展台则聚焦于纯视觉自动驾驶和机器人进展。在 WDFM-EAI Workshop 上,Tesla Autopilot 及 AI 负责人 Ashok Elluswamy 的演讲引发全场热议,他系统披露了 Tesla 在具身智能方向的技术积累,包括 FSD 上下文长度从约 10 秒猛增至约 30 秒(提升 3 倍),以及 FSD 模型完整输入 / 输出架构的首次公开。

清晰传递出 Tesla 的战略意图:将自动驾驶作为更广泛机器人与具身 AI 平台的一部分,与 Optimus 人形机器人项目深度协同。Tesla 在丹佛传递的核心信息是,纯视觉路线已经超越了技术选择的范畴,更像一种信仰。

▎ Apple(Booth 231):安静的颠覆者

Apple 以赞助商身份参加 CVPR 2026,设有展位并带来多篇论文与特邀演讲。重点研究包括视频生成模型 STARFlow-V、视觉统一分词器 AToken、4D 几何外观表征 Velox 等。

Apple 的展台风格一如既往地低调,但研究却不容小觑。AToken 试图统一视觉理解与生成的底层表征,Velox 则指向 4D 动态场景理解,这些方向与 D4RT、SAM 3D 的获奖论文形成了有趣的呼应。

Apple 的 " 慢而稳 " 策略,在 NVIDIA 和 Tesla 的 " 快而猛 " 之间,提供了一种截然不同的技术路线参照。

04

深层趋势:

CVPR 从 " 让人看懂图像 " 走向 " 让机器人看懂世界 "

综合 5 篇获奖论文、Simon Kohl 的演讲和三大展台的信号,CVPR 2026 传递的最深层趋势可以概括为一句话:计算机视觉正在经历从 " 被动感知 " 到 " 主动理解与行动 " 的范式转移。

▎趋势一:多模态与具身智能成为绝对主线。

视觉 - 语言与多模态 LLM 论文占比从去年的 4.9% 飙升至 10.6%,增幅达 5.7 个百分点,这是 CVPR 近年来单一类别最大幅度的增长。

5 篇获奖论文中至少 3 篇与具身智能直接相关,展台上超过 100 家公司中相当比例在展示物理 AI 方案。具身智能已经从 " 分会场议题 " 升级为主线剧情。

▎趋势二:视觉架构正从 " 识别像素 " 走向 " 重建世界 "。

D4RT 重建 4D 动态场景,SAM 3D 从单图重建 3D 世界,CLAY 用 4B 参数生成 3D 资产,这些工作的共性在于:视觉系统已经不再满足于 " 识别 " 和 " 分类 ",开始试图从 2D 输入中重建完整的 3D/4D 世界表征。

未来的视觉架构将更关注空间理解而非像素识别。

▎趋势三:感知问题正被基础模型统一解决,重心上移至认知层。

D4RT 解决动态感知,SAM 3D 解决空间感知,NitroGen 解决行动策略。

研究者的重心正从 " 如何让机器人看见 " 转向 " 如何让机器人理解它看到的东西 ",从感知层上升到认知层。这也是为什么 Simon Kohl 的演讲在 CVPR 的舞台上如此引人注目:当视觉模型足够强大,下一个前沿就是 " 理解 " 与 " 决策 "。

▎趋势四:中国力量从 " 参会 " 走向 " 设局 "。

在 CVPR 2026 高校论文接收 Top 10 中,中国高校占据八席:上海交通大学以 46 篇高居榜首,浙江大学 40 篇紧随其后。在产业端,腾讯拿下最高级别 Ultimate Sponsor,MiniMax 跻身白金赞助商,苏度科技、Linkerbot 等具身智能新锐集体亮相。更值得注意的是,在 GigaBrain Challenge 2026 中,中国团队在四个赛道包揽全部冠军,这在 CVPR 历史上极为罕见。中国企业已从 " 底层代工 " 升级为 " 软硬一体全栈 AI 产业链 "。

回到标题的问题:计算机视觉下一个十年的答案是什么?CVPR 这 5 篇论文、1 个演讲、3 个展台的回应汇聚成一句话:视觉的终点不是看见,而是理解、行动、改变物理世界。下一个十年,这一页已经被翻开了。

去哪看 CVPR 核心【演讲 / 论文】详解?

为了让国内的研发者、创业者与投资人能够毫无时差地掌握本届 CVPR 2026 的完整干货,雷峰网已全面上线【CVPR 2026 深度专区】。

专区不仅全面收录了重磅论文的工程化解读、专家前沿演讲,更将持续更新前方记者的第一手会议动态。

扫描下方二维码,或点击「阅读原文」关注专区。

与全球 8000 名顶尖大脑同步呼吸,抢先透视具身智能的下一个五年

相关标签
雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容