5 秒完成 3D 场景编辑，北大 & 港中文 & 上海 AI Lab 搞出 VGGT-Edit，120 倍加速太炸了

3D 世界 " 会看 " 了，但还不会 " 改 "。

从 NeRF 到 83D Gaussian Splatting，再到 VGGT、π 这类前馈式 3D 重建模型，整个行业的进展速度明显加快——只需几张图片，就能在几秒内重建完整 3D 场景。

但问题也恰恰出在这里。这些模型虽然已经能理解三维世界，却还不会修改三维世界。你可以让它重建一个房间，却很难真正告诉它：

把椅子移到窗边，删除中间那张椅子，把灰色皮沙发改成白色长毛沙发。

更麻烦的是，一旦涉及复杂编辑，现有方法往往迌速崩採——某些角度里椅子消失了，换个视角椅子又重新出现；明明没改的背景，却跟着一起变形。

为应对这一挑战，来自北京大学、香港中文大学、上海 AI Lab、NTU等机构的研究团队，提出了一套原生 3D 编辑框架：VGGT-Edit。

核心思路只有一句话——

不再绕回 2D，而是直接在 3D 空间里完成编辑。

在 DeltaScene 测试集上，VGGT-Edit 在语义一致性、多视角稳定性、推理速度三个维度均超过现有方法，单次编辑仅需约5 秒，最高实现120 倍加速。

问题其实一直出在在 2D

目前大多数编 3D 的方法，本质上仍然是 "2D 思维 " ——先把场景拆成多弤 2D 图片，逐张编辑，再重新拼回 3D。

但由于每个视角都是独立处理的，所以很容易出现：

一个视角里椅子已经删掉了；

换个角度椅子又重新出现；

背景区域跟着一起漂移；

物体边缘出现重影和闪烁。

△3D 编辑方法的比较

很多结果看起来更像 " 在不同角度硬 P 出来的图 "，而不是真正稳定的 3D 空间。

对于机器人、AR/VR、空间智能这些方向来说，这几乎是致命问题——这些场景真正需要的，不是 " 某一个角度看起来对 "，而是整个 3D 世界始终稳定一致。

原生 3D 编辑，开始从概念走向可用

VGGT-Edit 的核心思路非常直接：既然问题来自 2D，那就不要再绕回 2D。

整个框架建立在 VGGT-Like 前馈式重建模型之上，继承了其快速、高效的 3D 表示能力。但有意思的是，团队并没有选择重新生成整个场景，而是提出了一种非常巧妙的机制：

残差场预测（Residual Field Prediction）。

简单理解就是：模型先保留原始场景稳定的 3D 结构，然后只学习 " 哪里需要变化 "，例如：

椅子往右移动；

沙发材质发生变化；

删除某个物体；

新增一个家具。

这些变化，都被表示成了：新场景 = 原场景 + 局部残差变化

这个设计有个非常重要的好处——因为大部分区域本来就不需要变化，所以模型不用重新 " 生成整个世界 "，只需修改局部，结果就是没改动的背景区域会非常稳定。

这也是 VGGT-Edit 和很多现有方法最明显的区别之一。

文本语义，第一次真正开始 " 对齐 "3D 空间

研究团队发现，如果只是简单把一句文本输入模型，很容易出现一种情况——模型知道 " 你想改什么 "，但不知道 " 该改哪里 "。

为了解决这个问题，VGGT-Edit 设计了一套关键机制：

深度同步文本注入（Depth-Synchronized Text Injection）

本质上可以理解成让文本语义和 3D 空间特征，在同一个深度层级里持续同步。

传统方法通常只在前面注入一次文本信息，但 VGGT-Edit 会在多个关键层持续融合文本语义，这样模型在整个 3D 生成过程中，始终知道：

当前应该修改哪个区域；

修改目标是什么；

空间位置在哪里。

与此同时，团队还专门设计了一套 "视角重要性加权" ——因为并不是所有视角都同样可靠，有些角度可能被遁挡，有些视角只能看到半个物体。

VGGT-Edit 会自动判断哪个视角更值得信任，最终让多视角编辑结果更加稳定。

一个真正面向 "3D 编辑 " 的编辑头

除了整体框架之外，VGGT-Edit 还有一个非常关键的部分——专门面向 3D 编辑任务设计的编辑头。

研究团队发现，对于 VGGT-Like 模型来说，原本的重建 Head 更关注 " 如何恢复场景 "，但 3D 编辑真正需要解决的问题是：如何在保持整体稳定的情况下，只修改局部区域。

因此，VGGT-Edit 额外设计了一套编辑分支，专门预测场景中的局部变化。

这个编辑 Head 会直接作用于 3D 表示空间，并输出对应的残差场变化。本质上，它学习的是：

哪些区域应该保持不变；

哪些区域需要发生编辑；

编辑后如何保持多视角一致。

相比直接重新生成整个场景，这种方式更加稳定，也更加高效——这也是让 VGGT-Like 前馈重建模型具有编辑能力的关键一步。

一个 10 万规模的数据集，专门训练 "3D 编辑 "

为了训练 VGGT-Edit，团队专门构建了一个新 3D 编辑数据集DeltaScene，规模接近 10 万组，覆盖客厅、办公室、住宅、商业空间等多种场景。

△DeltaScene 数据集概述

更重要的是，整个数据生成流程高度自动化。

团队通过利用 Qwen3.5-Plus、SAM3、Qwen-Image-Editing-Max，自动完成编辑指令生成、目标识别、多视角编辑、3D 一致性过滤，最终得到真正满足 " 多视角几何一致 " 的训练数据。

△DeltaScene 数据构造流程

对于原生 3D 编辑来说，这一步非常关键——模型真正需要学习的，不只是 " 图像变化 "，而是同一个编辑，在不同视角下如何始终保持空间一致。

3D 编辑，第一次开始接近实时交互

从结果来看，这条路线确实有效。

在 DeltaScene 测试集上，VGGT-Edit 在语义一致性、多视角稳定性、推理速度三个维度都超过了现有方法。

尤其是在添加家具、调整位置、修改材质这些复杂任务中，很多传统方法仍然会出现明显的 " 贴图感 " 和几何漂移，但 VGGT-Edit 生成的结果，会明显更像一个真实稳定的 3D 空间。

△不同 3D 编辑任务的定性比较

更关键的是速度——论文中，VGGT-Edit 单次编辑只需约5 秒，相比很多需要长时间优化的传统方法，最高可实现120 倍加速。

这意味着编 3D 第一次真正开始接近实时交互。

对于机器人、数字孪生、AR/VR 等方向来说，这种变化非常重要——只有当编辑速度足够快，3D 世界才真正可能变成 " 可交互 " 的世界。

△在 DeltaScene 数据集上的定量结果模型开始真正理解 " 空间变化 "

论文里还有一个非常有意思的实验。研究人员输入了一条训练中从未出现过的指令—— " 将中间椅子顺时针旋转 90 度。"

结果模型依然成功完成了编辑。

△对未见过的指令进行泛化

这说明 VGGT-Edit 学到的，并不只是固定模板，它真正开始理解文本语义如何映射到 3D 空间变化。

而这件事，可能比 " 会生成 3D" 本身更重要。因为对于空间智能来说，未来真正关键的能力，也许不是 " 生成一个世界 "，而是能否像人一样，自由、稳定、实时地修改这个世界。

VGGT-Edit，正在把这件事往前推进一步。

论文链接：https://arxiv.org/abs/2605.15186

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘一名眼疾手快、关注 AI 的学术编辑实习生

感兴趣的小伙伴欢迎关注了解详情

点亮星标

科技前沿进展每日见

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

5 秒完成 3D 场景编辑，北大 & 港中文 & 上海 AI Lab 搞出 VGGT-Edit，120 倍加速太炸了

宙世代

一起剪

相关阅读

当AI成为你的“同事”，组织真的开始变了

美联航与Lyft洽谈企业差旅合作，拟打通空中+地面奖励闭环

最新评论

量子位

热门推荐

企业资讯