原文作者:公众号 " 集智实验室 "
原文链接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw
雷峰网转载

这背后是传统视觉模型的核心痛点——它们对物体的旋转、翻转等空间变换过于敏感。虽然旋转变换等变网络(Equivariant Networks)早在 CNN 时代就被提出,但当主流模型转向视觉 Transformer(ViT)时,实现这种 " 等变性 " 却变得异常棘手。因为 Transformer 赖以成名的 " 位置编码 ",恰恰成了破坏旋转对称性的元凶。
今天我们要深挖的这篇文章,提出了一种极简却极为优雅的方案——不需要复杂的位置编码,直接利用卷积投影和群自注意力机制,让 ViT 天然具备旋转反射等变性(Roto-reflection Equivariance)。这不仅砍掉了传统方法中繁琐的相对位置编码,还在多个数据集上碾压了前辈方法。让我们一探究竟。
核心痛点:位置编码的 " 紧箍咒 "
要理解这项工作的价值,我们得先回到 Transformer 的基本原理。自注意力机制(Self-Attention)本质上是 " 排列等变 " 的——它把输入 token 当成一个无序的集合。对于处理图像来说,这无异于灾难:模型会完全忽略像素的空间位置关系。
于是,位置编码(Position Encoding)应运而生。绝对位置编码给每个位置一个唯一 ID,但这破坏了平移等变性;相对位置编码(RPE)通过编码位置间的差异来保持平移等变,看似完美,却带来了计算复杂度的飙升——每一层、每个注意力头都要额外计算 RPE,让模型变得臃肿。
更棘手的是,为了在自注意力中引入旋转等变性,现有的群等变方法(如 G-SA)不得不进一步叠加复杂的旋转群编码和方向相关的 RPE 项:
这个公式背后,是每层大量的额外计算,让网络的训练和推理不堪重负。
那么问题来了:有没有可能,我们干脆扔掉位置编码,让模型自己 " 感受 " 到空间和旋转的结构? 这正是 REViT 的核心破局思路。
原理拆解:REViT 如何实现 " 无招胜有招 "?
REViT 的架构设计非常直观。我们先通过一张整体框架图来建立全局认知。

从图中可以清晰看到,REViT 的关键在于两个核心模块:Lifting 层和分组卷积自注意力(G-CSA)。它们共同让模型在没有任何显式位置编码的情况下,天然具备了旋转等变性。
? Lifting 层:从 2D 图像到 3D 群空间
Lifting 层的任务,是将一张普通的 2D 输入图像 " 提升 " 到一个更高维的表示空间,这个空间不仅包含空间位置信息,还显式编码了离散的方向(或旋转)通道。
想象一下,你拿到一张照片,然后用 Photoshop 生成了它的 4 个副本,分别旋转 0 °、90 °、180 °、270 °。你把它们叠在一起,形成一个 " 多通道 " 的立体表示。Lifting 层做的正是这件事,只不过它通过旋转卷积来完成。
对于输入图像 和一组可学习的卷积核 ,Lifting 操作定义为:
这里的关键在于 。我们不再用固定的卷积核,而是对每个离散旋转群元素 (比如 ),都应用一个预先旋转好的卷积核。这样一来,Lifting 层的输出不再是一个 2D 特征图,而是一个 3D 的张量:。其中第三个 " 深度 " 维度,就对应着不同的旋转方向。
这个操作自然地引入了离散旋转对称性——如果输入图像被旋转,那么 Lifting 层的输出只是在群维度上发生了循环位移,而不会破坏特征的数值分布。这正是等变性的基础。
? G-CSA:3D 群空间中的自注意力
如果说 Lifting 层完成了从平面到立体世界的跃迁,那么 G-CSA 模块则是在这个 3D 空间中执行自注意力,确保将等变性质传递到网络的每一层。
传统的卷积自注意力(如 CvT)在 2D 空间上,通过卷积投影生成 Query、Key 和 Value 序列,替代了线性投影。

REViT 的 G-CSA 则将这一思想推广到了 Lifting 后的 3D 空间。它通过3D 群等变卷积来计算 Q、K 和 V:
这里的 表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作,生成的 Q、K、V 本身也都是群等变的——输入被旋转,Q、K、V 也会跟着旋转。
接下来,G-CSA 的注意力计算在空间邻域和群结构上联合进行:
注意力权重 通过 Q 与 K 的点积计算 softmax 得到。与普通自注意力不同,这里的点积在所有空间位置 和所有群元素 上归一化。这意味着模型不仅关注 " 空间上哪里重要 ",还关注 " 在哪个旋转方向上重要 "。
论文中给出了严格的数学证明:对于任何群变换 ,G-CSA 满足 。通俗地说:先旋转输入再计算注意力,等同于先计算注意力再旋转输出。这正是等变性的核心定义。
这种设计如此优雅:它不需要任何位置编码,因为卷积操作天然捕获了局部空间结构,而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统,转动输入,所有中间表示都会同步转动,信息不会丢失或混淆。
? 为什么必须剔除位置编码?
这里有一个微妙但关键的点。可能你会问:如果位置编码能帮助模型感知空间结构,我们为什么不能保留它,同时再加入群等变设计?
答案隐藏在 Lifting 层引入的群维度中。一旦我们将输入提升到了 空间,我们处理的不再是 " 这个像素在 ( 50, 100 ) " 这样的绝对位置,而变成了 " 这个像素在旋转了 90 ° 后的 ( 25, 30 ) "。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码,反而会破坏 Lifting 层辛辛苦苦建立起来的群等变性。
而已经被证明会带来沉重计算负担的 RPE,其最初目的正是在自注意力中恢复平移等变性。REViT 通过转用卷积自注意力,天然内建了平移等变性,因此 RPE 变得多余。这真是一个一石二鸟的精巧设计。
实验验证:数据不会说谎
原理讲得再漂亮,最终还得用数据说话。让我们看看 REViT 在实际数据集上的表现。
? 决战 SOTA:碾压级性能优势
首先,我们将 G-CSA 与传统群等变自注意力 G-SA 进行直接对比。

从表 1 可以清晰看到,在 Rotated MNIST 和 PatchCamelyon 两个数据集上,G-CSA 在各个群结构(Z2, p4, p8, p4m)下均优于 G-SA。最重磅的是 PatchCamelyon 上的结果:G-CSA 只用了94.35K 参数,而 G-SA 需要205.66K,但准确率却实现了反超。这种参数效率的碾压,充分证明了卷积投影替代 RPE 在性能和效率上的双重胜利。
接下来,我们看看 REViT 相比传统群等变 CNN(G-CNN)的提升有多大。

图 1 用气泡图直观展现了 REViT 的统治力:在多个离散群下,REViT 在两个数据集上的准确率都占据了右上角的最优位置。
再看与群等变 CNN 基线的具体数据对比。

CSA 变体在所有三个数据集上全面优于对应 CNN 基线。p8-CSA 在 Rotated MNIST 上达到98.92%,比 p8-CNN 提升 0.42 个百分点;而 p4m-CSA 在 PatchCamelyon 上达到90.75%,反超 SOTA 方法 α _F-p4m-CNN 的 89.12%。这些数据表明,G-CSA 能稳定提升群等变网络的性能上限。
最残酷的对比来了:REViT vs 普通 ViT。

即使 vanilla ViT 使用了离散随机 45 ° 旋转和平移的数据增强,其准确率也仅为91.67%。而 REViT 的 p8CSA 达到98.03%,Z2CSA 达到95.97%,将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构,远比依赖数据增强去 " 学习不变性 " 更加有效和本质。
效率奇迹:砍掉一半运算量和内存
高性能常常以高开销为代价。但 REViT 反其道而行之。

在相同的 batch size 和输入图像下,G-CSA 的乘加运算量(Mul-Add)和峰值模型内存(Total Size)几乎是 G-SA with RPE 的一半甚至更低。例如,p8-CSA 的 Mul-Add 仅为15.98M,而 p8-SA 则需要48.32M。这种级别的效率提升,意味着在相同的硬件条件下,你可以训练更深的模型,或者处理更大分辨率的图像。这是 REViT 能够成功扩展到 ImageNet-1K 的硬件基础。
? 关键超参数消融:什么决定了性能上限?
G-CSA 有两个关键的超参数:群的阶数(即包含多少个离散旋转)和卷积核尺寸。它们如何影响最终性能?

实验发现,增加群阶数并不总是好事。从 p4 增至 p12,准确率从98.73%提升至99.01%;但继续增至 p16 时,准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转(如 22.5 °),双线性插值会引入近似误差,损害等变精度。
卷积核尺寸同样存在最优值。5 × 5 的核达到峰值98.73%。太小的核感受野受限,无法捕捉足够的邻域信息;太大的核可能破坏局部的平移等变性特性,并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。
? 等变性实证:严苛的数学检验
一个模型声称自己是 " 等变的 ",就必须接受严格的数学检验。作者通过等变误差(Equivariance Error)和预测一致性(Prediction Consistency)来量化这一点。

表 6 的结果令人信服:在 p4 和 p4m 群下,REViT 的 Lifting 层和 G-CSA 块后的等变误差低至 1e-5 到 1e-2 量级,与 G-CNN 持平,而 vanilla ViT 则高达 1e-1。这证明 REViT 的架构确实在执行严格的群等变。
对于包含 45 ° 旋转的 p8 群,等变误差略有上升。这并非架构缺陷,而是输入阶段的插值伪影在捣鬼。

图 4 清晰地解释了这一现象:90 ° 旋转与像素网格完美对齐,只需重排像素;但 45 ° 旋转却迫使像素点落在网格间隙,必须通过双线性插值来估算,从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限,而非 REViT 自身的设计问题。
在随机连续变换的泛化测试中,REViT 再次展现了非凡的鲁棒性。

面对训练时从未见过的任意角度连续旋转,REViT 的平均预测一致性高达96.99%,比普通 ViT 提升了11.61%,平均概率差异也大幅降低。这表明,从离散等变性中学习到的结构化对称性,能够很好地泛化到连续的变换空间。
? 扩展 ImageNet-1K:从玩具到工业级
最后,作者证明了 REViT 完全可以扩展到 ImageNet-1K 这样的工业级数据集。

REViT 以18M 参数取得了 79.27%的 Top-1 和94.45% 的 Top-5 准确率,完胜 RE-ResNet 的 77.37%(11M)和 ViT-S w/ aug 的 72.08%(22M)。这个结果的意义非凡:一个严格的等变架构,在没有额外数据增强,也没有预训练蒸馏的情况下,就在大规模数据集上击败了经过高度混合增强的非等变 Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。
客观评价与反思
尽管 REViT 表现惊艳,我们也必须正视其固有的局限。
计算与内存代价:群等变架构的计算和内存开销与底层群的阶数(元素数量)成比例。例如 p12 群包含 12 个变换,意味着理论上要比普通模型多处理 12 倍的特征映射。这导致推理延迟的增加,使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化 G-CSA 缓解了这个问题,但其根本性的开销结构并未改变。
高阶群的非理想等变性:如前所述,对于包含非网格对齐旋转的高阶群,插值伪影会在输入阶段就引入误差。虽然这并非 REViT 网络本身的设计失误,且误差依然保持在很低水平(10^-2),但对于追求理论完美等变性的场景,这仍是一个需要感知的因素。
未来方向:作者计划将 REViT 扩展到更大规模的 ViT 架构,以及将其作为预训练 Backbone 应用于方向性目标检测和图像分割。我个人也非常期待看到它在 3D 点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。
? 总结与行动号召
总的来说,REViT 这项工作给我们上了精彩一课:
巧妙的设计比复杂的公式更强大
通过用卷积投影替代位置编码,REViT 在简化实现的同时,实现了更强的等变性和更高的效率。
等变性不是玄学,而是可检验的工程目标
严格的等变误差和预测一致性分析,用数据证明了架构设计的有效性。
归纳偏置的价值在大规模数据下依然闪光
ImageNet 的实验证明,将已知的物理规律(旋转对称性)直接编码进模型,其收益甚至在充满混合增强的数据环境中依然显著。
深度思考:你正在从事的目标检测、医学影像或机器人视觉任务中,是否也存在类似 " 旋转让模型犯糊涂 " 的痛点?REViT 的设计思路,是否为你打开了一扇新的大门?欢迎在评论区分享你的见解和落地思考!
REViT: Roto-reflection Equivariant Convolutional Vision Transformer