关于ZAKER Skills 合作
雷锋网 2小时前

这可能是这个 Transformer 时代,CNN 最后的体面

原文作者:公众号 " 集智实验室 "

原文链接:https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw

雷峰网转载

你是否有过这样的经历:在医疗影像分析中,仅仅因为细胞切片旋转了一个角度,AI 诊断模型就给出了截然不同的判断?在自动驾驶场景里,摄像头角度稍有倾斜,目标检测就开始漏检误报?

这背后是传统视觉模型的核心痛点——它们对物体的旋转、翻转等空间变换过于敏感。虽然旋转变换等变网络(Equivariant Networks)早在 CNN 时代就被提出,但当主流模型转向视觉 Transformer(ViT)时,实现这种 " 等变性 " 却变得异常棘手。因为 Transformer 赖以成名的 " 位置编码 ",恰恰成了破坏旋转对称性的元凶。

今天我们要深挖的这篇文章,提出了一种极简却极为优雅的方案——不需要复杂的位置编码,直接利用卷积投影和群自注意力机制,让 ViT 天然具备旋转反射等变性(Roto-reflection Equivariance)。这不仅砍掉了传统方法中繁琐的相对位置编码,还在多个数据集上碾压了前辈方法。让我们一探究竟。

核心痛点:位置编码的 " 紧箍咒 "

要理解这项工作的价值,我们得先回到 Transformer 的基本原理。自注意力机制(Self-Attention)本质上是 " 排列等变 " 的——它把输入 token 当成一个无序的集合。对于处理图像来说,这无异于灾难:模型会完全忽略像素的空间位置关系。

于是,位置编码(Position Encoding)应运而生。绝对位置编码给每个位置一个唯一 ID,但这破坏了平移等变性;相对位置编码(RPE)通过编码位置间的差异来保持平移等变,看似完美,却带来了计算复杂度的飙升——每一层、每个注意力头都要额外计算 RPE,让模型变得臃肿。

更棘手的是,为了在自注意力中引入旋转等变性,现有的群等变方法(如 G-SA)不得不进一步叠加复杂的旋转群编码和方向相关的 RPE 项:

这个公式背后,是每层大量的额外计算,让网络的训练和推理不堪重负。

那么问题来了:有没有可能,我们干脆扔掉位置编码,让模型自己 " 感受 " 到空间和旋转的结构? 这正是 REViT 的核心破局思路。

原理拆解:REViT 如何实现 " 无招胜有招 "?

REViT 的架构设计非常直观。我们先通过一张整体框架图来建立全局认知。

图 3:REViT 整体架构。 ( a ) 输入图像经过 Lifting 层提升到群表示空间,然后依次通过 L 个包含 Group Conv. Attention 的 Transformer Block; ( b ) 针对 p4 群(0 ° /90 ° /180 ° /270 °)的 Lifting 层详解; ( c ) 3D 群卷积自注意力机制,在空间和群维度上联合计算 Softmax 注意力。

从图中可以清晰看到,REViT 的关键在于两个核心模块:Lifting 层分组卷积自注意力(G-CSA)。它们共同让模型在没有任何显式位置编码的情况下,天然具备了旋转等变性。

? Lifting 层:从 2D 图像到 3D 群空间

Lifting 层的任务,是将一张普通的 2D 输入图像 " 提升 " 到一个更高维的表示空间,这个空间不仅包含空间位置信息,还显式编码了离散的方向(或旋转)通道。

想象一下,你拿到一张照片,然后用 Photoshop 生成了它的 4 个副本,分别旋转 0 °、90 °、180 °、270 °。你把它们叠在一起,形成一个 " 多通道 " 的立体表示。Lifting 层做的正是这件事,只不过它通过旋转卷积来完成。

对于输入图像 和一组可学习的卷积核 ,Lifting 操作定义为:

这里的关键在于 。我们不再用固定的卷积核,而是对每个离散旋转群元素 (比如 ),都应用一个预先旋转好的卷积核。这样一来,Lifting 层的输出不再是一个 2D 特征图,而是一个 3D 的张量:。其中第三个 " 深度 " 维度,就对应着不同的旋转方向。

这个操作自然地引入了离散旋转对称性——如果输入图像被旋转,那么 Lifting 层的输出只是在群维度上发生了循环位移,而不会破坏特征的数值分布。这正是等变性的基础。

? G-CSA:3D 群空间中的自注意力

如果说 Lifting 层完成了从平面到立体世界的跃迁,那么 G-CSA 模块则是在这个 3D 空间中执行自注意力,确保将等变性质传递到网络的每一层。

传统的卷积自注意力(如 CvT)在 2D 空间上,通过卷积投影生成 Query、Key 和 Value 序列,替代了线性投影。

图 2:基于卷积投影的 Q、K、V 生成机制。输入特征经滑动卷积核局部感知后,由三路并行的卷积投影分别提取特征,再展平得到 query、key 和 value,在自注意力中引入局部归纳偏置。

REViT 的 G-CSA 则将这一思想推广到了 Lifting 后的 3D 空间。它通过3D 群等变卷积来计算 Q、K 和 V:

这里的 表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作,生成的 Q、K、V 本身也都是群等变的——输入被旋转,Q、K、V 也会跟着旋转。

接下来,G-CSA 的注意力计算在空间邻域和群结构上联合进行:

注意力权重 通过 Q 与 K 的点积计算 softmax 得到。与普通自注意力不同,这里的点积在所有空间位置 和所有群元素 上归一化。这意味着模型不仅关注 " 空间上哪里重要 ",还关注 " 在哪个旋转方向上重要 "。

论文中给出了严格的数学证明:对于任何群变换 ,G-CSA 满足 。通俗地说:先旋转输入再计算注意力,等同于先计算注意力再旋转输出。这正是等变性的核心定义。

这种设计如此优雅:它不需要任何位置编码,因为卷积操作天然捕获了局部空间结构,而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统,转动输入,所有中间表示都会同步转动,信息不会丢失或混淆。

? 为什么必须剔除位置编码?

这里有一个微妙但关键的点。可能你会问:如果位置编码能帮助模型感知空间结构,我们为什么不能保留它,同时再加入群等变设计?

答案隐藏在 Lifting 层引入的群维度中。一旦我们将输入提升到了 空间,我们处理的不再是 " 这个像素在 ( 50, 100 ) " 这样的绝对位置,而变成了 " 这个像素在旋转了 90 ° 后的 ( 25, 30 ) "。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码,反而会破坏 Lifting 层辛辛苦苦建立起来的群等变性。

而已经被证明会带来沉重计算负担的 RPE,其最初目的正是在自注意力中恢复平移等变性。REViT 通过转用卷积自注意力,天然内建了平移等变性,因此 RPE 变得多余。这真是一个一石二鸟的精巧设计。

实验验证:数据不会说谎

原理讲得再漂亮,最终还得用数据说话。让我们看看 REViT 在实际数据集上的表现。

? 决战 SOTA:碾压级性能优势

首先,我们将 G-CSA 与传统群等变自注意力 G-SA 进行直接对比。

表 1:G-CSA 与 G-SA 在 Rotated MNIST 和 PatchCamelyon 上的性能对比。G-CSA 在 Rotated MNIST 上取得了全面领先,更关键的是在 PatchCamelyon 上用不到一半的参数 ( 94.35K vs 205.66K ) 实现了大幅性能反超。

从表 1 可以清晰看到,在 Rotated MNIST 和 PatchCamelyon 两个数据集上,G-CSA 在各个群结构(Z2, p4, p8, p4m)下均优于 G-SA。最重磅的是 PatchCamelyon 上的结果:G-CSA 只用了94.35K 参数,而 G-SA 需要205.66K,但准确率却实现了反超。这种参数效率的碾压,充分证明了卷积投影替代 RPE 在性能和效率上的双重胜利。

接下来,我们看看 REViT 相比传统群等变 CNN(G-CNN)的提升有多大。

图 1:REViT 与现有群等变方法的气泡图对比。横纵轴为 Rotated MNIST 和 PatchCamelyon 的准确率。REViT(蓝色)在多个群结构下均占据右上角最优区域,性能全面领先于 G-SA(红色)、G-CNN(黄色)与 α -G-CNN(绿色)。

图 1 用气泡图直观展现了 REViT 的统治力:在多个离散群下,REViT 在两个数据集上的准确率都占据了右上角的最优位置。

再看与群等变 CNN 基线的具体数据对比。

表 3:CSA 变体与群等变 CNN 的性能比较。在 Rotated MNIST、CIFAR-10 和 PatchCamelyon 上,CSA 变体全面优于对应的 G-CNN 基线模型。p8-CSA 在 Rotated MNIST 上达到 98.92%,p4m-CSA 在 CIFAR-10 上达到 92.68%,改进效果稳健。

CSA 变体在所有三个数据集上全面优于对应 CNN 基线。p8-CSA 在 Rotated MNIST 上达到98.92%,比 p8-CNN 提升 0.42 个百分点;而 p4m-CSA 在 PatchCamelyon 上达到90.75%,反超 SOTA 方法 α _F-p4m-CNN 的 89.12%。这些数据表明,G-CSA 能稳定提升群等变网络的性能上限。

最残酷的对比来了:REViT vs 普通 ViT。

表 4:REViT 与 vanilla ViT、CvT 在 Rotated MNIST 上的对比。vanilla ViT 即使使用随机旋转 + 平移数据增强,准确率也只有 91.67%,而 REViT 的 p8CSA 达到 98.03%,Z2CSA 也达到 95.97%,差距极为悬殊。

即使 vanilla ViT 使用了离散随机 45 ° 旋转和平移的数据增强,其准确率也仅为91.67%。而 REViT 的 p8CSA 达到98.03%,Z2CSA 达到95.97%,将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构,远比依赖数据增强去 " 学习不变性 " 更加有效和本质。

效率奇迹:砍掉一半运算量和内存

高性能常常以高开销为代价。但 REViT 反其道而行之。

表 2:G-CSA 与 G-SA w/ RPE 的效率对比。在相同骨干网络和输入规模下,G-CSA 的乘加运算量和内存占用约为 G-SA 的一半甚至更低,p8-CSA 的 Mul-Add 仅为 15.98M,而 p8-SA 高达 48.32M。

在相同的 batch size 和输入图像下,G-CSA 的乘加运算量(Mul-Add)和峰值模型内存(Total Size)几乎是 G-SA with RPE 的一半甚至更低。例如,p8-CSA 的 Mul-Add 仅为15.98M,而 p8-SA 则需要48.32M。这种级别的效率提升,意味着在相同的硬件条件下,你可以训练更深的模型,或者处理更大分辨率的图像。这是 REViT 能够成功扩展到 ImageNet-1K 的硬件基础。

? 关键超参数消融:什么决定了性能上限?

G-CSA 有两个关键的超参数:群的阶数(即包含多少个离散旋转)和卷积核尺寸。它们如何影响最终性能?

表 5:G-CSA 的消融实验。 ( a ) 群阶数由 p4 增至 p12 时准确率从 98.73% 升至 99.01%,继续增大至 p16 则下降,显示并非越大越好; ( b ) 卷积核 5 × 5 达到峰值 98.73%,过大或过小均导致精度损失。

实验发现,增加群阶数并不总是好事。从 p4 增至 p12,准确率从98.73%提升至99.01%;但继续增至 p16 时,准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转(如 22.5 °),双线性插值会引入近似误差,损害等变精度。

卷积核尺寸同样存在最优值。5 × 5 的核达到峰值98.73%。太小的核感受野受限,无法捕捉足够的邻域信息;太大的核可能破坏局部的平移等变性特性,并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。

? 等变性实证:严苛的数学检验

一个模型声称自己是 " 等变的 ",就必须接受严格的数学检验。作者通过等变误差(Equivariance Error)和预测一致性(Prediction Consistency)来量化这一点。

表 6:G-CSA 的等变误差。在 p4、p4m 群下,REViT 的等变误差极低(约 1e-5 至 1e-2),与 G-CNN 处于同一量级,显著优于 vanilla ViT(约 1e-1),证实了其架构的严格等变性。

表 6 的结果令人信服:在 p4 和 p4m 群下,REViT 的 Lifting 层和 G-CSA 块后的等变误差低至 1e-5 到 1e-2 量级,与 G-CNN 持平,而 vanilla ViT 则高达 1e-1。这证明 REViT 的架构确实在执行严格的群等变。

对于包含 45 ° 旋转的 p8 群,等变误差略有上升。这并非架构缺陷,而是输入阶段的插值伪影在捣鬼。

图 4:离散旋转下的插值近似误差。90 ° 旋转因像素与网格精确对齐而保持数值精度;45 ° 旋转则导致像素落入网格间隙,双线性插值引入混合数值和伪影,成为提升等变误差 ( p8 ) 的根源。

图 4 清晰地解释了这一现象:90 ° 旋转与像素网格完美对齐,只需重排像素;但 45 ° 旋转却迫使像素点落在网格间隙,必须通过双线性插值来估算,从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限,而非 REViT 自身的设计问题。

在随机连续变换的泛化测试中,REViT 再次展现了非凡的鲁棒性。

表 11:REViT 与 vanilla ViT 在随机变换下的泛化对比。REViT 总体预测一致性达 96.99%,相比 ViT 提升 11.61%;平均概率差异也大幅降低,表明其对训练群外的连续变换仍保持高度预测稳定性。

面对训练时从未见过的任意角度连续旋转,REViT 的平均预测一致性高达96.99%,比普通 ViT 提升了11.61%,平均概率差异也大幅降低。这表明,从离散等变性中学习到的结构化对称性,能够很好地泛化到连续的变换空间。

? 扩展 ImageNet-1K:从玩具到工业级

最后,作者证明了 REViT 完全可以扩展到 ImageNet-1K 这样的工业级数据集。

表 7:REViT 在 ImageNet-1K 上的性能。以 18M 参数量取得 79.27% Top-1 和 94.45% Top-5 准确率,显著优于 RE-ResNet ( 77.37%/11M ) 和 ViT-S w/ aug ( 72.08%/22M ) ,达到了精度与效率的优秀平衡。

REViT 以18M 参数取得了 79.27%的 Top-1 和94.45% 的 Top-5 准确率,完胜 RE-ResNet 的 77.37%(11M)和 ViT-S w/ aug 的 72.08%(22M)。这个结果的意义非凡:一个严格的等变架构,在没有额外数据增强,也没有预训练蒸馏的情况下,就在大规模数据集上击败了经过高度混合增强的非等变 Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。

客观评价与反思

尽管 REViT 表现惊艳,我们也必须正视其固有的局限。

计算与内存代价:群等变架构的计算和内存开销与底层群的阶数(元素数量)成比例。例如 p12 群包含 12 个变换,意味着理论上要比普通模型多处理 12 倍的特征映射。这导致推理延迟的增加,使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化 G-CSA 缓解了这个问题,但其根本性的开销结构并未改变。

高阶群的非理想等变性:如前所述,对于包含非网格对齐旋转的高阶群,插值伪影会在输入阶段就引入误差。虽然这并非 REViT 网络本身的设计失误,且误差依然保持在很低水平(10^-2),但对于追求理论完美等变性的场景,这仍是一个需要感知的因素。

未来方向:作者计划将 REViT 扩展到更大规模的 ViT 架构,以及将其作为预训练 Backbone 应用于方向性目标检测和图像分割。我个人也非常期待看到它在 3D 点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。

? 总结与行动号召

总的来说,REViT 这项工作给我们上了精彩一课:

巧妙的设计比复杂的公式更强大

通过用卷积投影替代位置编码,REViT 在简化实现的同时,实现了更强的等变性和更高的效率。

等变性不是玄学,而是可检验的工程目标

严格的等变误差和预测一致性分析,用数据证明了架构设计的有效性。

归纳偏置的价值在大规模数据下依然闪光

ImageNet 的实验证明,将已知的物理规律(旋转对称性)直接编码进模型,其收益甚至在充满混合增强的数据环境中依然显著。

深度思考:你正在从事的目标检测、医学影像或机器人视觉任务中,是否也存在类似 " 旋转让模型犯糊涂 " 的痛点?REViT 的设计思路,是否为你打开了一扇新的大门?欢迎在评论区分享你的见解和落地思考!

REViT: Roto-reflection Equivariant Convolutional Vision Transformer

相关阅读

最新评论

没有更多评论了
雷峰网

雷峰网

读懂智能&未来

订阅

觉得文章不错,微信扫描分享好友

扫码分享

企业资讯

查看更多内容