这可能是这个 Transformer 时代，CNN 最后的体面

原文作者：公众号 " 集智实验室 "

原文链接：https://mp.weixin.qq.com/s/A55BBhD3e_s3VVC7mw1JNw

雷峰网转载

你是否有过这样的经历：在医疗影像分析中，仅仅因为细胞切片旋转了一个角度，AI 诊断模型就给出了截然不同的判断？在自动驾驶场景里，摄像头角度稍有倾斜，目标检测就开始漏检误报？

这背后是传统视觉模型的核心痛点——它们对物体的旋转、翻转等空间变换过于敏感。虽然旋转变换等变网络（Equivariant Networks）早在 CNN 时代就被提出，但当主流模型转向视觉 Transformer（ViT）时，实现这种 " 等变性 " 却变得异常棘手。因为 Transformer 赖以成名的 " 位置编码 "，恰恰成了破坏旋转对称性的元凶。

今天我们要深挖的这篇文章，提出了一种极简却极为优雅的方案——不需要复杂的位置编码，直接利用卷积投影和群自注意力机制，让 ViT 天然具备旋转反射等变性（Roto-reflection Equivariance）。这不仅砍掉了传统方法中繁琐的相对位置编码，还在多个数据集上碾压了前辈方法。让我们一探究竟。

核心痛点：位置编码的 " 紧箍咒 "

要理解这项工作的价值，我们得先回到 Transformer 的基本原理。自注意力机制（Self-Attention）本质上是 " 排列等变 " 的——它把输入 token 当成一个无序的集合。对于处理图像来说，这无异于灾难：模型会完全忽略像素的空间位置关系。

于是，位置编码（Position Encoding）应运而生。绝对位置编码给每个位置一个唯一 ID，但这破坏了平移等变性；相对位置编码（RPE）通过编码位置间的差异来保持平移等变，看似完美，却带来了计算复杂度的飙升——每一层、每个注意力头都要额外计算 RPE，让模型变得臃肿。

更棘手的是，为了在自注意力中引入旋转等变性，现有的群等变方法（如 G-SA）不得不进一步叠加复杂的旋转群编码和方向相关的 RPE 项：

这个公式背后，是每层大量的额外计算，让网络的训练和推理不堪重负。

那么问题来了：有没有可能，我们干脆扔掉位置编码，让模型自己 " 感受 " 到空间和旋转的结构？ 这正是 REViT 的核心破局思路。

原理拆解：REViT 如何实现 " 无招胜有招 "？

REViT 的架构设计非常直观。我们先通过一张整体框架图来建立全局认知。

图 3：REViT 整体架构。 ( a ) 输入图像经过 Lifting 层提升到群表示空间，然后依次通过 L 个包含 Group Conv. Attention 的 Transformer Block； ( b ) 针对 p4 群（0 ° /90 ° /180 ° /270 °）的 Lifting 层详解； ( c ) 3D 群卷积自注意力机制，在空间和群维度上联合计算 Softmax 注意力。

从图中可以清晰看到，REViT 的关键在于两个核心模块：Lifting 层和分组卷积自注意力（G-CSA）。它们共同让模型在没有任何显式位置编码的情况下，天然具备了旋转等变性。

? Lifting 层：从 2D 图像到 3D 群空间

Lifting 层的任务，是将一张普通的 2D 输入图像 " 提升 " 到一个更高维的表示空间，这个空间不仅包含空间位置信息，还显式编码了离散的方向（或旋转）通道。

想象一下，你拿到一张照片，然后用 Photoshop 生成了它的 4 个副本，分别旋转 0 °、90 °、180 °、270 °。你把它们叠在一起，形成一个 " 多通道 " 的立体表示。Lifting 层做的正是这件事，只不过它通过旋转卷积来完成。

对于输入图像和一组可学习的卷积核，Lifting 操作定义为：

这里的关键在于。我们不再用固定的卷积核，而是对每个离散旋转群元素（比如），都应用一个预先旋转好的卷积核。这样一来，Lifting 层的输出不再是一个 2D 特征图，而是一个 3D 的张量：。其中第三个 " 深度 " 维度，就对应着不同的旋转方向。

这个操作自然地引入了离散旋转对称性——如果输入图像被旋转，那么 Lifting 层的输出只是在群维度上发生了循环位移，而不会破坏特征的数值分布。这正是等变性的基础。

? G-CSA：3D 群空间中的自注意力

如果说 Lifting 层完成了从平面到立体世界的跃迁，那么 G-CSA 模块则是在这个 3D 空间中执行自注意力，确保将等变性质传递到网络的每一层。

传统的卷积自注意力（如 CvT）在 2D 空间上，通过卷积投影生成 Query、Key 和 Value 序列，替代了线性投影。

图 2：基于卷积投影的 Q、K、V 生成机制。输入特征经滑动卷积核局部感知后，由三路并行的卷积投影分别提取特征，再展平得到 query、key 和 value，在自注意力中引入局部归纳偏置。

REViT 的 G-CSA 则将这一思想推广到了 Lifting 后的 3D 空间。它通过3D 群等变卷积来计算 Q、K 和 V：

这里的表示群等变卷积。由于我们在空间维度和群维度上同时执行卷积操作，生成的 Q、K、V 本身也都是群等变的——输入被旋转，Q、K、V 也会跟着旋转。

接下来，G-CSA 的注意力计算在空间邻域和群结构上联合进行：

注意力权重通过 Q 与 K 的点积计算 softmax 得到。与普通自注意力不同，这里的点积在所有空间位置和所有群元素上归一化。这意味着模型不仅关注 " 空间上哪里重要 "，还关注 " 在哪个旋转方向上重要 "。

论文中给出了严格的数学证明：对于任何群变换，G-CSA 满足。通俗地说：先旋转输入再计算注意力，等同于先计算注意力再旋转输出。这正是等变性的核心定义。

这种设计如此优雅：它不需要任何位置编码，因为卷积操作天然捕获了局部空间结构，而群卷积则将这种结构感知能力扩展到了旋转维度。整个网络就像一个精密的齿轮系统，转动输入，所有中间表示都会同步转动，信息不会丢失或混淆。

? 为什么必须剔除位置编码？

这里有一个微妙但关键的点。可能你会问：如果位置编码能帮助模型感知空间结构，我们为什么不能保留它，同时再加入群等变设计？

答案隐藏在 Lifting 层引入的群维度中。一旦我们将输入提升到了空间，我们处理的不再是 " 这个像素在 ( 50, 100 ) " 这样的绝对位置，而变成了 " 这个像素在旋转了 90 ° 后的 ( 25, 30 ) "。标准的位置编码无法编码这种群变换下的相对关系。强行添加绝对位置编码，反而会破坏 Lifting 层辛辛苦苦建立起来的群等变性。

而已经被证明会带来沉重计算负担的 RPE，其最初目的正是在自注意力中恢复平移等变性。REViT 通过转用卷积自注意力，天然内建了平移等变性，因此 RPE 变得多余。这真是一个一石二鸟的精巧设计。

实验验证：数据不会说谎

原理讲得再漂亮，最终还得用数据说话。让我们看看 REViT 在实际数据集上的表现。

? 决战 SOTA：碾压级性能优势

首先，我们将 G-CSA 与传统群等变自注意力 G-SA 进行直接对比。

表 1：G-CSA 与 G-SA 在 Rotated MNIST 和 PatchCamelyon 上的性能对比。G-CSA 在 Rotated MNIST 上取得了全面领先，更关键的是在 PatchCamelyon 上用不到一半的参数 ( 94.35K vs 205.66K ) 实现了大幅性能反超。

从表 1 可以清晰看到，在 Rotated MNIST 和 PatchCamelyon 两个数据集上，G-CSA 在各个群结构（Z2, p4, p8, p4m）下均优于 G-SA。最重磅的是 PatchCamelyon 上的结果：G-CSA 只用了94.35K 参数，而 G-SA 需要205.66K，但准确率却实现了反超。这种参数效率的碾压，充分证明了卷积投影替代 RPE 在性能和效率上的双重胜利。

接下来，我们看看 REViT 相比传统群等变 CNN（G-CNN）的提升有多大。

图 1：REViT 与现有群等变方法的气泡图对比。横纵轴为 Rotated MNIST 和 PatchCamelyon 的准确率。REViT（蓝色）在多个群结构下均占据右上角最优区域，性能全面领先于 G-SA（红色）、G-CNN（黄色）与 α -G-CNN（绿色）。

图 1 用气泡图直观展现了 REViT 的统治力：在多个离散群下，REViT 在两个数据集上的准确率都占据了右上角的最优位置。

再看与群等变 CNN 基线的具体数据对比。

表 3：CSA 变体与群等变 CNN 的性能比较。在 Rotated MNIST、CIFAR-10 和 PatchCamelyon 上，CSA 变体全面优于对应的 G-CNN 基线模型。p8-CSA 在 Rotated MNIST 上达到 98.92%，p4m-CSA 在 CIFAR-10 上达到 92.68%，改进效果稳健。

CSA 变体在所有三个数据集上全面优于对应 CNN 基线。p8-CSA 在 Rotated MNIST 上达到98.92%，比 p8-CNN 提升 0.42 个百分点；而 p4m-CSA 在 PatchCamelyon 上达到90.75%，反超 SOTA 方法 α _F-p4m-CNN 的 89.12%。这些数据表明，G-CSA 能稳定提升群等变网络的性能上限。

最残酷的对比来了：REViT vs 普通 ViT。

表 4：REViT 与 vanilla ViT、CvT 在 Rotated MNIST 上的对比。vanilla ViT 即使使用随机旋转 + 平移数据增强，准确率也只有 91.67%，而 REViT 的 p8CSA 达到 98.03%，Z2CSA 也达到 95.97%，差距极为悬殊。

即使 vanilla ViT 使用了离散随机 45 ° 旋转和平移的数据增强，其准确率也仅为91.67%。而 REViT 的 p8CSA 达到98.03%，Z2CSA 达到95.97%，将数据增强的非等变模型远远甩在身后。这再次说明了将对称性直接编码进架构，远比依赖数据增强去 " 学习不变性 " 更加有效和本质。

效率奇迹：砍掉一半运算量和内存

高性能常常以高开销为代价。但 REViT 反其道而行之。

表 2：G-CSA 与 G-SA w/ RPE 的效率对比。在相同骨干网络和输入规模下，G-CSA 的乘加运算量和内存占用约为 G-SA 的一半甚至更低，p8-CSA 的 Mul-Add 仅为 15.98M，而 p8-SA 高达 48.32M。

在相同的 batch size 和输入图像下，G-CSA 的乘加运算量（Mul-Add）和峰值模型内存（Total Size）几乎是 G-SA with RPE 的一半甚至更低。例如，p8-CSA 的 Mul-Add 仅为15.98M，而 p8-SA 则需要48.32M。这种级别的效率提升，意味着在相同的硬件条件下，你可以训练更深的模型，或者处理更大分辨率的图像。这是 REViT 能够成功扩展到 ImageNet-1K 的硬件基础。

? 关键超参数消融：什么决定了性能上限？

G-CSA 有两个关键的超参数：群的阶数（即包含多少个离散旋转）和卷积核尺寸。它们如何影响最终性能？

表 5：G-CSA 的消融实验。 ( a ) 群阶数由 p4 增至 p12 时准确率从 98.73% 升至 99.01%，继续增大至 p16 则下降，显示并非越大越好； ( b ) 卷积核 5 × 5 达到峰值 98.73%，过大或过小均导致精度损失。

实验发现，增加群阶数并不总是好事。从 p4 增至 p12，准确率从98.73%提升至99.01%；但继续增至 p16 时，准确率反而下降。这是因为更高阶的群包含非网格对齐的旋转（如 22.5 °），双线性插值会引入近似误差，损害等变精度。

卷积核尺寸同样存在最优值。5 × 5 的核达到峰值98.73%。太小的核感受野受限，无法捕捉足够的邻域信息；太大的核可能破坏局部的平移等变性特性，并带来过拟合风险。这些消融实验为实际应用中的模型调优提供了明确指导。

? 等变性实证：严苛的数学检验

一个模型声称自己是 " 等变的 "，就必须接受严格的数学检验。作者通过等变误差（Equivariance Error）和预测一致性（Prediction Consistency）来量化这一点。

表 6：G-CSA 的等变误差。在 p4、p4m 群下，REViT 的等变误差极低（约 1e-5 至 1e-2），与 G-CNN 处于同一量级，显著优于 vanilla ViT（约 1e-1），证实了其架构的严格等变性。

表 6 的结果令人信服：在 p4 和 p4m 群下，REViT 的 Lifting 层和 G-CSA 块后的等变误差低至 1e-5 到 1e-2 量级，与 G-CNN 持平，而 vanilla ViT 则高达 1e-1。这证明 REViT 的架构确实在执行严格的群等变。

对于包含 45 ° 旋转的 p8 群，等变误差略有上升。这并非架构缺陷，而是输入阶段的插值伪影在捣鬼。

图 4：离散旋转下的插值近似误差。90 ° 旋转因像素与网格精确对齐而保持数值精度；45 ° 旋转则导致像素落入网格间隙，双线性插值引入混合数值和伪影，成为提升等变误差 ( p8 ) 的根源。

图 4 清晰地解释了这一现象：90 ° 旋转与像素网格完美对齐，只需重排像素；但 45 ° 旋转却迫使像素点落在网格间隙，必须通过双线性插值来估算，从而引入了无法完全消除的近似误差。这是一个预处理器层面的固有局限，而非 REViT 自身的设计问题。

在随机连续变换的泛化测试中，REViT 再次展现了非凡的鲁棒性。

表 11：REViT 与 vanilla ViT 在随机变换下的泛化对比。REViT 总体预测一致性达 96.99%，相比 ViT 提升 11.61%；平均概率差异也大幅降低，表明其对训练群外的连续变换仍保持高度预测稳定性。

面对训练时从未见过的任意角度连续旋转，REViT 的平均预测一致性高达96.99%，比普通 ViT 提升了11.61%，平均概率差异也大幅降低。这表明，从离散等变性中学习到的结构化对称性，能够很好地泛化到连续的变换空间。

? 扩展 ImageNet-1K：从玩具到工业级

最后，作者证明了 REViT 完全可以扩展到 ImageNet-1K 这样的工业级数据集。

表 7：REViT 在 ImageNet-1K 上的性能。以 18M 参数量取得 79.27% Top-1 和 94.45% Top-5 准确率，显著优于 RE-ResNet ( 77.37%/11M ) 和 ViT-S w/ aug ( 72.08%/22M ) ，达到了精度与效率的优秀平衡。

REViT 以18M 参数取得了 79.27%的 Top-1 和94.45% 的 Top-5 准确率，完胜 RE-ResNet 的 77.37%（11M）和 ViT-S w/ aug 的 72.08%（22M）。这个结果的意义非凡：一个严格的等变架构，在没有额外数据增强，也没有预训练蒸馏的情况下，就在大规模数据集上击败了经过高度混合增强的非等变 Transformer。这充分展示了将几何对称性作为归纳偏置的巨大潜力。

客观评价与反思

尽管 REViT 表现惊艳，我们也必须正视其固有的局限。

计算与内存代价：群等变架构的计算和内存开销与底层群的阶数（元素数量）成比例。例如 p12 群包含 12 个变换，意味着理论上要比普通模型多处理 12 倍的特征映射。这导致推理延迟的增加，使其在资源极度受限或延迟极度敏感的场景下部署依然面临挑战。虽然作者通过窗口化 G-CSA 缓解了这个问题，但其根本性的开销结构并未改变。

高阶群的非理想等变性：如前所述，对于包含非网格对齐旋转的高阶群，插值伪影会在输入阶段就引入误差。虽然这并非 REViT 网络本身的设计失误，且误差依然保持在很低水平（10^-2），但对于追求理论完美等变性的场景，这仍是一个需要感知的因素。

未来方向：作者计划将 REViT 扩展到更大规模的 ViT 架构，以及将其作为预训练 Backbone 应用于方向性目标检测和图像分割。我个人也非常期待看到它在 3D 点云处理、分子结构预测等更广泛的几何深度学习任务中的表现。

? 总结与行动号召

总的来说，REViT 这项工作给我们上了精彩一课：

巧妙的设计比复杂的公式更强大

通过用卷积投影替代位置编码，REViT 在简化实现的同时，实现了更强的等变性和更高的效率。

等变性不是玄学，而是可检验的工程目标

严格的等变误差和预测一致性分析，用数据证明了架构设计的有效性。

归纳偏置的价值在大规模数据下依然闪光

ImageNet 的实验证明，将已知的物理规律（旋转对称性）直接编码进模型，其收益甚至在充满混合增强的数据环境中依然显著。

深度思考：你正在从事的目标检测、医学影像或机器人视觉任务中，是否也存在类似 " 旋转让模型犯糊涂 " 的痛点？REViT 的设计思路，是否为你打开了一扇新的大门？欢迎在评论区分享你的见解和落地思考！

REViT: Roto-reflection Equivariant Convolutional Vision Transformer

宙世代元宇宙

元宇宙党建解决方案

元宇宙文旅解决方案

元宇宙展厅解决方案

元宇宙行业峰会解决方案

元宇宙营销解决方案

元宇宙会展解决方案

元宇宙演艺节目解决方案

元宇宙博物馆解决方案

元宇宙图书馆解决方案

元宇宙校园解决方案

元宇宙企业展厅解决方案

元宇宙艺术展解决方案

元宇宙电商解决方案

融媒体解决方案

ZAKER智慧云

媒体解决方案

党建解决方案

公检法解决方案

智慧交通解决方案

高校解决方案

AI视频

AI视频剪辑

视频定制服务

AI智能客服

我的订阅

这可能是这个 Transformer 时代，CNN 最后的体面

宙世代

一起剪

相关阅读

尚界H5辅助驾驶数据公布：累计行驶突破1.22亿公里

DeepSeek 告别小而美：500亿融资到手后，先招一倍的人

苹果印度代工厂遭黑客入侵 海量新机机密文件流入暗网

苹果中国正式涨价20% 细节一览：笔记本、平板最高涨3000和1800元

美光因炸裂财报“急速升咖”？瑞穗：已是全球最重要的三大股票之一！

抢占下一代算力制高点！美国计划2028年造出顶尖量子计算机

中国超算时隔九年重回世界第一！灵晟总设计师回应为何选择纯CPU架构

大厂终于不再逼用户“用AI”了

全国运营商首个！华为联合湖北移动完成AI推理加速现网测试：Token吞吐率大增372%

内存价格飙升！微软扛不住了：Xbox主机全球涨价 1TB版暴涨1019元

微软和苹果双双提价 霍尔木兹海峡通航量恢复至战事前57%

台积电计划2026年至2028年N2/A16先进工艺产能年复合增速达70%

日本战平出线、荷兰头名晋级：AI分歧与共识，在F组同一天上演

对话TCL李东生：AI应用“双线布局” 必须看到实际效益

AI生成的图片正在反向对齐人类的审美？ICML 2026观点论文Spotlight

最新评论

雷峰网

热门推荐

企业资讯

苹果印度代工厂遭黑客入侵海量新机机密文件流入暗网

微软和苹果双双提价霍尔木兹海峡通航量恢复至战事前57%