您现在的位置:首页 >> 省钱攻略

Transformer已成新霸主?FAIR等重新设计稀卷积ConvNet,性能反超

发布时间:2025/11/22 12:17    来源:象山家居装修网

优化器、Mixup、Cutmix、RandAugment、随机写入(Random Erasing)等将近据增强系统设计,以及随机浅层和列于单光滑(Label Smoothing)等正则化建议书。这种简化的操练建议书将 ResNet-50 建模的耐用官能从 76.1% 上升到了 78.8%(+2.7%),这意味着传统 ConvNet 和美感 Transformer 中间不小一部分耐用官能相异可能会是操练技巧致使的。

整体建筑设计

该分析第二步分析了现阶段 Swin Transformer 的整体网路建筑设计。Swin Transformer 适用近似于线官能神经网路的多阶段官能建筑设计,每个阶段官能带有相异的特官能平面图清晰度。其中的两个最重要的建筑设计因素是阶段官能计算造出来比和中段框架。

一各个方面,ResNet 中的跨阶段官能计算造出来分布的值得注意建筑设计不小程度上是深受试验负面影响的。另一各个方面,Swin-T 遵循不尽相同的前提,但阶段官能计算造出来比略有相异。该分析将每个阶段官能的块将近从 ResNet-50 中的的 (3, 4, 6, 3) 调整为 (3, 3, 9, s3),使得 FLOPs 与 Swin-T 对齐。这将建模对照两组从 78.8% 上升到了 79.4%。

有时候,中段框架中的长期关注网路如何处理事件匹配平面图象。由于大自然平面图象中的固有的冗余官能,比如说框架在标准化 ConvNet 和美感 Transformer 中的努力地将匹配平面图象下调制到适当的特官能平面图凝小。标准化 ResNet 中的举例来说一个以此类推为 2 的 7×7 线官能层和一个最主要池中,这让匹配平面图象可进行时 4 倍下调制。而美感 Transformer 适用了「patchify」手段,Swin Transformer 虽然适用相近的「patchify」层,但适用不够小的 patch 凝小来适应框架的多阶段官能建筑设计。该分析将 ResNet 中段框架附加为适用 4×4、以此类推为 4 的线官能层协作的 patchify 层,对照两组从 79.4% 上升为 79.5%。这列于明 ResNet 的中段框架可以用不够最简单的 patchify 层替代。

ResNeXt-ify

第三步该分析更进一步过渡到 ResNeXt [82] 的思路,ResNeXt 比比如说的 ResNet 带有不够好的 FLOPs / 对照两组取舍。连锁反应心框架是分两组线官能,其中的线官能放大器被分为相异的两组。ResNeXt 的指导前提是「适用不够多的两组,遍及长三」。不够正确地说,ResNeXt 对经年累月块中的的 3×3 线官能层过渡到分两组线官能。由于突造出减缓了 FLOPs,因此这延展了网路长三以补偿容量大损失。

该分析适用分两组线官能的一种特殊情况——浅层线官能(depthwise convolution),其中的两组将近等于连通将近。浅层线官能已被 MobileNet [32] 和 Xception [9] 适用。分析者注意到,浅层线官能近似于自注意力中的的相加称臣配置,在每个连通的基础上进行时配置,即仅在三维空间等价上混搭信息。浅层线官能的适用有效地减缓了网路的 FLOPs。按照 ResNeXt 中的提造出的手段,该分析将网路长三上升到与 Swin-T 的连通将近不尽相同(从 64 上升到 96)。随着 FLOPs (5.3G) 的上升,网路耐用官能超造出了 80.5%。

正向经年累月

Transformer 中的一个最重要的建筑设计是创建了正向经年累月,即 MLP 块的隐藏等价比匹配等价长三四倍,如下平面图 4 简述。新奇的是,Transformer 的这种建筑设计与线官能神经网路中的适用的延展比为 4 的正向经年累月建筑设计有关联。

因此该分析第四步探讨了正向经年累月的建筑设计。如下平面图 3 简述,尽管浅层线官能层的 FLOPs 上升了,但由于下调制残差块的 shortcut 1×1 线官能层的 FLOPs 突造出减缓,整个网路的 FLOPs 减缓到 4.6G。新奇的是,这可能会会让耐用官能从 80.5% 稍稍上升至 80.6%。在 ResNet-200 / Swin-B 建议书中的,这一步造就了不够多的耐用官能上升——从 81.9% 上升到 82.6%,同时也减缓了 FLOPs。

线官能连锁反应凝小

第五步该分析探讨了大型线官能连锁反应的发挥作用。美感 Transformer 最突造出的特官能是其非大面积自注意力,每一层都带有一个系统感深受野。虽然已有线官能神经网路适用了大线官能连锁反应,但黄金标准化(VGGNet [62] )是堆叠小线官能连锁反应(3×3)的线官能层。尽管 Swin Transformer 再将大面积售票厅过渡到到自注意力块中的,但售票厅凝小至少为 7×7,值得注意等于 3×3 的 ResNe(X)t 线官能连锁反应凝小。因此该分析再探究了在线官能神经网路中的适用大线官能连锁反应的发挥作用。

顶端移动浅层线官能层。要探讨大线官能连锁反应,一个理应是顶端移动浅层线官能层的右方(如平面图 3(c) 简述)。相近地,Transformer 中的也将 MSA 块置于在 MLP 层以前。由于无论如何设立一个正向经年累月块,复杂、多余的模块(MSA、大线官能连锁反应)连通变少,而高效、密集的 1×1 层将进行时艰巨的文书工作。因此这个中的间必需将 FLOPs 减缓到 4.1G,致使耐用官能因故减缓到 79.9%。

增加线官能连锁反应。经过上述等待文书工作,过渡到不够大的线官能连锁反应是带有突造出战术上的。该分析更进一步了几种线官能连锁反应凝小:3、5、7、9、11。网路的耐用官能从 79.9% (3×3) 上升为 80.6% (7×7),而网路的 FLOPs 大致持续保持连续官能。

此外,分析者观察到较多的线官能连锁反应的好处是在 7×7 处可能会会超造出饱和点,并在大容量大建模中的证明了这种行为。当线官能连锁反应凝小极限过 7×7 时,ResNet-200 机制建模并未列于现造出必要官能的增益。因此该分析在每个块中的都适用了 7×7 浅层线官能。

从此以后,整体将近量级网路框架的换用调整无论如何进行时。

物理建筑设计

下一步分析者思考了一些物理将近量级上的框架相异——这里的多将近探讨都是在一般来说进行时的,中的长期是应答函将近和相乘层的具体内容选择。

用 GELU 替代 ReLU。随着时间的演进,分析者无论如何开发了许多应答函将近,但 ReLU 由于其最简单官能和精确官能,无论如何在 ConvNet 中的广泛适用。ReLU 也被做为值得注意 Transformer 中的的应答函将近。GELU 可以被看来是 ReLU 的不够光滑例外,被常用最高效率的 Transformer,除此以外 Google 的 BERT 和 OpenAI 的 GPT-2 ,以及 ViT 等。该分析断定 ReLU 在 ConvNet 中的也可以用 GELU 代替,对照两组持续保持连续官能(80.6%)。

相比之下的应答函将近。Transformer 和 ResNet 块中间的一个小相异是 Transformer 的应答函将近大多。如平面图 4 简述,该分析从残差块中的消除了所有 GELU 层,除了在两个 1×1 层中间的 GELU 层,这是拷贝了 Transformer 块的建筑风格。这个现实生活将结果上升了 0.7% 到 81.3%,其实与 Swin-T 耐用官能相比较。

相比之下的相乘层。Transformer 块有时候也带有大多的相乘层。在这里,该分析不够正了两个 BatchNorm (BN) 层,在 conv 1 × 1 层以前只留下来一个 BN 层。这必要官能将耐用官能上升至 81.4%,无论如何极限过了 Swin-T 的结果。都只,该分析的每个块的相乘层比 Transformer 还要少,分析人员断定在块的开头附加一个额外的 BN 层并不能上升耐用官能。

用 LN 代替 BN。BatchNorm(BN)是 ConvNet 中的的最重要两重要环节,因为它上升了收敛官能并减缓了过拟合。然而,BN 也有许多错综复杂的从前,可能会可能会会对建模的耐用官能产生危急负面影响 。分析者将近度更进一步开发替代建议书,但 BN 无论如何是大多将近美感勤务的首选方法。在值得注意 ResNet 中的直接用 LN 代替 BN 耐用官能欠佳。随着网路框架和操练系统设计的简化,该分析再探究适用 LN 代替 BN 的负面影响,得造出 ConvNet 建模在适用 LN 操练时并未任何困难;其实,耐用官能可能会会简化一些,取得了 81.5% 的对照两组。

分离式(Separate)下调制层。在 ResNet 中的,三维空间下调制是通过每个 stage 开始时的残差块来协作的,适用 stride =2 的 3×3 线官能。在 Swin Transformer 中的,在各个 stage 中间附加了一个分离式下调制层。该分析探讨了一种相近的手段,在该手段中的,分析者适用 stride =2 的 2×2 线官能层进行时三维空间下调制。引人难以置信的是,这种改变可能会会致使相异的操练结果。必要官能清查列于明,在三维空间清晰度发生变化的地方附加相乘层并能稳定操练。该分析可以将对照两组上升到 82.0%,大大极限过 Swin-T 的 81.3%。该分析过渡到分离式下调制层,取得了终究建模 ConvNeXt。ResNet、Swin 和 ConvNeXt 块骨架的相比较如平面图 4 简述。

ResNet-50、Swin-T 和 ConvNeXt-T 的详细框架法规的相比较如列于 9 简述。

试验

ImageNet 试验审计

该分析协作了相异的 ConvNeXt 例外,ConvNeXtT/S/B/L,与 Swin-T/S/B/L 带有相似的重复官能,可进行时对标试验审计。此外,该分析还协作了一个不够大的 ConvNeXt-XL 来必要官能次测试 ConvNeXt 的延展官能。相异例外建模的相异在于连通将近、模块将近,查看如下:

Results ImageNet-1K:下列于是 ConvNeXt 与 Transformer 例外 DeiT、Swin Transformer,以及 RegNets 和 EfficientNets 的结果相比较。

由结果可得:ConvNeXt 在对照两组 - 计算造出来取舍以及直觉运输量各个方面拿到了与 ConvNet 水平线(RegNet 和 EfficientNet )带有经济效益的结果;ConvNeXt 的耐用官能也全面优于带有相近重复官能的 Swin Transformer;与 Swin Transformers 来得,ConvNeXts 在并未诸如重复售票厅或来得右方也就是说等除此以外模块的情况下也带有很高的运输量。

ImageNet-22K:下列于(列于头参考上列于)中的展示出了从 ImageNet-22K 先为操练中的凝调的建模的结果。这些试验很最重要,因为人们普遍看来美感 Transformer 带有大多的归纳也就是说,因此在大规模先为操练时可以比 ConvNet 列于现不够好。该分析列于明,在适用大型将近据集进行时先为操练时,正确建筑设计的 ConvNet 并不逊于美感 Transformer——ConvNeXt 的耐用官能无论如何与相近凝小的 Swin Transformer 相比较或不够好,运输量略高。此外,该分析提造出的 ConvNeXt-XL 建模协作了 87.8% 的对照两组——在 384都只2 处比 ConvNeXt-L 有了相比较多的简化,显然 ConvNeXt 是可延展的框架。

Isotropic ConvNeXt 与 ViT 对比:在复元试验中的,分析者适用与 ViT-S/B/L (384/768/1024) 不尽相同的特官能尺寸协作 isotropic ConvNeXt-S/B/L。浅层设立为 18/18/36 以匹配示例和 FLOP 的将近量,块骨架持续保持连续官能(平面图 4)。ImageNet-1K 在 224都只2 清晰度下的结果如列于 2 简述。近期 ConvNeXt 的耐用官能与 ViT 相比较,这列于明 ConvNeXt 块建筑设计在常用非分层建模时仍带有经济效益。

河段勤务审计

在 COCO 上的能够探测和再分分析:该分析以 ConvNeXt 为中段,在 COCO 将近据集上凝调 Mask R-CNN 和 Cascade Mask R-CNN 。列于 3 相比较了 Swin Transformer、ConvNeXt 和传统 ConvNet(如 ResNeXt)在能够探测和示例再分上的结果。结果列于明在相异的建模重复官能中的,ConvNeXt 的耐用官能与 Swin Transformer 相比较或不够好。

基于 ADE20K 的语义再分:在列于 4 中的,该分析报告了带有多将近量级次测试的证明 mIoU。ConvNeXt 建模可以在相异的建模容量大上协作带有经济效益的耐用官能,必要官能证明了 ConvNeXt 建筑设计的精确官能。

泉州知名白癜风医院
福建治白癜风医院
泉州白癜风治疗医院
泉州白癜风治疗费用
泉州白癜风治疗方法有什么
针灸推拿
血栓
止咳糖浆饭前喝还是饭后喝
感冒四天后咳黄痰吃什么药
血液内科

上一篇: 北京朝阳区涉奥酒店无障碍设施改建工程已全部完成

下一篇: 阿里最新财报两部

友情链接