让建站和SEO变得简单

让不懂建站的用户快速建站,让会建站的提高建站效率!

注册绑卡即送58彩金每个阶段输出不同分离率的y想想

发布日期:2023-03-16 10:17    点击次数:144

注册绑卡即送58彩金每个阶段输出不同分离率的y想想

注册绑卡即送58彩金

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请相关出处。

 注册绑卡即送58彩金畴前一年,Transformer时常跨界视觉范围,大有抢CNN饭碗之势。

先是图像分类上被谷歌ViT艰涩,自后讨论检测和图像分割又被微软Swin Transformer拿下。

跟着投身视觉Transformer筹商的学者越来越多,三大任务榜单齐被Transformer或两种架构集合的模子占据头部。

但就在此时,一篇《2020年代的卷积网罗》横空出世,带来全新纯卷积模子ConvNeXt,一下又吵杂起来——

全天下CV圈再次掀翻模子架构之争,LeCun等一众顶级学者都下场批驳的那种。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

论文指出,ConvNeXt性能反超同等限制的Swin Transformer,在ImageNet-1k上超事后者0.7%。

COCO、ADE20K上,ConvNeXt也作念到同等限制更好或相配水平。

濒临这篇由Facebook与UC伯克利联手打造的论文,深度学习三巨头之一的LeCun直言:

卷积模子与视觉Transformer间的争论愈演愈烈了!

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

GitHub上,ConvNeXt通顺多天排在趋势榜第一。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

在国内,如斯垂直的学术问题以至一度登上知乎全站热榜。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

在外洋,不少高校学者和谷歌、Arm等大厂工程师都来参与征询,以至捕捉到一些经典论文作家——

ViT作家、EfficientNet系列作家都来展示我方的最新筹商遵循,想要一比上下。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

△ViT论文二作补充了改进熟识递次后的截止

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

△EfficientNet系列作家补充了最新v2版块截止

再说回LeCun,此次他还真不是来给自家遵循站台的,而是建议模子架构之间互相模仿是改日的标的。

你以为我接下来要说“Conv is all you need”了吗?不是!

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

蓝本LeCun我方最心爱的架构雷同DETR,第一层是卷积,背面与更多Transformer作风的层相集合。

天然此次的ConvNeXt不是他说的这种,但也从Transformer身上模仿了无数妙技,LeCun合计其收效之处就在于此。

此次论文的通信作家谢赛宁也对这些征询作出了回复。

他说这并不是一篇想要比拼精度刷榜单的论文,更多的是想探索卷积模子的遐想空间。

在遐想历程中他们团队绝顶克制,尽量保握了模子的圣洁。

在我看来,统统模子架构都应该是一又友,只好过度复杂才是共同的敌东谈主(若是你认可奥卡姆剃刀原则的话)。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

到底谁是最强架构抛开不谈,参与征询的一众大佬们对这篇论文自己都有一个共同感受:

图表精真金不怕火,结构澄澈,实验充分,值得一读!

非常是其中有一张精真金不怕火插图,不错说是全文的精华,亦然作家我方提供的“一图看懂”。

图中澄澈呈现了一步步把ResNet-50从78.8%精度普及到82.0%的全要领,及所用到的递次。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

底下就先来先容一下这篇论文,了解一下ConvNeXt所用的递次和一脉疏通。

之后再来看架构之争,礼服会有不一样的视角~

给CNN披上Transformer的皮

先看选录,其中相关键的一句话敷陈了这篇论文的筹商初志。

……本文旨在再行谛视CNN的遐想空间,用当代递次在ResNet基础上作念优化,测试纯卷积模子的性能极限……

团队认为天然Transformer在视觉上大获收效,但全局提防力机制的复杂度是与输入图像尺寸的平素呈正比的。

对ImageNet图像分类任务的224×224、384×384分离率来说还算不错接管,需要高分离率图像的骨子行使场景下就不太遐想。

Swin Transformer靠再行引入卷积网罗中的滑动窗口等诸多特色弥补了这个问题,但也让Transformer变得更像CNN了。

Swin Transformer的收效让他们再行坚定到卷积的伏击性。

据此,这篇论文的筹商想路就是:

若是让卷积模子也模仿Transformer架构中的多样递次,但恒久不引入提防力模块,能取得什么效果?

论文临了所呈现出来的,是把模范ResNet一步步改革得更像Transformer的阶梯图。

也就是上头提到的那张广受好评的图。

条形图中,有心情的部分代表Swint-T与ResNet-50在多样条款下的模子精度比较。

灰色部分是更大限制的Swin-B与ResNet-200之间的比较,带暗影的地点阐述这个递次临了未被经受。

为了平正对比,模子的诡计量在统统这个词历程中也不祥保握与Swin Transformer同水平。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

筹商团队把改革之处回归成五个部分:注册绑卡即送58彩金

宏不雅遐想、引入ResNeXt、回转瓶颈层、增大卷积核、微不雅遐想

不外在详备解释每个部分之前,先要先容一下熟识递次上的改进。

0、熟识递次

视觉Transformer不仅带来一套新的模块和架构遐想,也经受了与传统CNN不同的熟识递次。

论文中经受的是与DeiT和Swin Transformer相似的熟识递次。

先把epoch从ResNet的90加多到300,同期改用AdamW优化器。

数据增强方面引入了Mixup、Cutmix、RandAugment和Random Erasing。

正则化方面使用了立时深度(Stochastic Depth)和标签平滑(Label Smoothing)。

经受这些递次后,torchvision版ResNet-50的性能普及了2.7%,从76.1%升到78.8%。

(使用ImageNet-1k上224x244分离率图像熟识的top 1精度,下同)

这一截止诠释,传统卷积模子与视觉Transformer之间的性能各异也有一部分来自熟识递次。

接下来插足对模子自己5大项改革的详备先容。

1、宏不雅遐想

这部分主要有两项改革,参考的亦然Swin Transformer。

领先是block数目的比例分派,原版ResNet-50的4个阶段中是按(3, 4, 6, 3)分派。

Swin Transformer模仿了多阶段的,每个阶段输出不同分离率的y想想,但比例改成了1:1:3:1。

ConvNeXt奉陪这个比例按(3,3,9,3)分派,截止是模子精度提高了0.6%,到达79.4%。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

不外证据此前Facebook团队的两项筹商,团队认为更优的比例也可能存在,有待陆续探索。

这部分的第二项改革是在stem层。

传统ResNet-50的作念法是一个步长为2的7x7的卷积加上最大池化,相配于对输入图像作念了4倍的下采样。

从ViT运行会先把输入图像切成一个个patch,对每个patch的操作不再重复。

Swin Transformer的patch尺寸是4x4,是以ConvNeXt也成就成步长为4的4x4非重复卷积。

这项改革给模子精度再度带来0.1%的普及,现时到了79.5%。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变” 2、引入ResNeXt

ResNeXt是本篇论文通信作家谢赛宁在Facebook何恺明组实习时的一作论文,发表在CVPR 2017。

与原版ResNet比拟,ResNeXt在精度与诡计量之间的衡量作念得更好,产品中心是以ConvNeXt贪图把这个优点秉承过来。

ResNeXt的中枢想想是分组卷积,同期为弥补模子容量上的亏蚀加多了网罗宽度。

这一次的ConvNeXt成功让分组数与输入通谈数相配,设为96。

这么每个卷积核处理一个通谈,只在空间维度上作念信息搀杂,取得与自提防力机制雷同的效果。

这项改革把模子精度再提高1%,来到80.5%。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变” 3、回转瓶颈层

这种递次在MobileNetV2中初次建议,随后也在更多轻量化CNN模子中流行开来。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

有真谛的是,Transformer中经受了相似的遐想,是以ConvNeXt也作念了尝试。

这么回转以后,天然depthwise卷积层的FLOPs加多了,但下采样残差块作用下,统统这个词网罗的FLOPs反而减少。

模子精度也稍许提高了0.1%,来到80.6%。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

另外皮以ResNet-200为基础的更大模子中,普及效果也更瓦解,从81.9%涨到82.6%。

4、增大卷积核

从VGG运行,3x3卷积核成为黄金模范,小卷积核在硬件中也得到了充分地适配。

Swin Transformer引入了雷同卷积核的局部窗口机制,但大小至少有7x7。

据此,ConvNeXt贪图再次对不同卷积核大小的效果再行作念探索。

然则,回转瓶颈层之后放大了卷积层的维度,成功增大卷积核会让参数目权臣加多。

是以在这之前,还要再作念一步操作,在回转瓶颈层的基础上把depthwise卷积层提前(b到c)。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

这一步操作暂时将模子精度下落到了79.9%。

之后对卷积核大小的检会从3x3到11x11都有尝试,在7x7时模子精度重回80.6%。

再往上加多效果则不瓦解,在ResNet-200上相同如斯,临了卷积核大小就定在7x7。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变” 5、微不雅遐想

接下来是层一级上的微不雅遐想,重心放在了激活函数和归一化上。

激活函数上,卷积模子主要使用的是浮浅高效的ReLU。

GELU比ReLU更平滑,被BERT、GPT-3等NLP模子以及ViT经受。

在ConvNeXt的探索中,使用GELU莫得给模子精度带来提高,但亦然一种可行决议。

激活函数的数目上,每个Tranformer块中仅MLP块中存在激活函数。

而CNN的深广作念法是每个卷积层背面都附加一个激活函数。

ConvNeXt尝试只保留了两个1x1层之间的GELU激活函数,与Transformer作念法保握一致。

这种递次让模子精度涨了0.7%,终于达到81.3% ,与Swin-T归并水平。

归一化层的数目相同作念了减少,精度再涨0.1%至81.4%,超越了Swin-T。

下一步是用LN(层归一化)替换BN(批次归一化),这在原版ResNet中会让精度下落。

但有了上头多样改作为念基础,ConvNeXt上这个操作让模子精度涨了0.1%,现时达到81.5%。

临了一步是分离下采样层。

在ResNet上,下采样由残差块践诺,Swin Transformer则是使用了单独的下采样层。

ConvNeXt也尝试了雷同的战略,使用步长为2的2x2卷积践诺下采样操作。

截止却形成了熟识不踏实。

好在自后找到管制见解,在每个下采样层前边、stem前边和临了的全局平均池化前边都加上LN。

以上统统改革汇总起来,ConvNeXt单个块的结构终于定型。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

最终得到的ConvNeXt-T小模子,精度达到82.0%,优于Swin-T的81.3%。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

更大模子的对比上ConvNeXt也略高,但上风减轻。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

比较有真谛的是,团队回归谈:

统统这些递次里,莫得一项是这篇论文创举的,它们散播在畴前十年间的多项筹商里。

ConvNeXt仅仅把这些递次都蚁合到沿路筹商,最终却发现了能在ImageNet-1k上胜过Transformer的纯卷积模子。

从FLOPs、参数目、婉曲量和内存使用量上看,每种限制的ConvNeXt都和Swin Transformer保握不祥相配。

ConvNeXt的上风还在于,不需要加多特别的迁移窗口提防力、相对位置偏置等特殊结构。

保握了模子的圣洁性,也意味着更容易部署。

最终,团队但愿通过这篇论文挑战一些已被鄙俚接管和默许的不雅点。

亦然为了促使筹商者们再行想考卷积在诡计机视觉中的伏击性。

关于ConvNeXt再行掀翻的这场视觉模子架构之争,有更多来自学界和工业界的东谈主建议了不同不雅点。

回到架构之争

UC伯克利熟识马毅默示,对这种名义上的比拼不太认可。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

集合他的下一条微博,马毅熟识更但愿全球多去热心思论基础。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

知乎上有一位匿名网友建议,这篇著作对工业界来说价值更大。

此前Transformer效果虽好,但实验上很难部署,全球一直期待着看到卷积递次的最终实力。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

其实这也恰是ConvNeXt这项筹商的初志。

从论文作家谢赛宁对另一处征询的回复中不错看出,筹商团队认为ImageNet截止并不是重心。

他们更想强合伙让全球热心的是卷积模子在讨论检测等卑劣任务中的发达。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

关于卑劣任务,ConvNeXt在COCO和ADE20K上作念了考证,与SwinTransformer比也有相配或更好的发达。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

后续征询中还发生一件趣事。

有东谈主发问LeCun,你们部门不应该跟着公司更名叫Meta了么,怎样论文签字已经FAIR?

LeCun开了个小打趣,说这代表Fundamental AI Research(基础AI筹商)

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

亦然很幽默了~

作家团队 魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

前边已提到的谢赛宁是FAIR筹商员,本科就读于上海交通大学ACM班,博士毕业于UC圣迭戈分校。

谢赛宁读博士时曾在FAIR实习,时辰与何恺明互助完成ResNeXt,是该论文一作。

不久前广受热心的何恺明一作论文MAE他也有参与。

本篇ConvNeXt他是通信作家,刚巧的是,此次的一作亦然博士时辰来实习的。

魔改ResNet反超Transformer再掀架构之争!作家说“没一处蜕变”

一作刘壮,博士就读于UC伯克利,清华姚班毕业生。

DenseNet作家,曾获CVPR 2017最好论文奖。

论文地址 https://arxiv.org/abs/2201.03545

Github地址: https://github.com/facebookresearch/ConvNeXt