Transformer跨界超越CNN,还解决了计算复杂度难题
本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。
谈到Transformer,你可能会想到一众NLP模型。
但现在,Transformer其实还能替CNN把活给干了,并且干得还不赖。
比如微软亚研院最新提出的Sin Transformer,就在COCO数据集的分割检测任务上来了个跨领域超车,一举达到SOTA。
那么,问题来了。
关注NLP的盆友想必就会问,用Transformer做CV任务,这个想法早已有之,也没见对CNN的地位有什么动摇,Sin Transformer又有何不同?
这就涉及到Transformer的CV应用存在的两个主要问题
,基于Transformer的模型,token的长度是固定的。这对于NLP里的单词没有什么问题,但到了CV领域,视觉元素的比例各异,比如同一个场景中会存在大小不同的物体。 ,图像中的像素与文本中的文字相比,对分辨率的要求更高。而常规的自注意力的计算复杂度,是图像大小的平方,这就导致其在像素级别进行密集预测时会出现问题。
而Sin Transformer,就旨在解决这些NLP和CV之间差异带来的问题。
通过移动窗口计算的分层Transformer
Sin Transformer的诀窍,核心是两板斧
基于分层特征图,利用特征金字塔网络(FPN)或U-Net等技术进行密集预测 将自注意力计算限制在不重叠的局部窗口中,允许跨窗口连接,从而带来更高的效率。
这第二板斧,也就是基于移动窗口的自注意力
如上图所示,在l层,采用常规的窗口分区方案,在每个窗口内计算自注意力。
在下一层l+1,窗口分区会被移动,产生新的窗口。新窗口中的自注意力计算跨越了l层中窗口的边界,提供了新的关联信息。
具体而言,Sin Transformer的整体架构是酱婶的
将RGB图像分割成不重叠的图像块(token); 应用MLP(多层感知机)将原始特征转化为任意维度; 应用多个修改了自注意力计算的Sin Transformer块,并保持token的数量; 下采样层通过合并2×2窗口中的相邻图像块来减少token的数量,并将特征深度增加一倍。 实验结果
研究人员让Sin Transformer分别挑战了ImageNet-1K、COCO和ADE20K上的图像分类、对象检测和语义分割任务。
其中,用于预训练的是ImageNet-22K数据集,ImageNet-1K数据集则用于微调。
结果显示,在COCO的分割和检测任务,以及ADE20K的语义分割任务上,Sin Transformer都超越了CNN,达到了SOTA。
而在ImageNet-1K的分类任务上,虽然没能超越EfficientNet,但效果相当且速度更快。
论文笔记就分享到这里,如果想要了解更多细节,请戳文末传送门。
也期待你的读后感分享哟~
传送门
论文地址
https://arxiv./abs/2103.14030
开源地址
https://github./microsoft/Sin-Transformer
点赞 0
人工智能培训
- 真正能和人交流的机器人什么时候实现
- 国产机器人成功完成首例远程冠脉介入手术
- 人工智能与第四次工业革命
- 未来30年的AI和物联网
- 新三板创新层公司东方水利新增专利授权:“一
- 发展人工智能是让人和机器更好地合作
- 新春贺喜! 经开区持续推进工业互联网平台建设
- 以工业机器人为桥 传统企业如何趟过智造这条河
- 山立滤芯SAGL-1HH SAGL-2HH
- 2015国际智能星创师大赛火热报名中!
- 未来机器人会咋看人类?递归神经网络之父-像蚂
- 成都新川人工智能创新中心二期主体结构封顶
- 斯坦德机器人完成数亿元人民币C轮融资,小米产
- 到2020年,智能手机将拥有十项AI功能,有些可能
- 寻找AI机器人的增长“跳板”:老龄化为支点的产
- 力升高科耐高温消防机器人参加某支队性能测试