谷歌大脑最新操作玩复古:不用卷积注意力

人工智能 2025-03-31 11:21www.robotxin.com人工智能专业

经过AI新媒体量子位独家授权,我有幸向大家介绍谷歌大脑团队的一项震撼研究。这个团队,在视觉Transformer领域掀起了一股复古风潮。他们摒弃了当下大热的卷积神经网络(CNN)和Transformer,转而采用最原始的AI视觉任务架构——多层感知机(MLP)。这一尝试,竟然实现了近乎顶尖的性能,甚至在ImageNet图像分类任务上达到了惊人的87.94%准确率。

这个令人瞩目的架构被命名为MLP-Mixer。它采用两种特殊设计的MLP层,可以看作是一种特殊的CNN。他们使用 1×1卷积进行通道混合(位内操作),实现全感受野和参数共享的单通道卷积进行字符混合(跨位操作)。这种创新的设计融合了通道与字符的混合处理,为视觉任务带来了全新的解决思路。

在JFT-300M数据集上预训练后,微调到224分辨率的Mixer-H/14版本准确率达到了惊人的86.32%,仅比当前的顶尖模型ViT-H/14低0.3%。而且,它的运行速度更是ViT-H/14的2.2倍,这意味着在实际应用中,它可以为用户带来更加流畅的体验。

这一研究为我们提供了一种全新的思考角度,让我们重新审视那些被视为经典的架构。谷歌大脑团队的这次尝试不仅挑战了现有的视觉任务处理方式,也为我们展示了AI领域的无限可能。想要深入了解这一研究的更多细节,请访问论文地址:[论文链接](

上一篇:字节跳动申请抖音云游戏商标 下一篇:没有了

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by