谷歌大脑最新操作玩复古：不用卷积注意力

人工智能 2025-03-31 11:21www.robotxin.com人工智能专业

经过AI新媒体量子位独家授权，我有幸向大家介绍谷歌大脑团队的一项震撼研究。这个团队，在视觉Transformer领域掀起了一股复古风潮。他们摒弃了当下大热的卷积神经网络（CNN）和Transformer，转而采用最原始的AI视觉任务架构——多层感知机（MLP）。这一尝试，竟然实现了近乎顶尖的性能，甚至在ImageNet图像分类任务上达到了惊人的87.94%准确率。

这个令人瞩目的架构被命名为MLP-Mixer。它采用两种特殊设计的MLP层，可以看作是一种特殊的CNN。他们使用 1×1卷积进行通道混合（位内操作），实现全感受野和参数共享的单通道卷积进行字符混合（跨位操作）。这种创新的设计融合了通道与字符的混合处理，为视觉任务带来了全新的解决思路。

在JFT-300M数据集上预训练后，微调到224分辨率的Mixer-H/14版本准确率达到了惊人的86.32%，仅比当前的顶尖模型ViT-H/14低0.3%。而且，它的运行速度更是ViT-H/14的2.2倍，这意味着在实际应用中，它可以为用户带来更加流畅的体验。

这一研究为我们提供了一种全新的思考角度，让我们重新审视那些被视为经典的架构。谷歌大脑团队的这次尝试不仅挑战了现有的视觉任务处理方式，也为我们展示了AI领域的无限可能。想要深入了解这一研究的更多细节，请访问论文地址：[论文链接](

上一篇：字节跳动申请抖音云游戏商标下一篇：没有了

谷歌大脑最新操作玩复古：不用卷积注意力

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术

谷歌大脑最新操作玩复古：不用卷积注意力

人工智能培训

人工智能机器人网搜索

人工智能机器人网导航

工业机器人

机器人培训

机器人技术