堪比LSTM,Transformer引燃机器学习圈:是万能的

人工智能 2022-06-18 18:24www.robotxin.com人工智能专业

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。

谷歌研究科学家 David HaTransformer 是新的 LSTM。

2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流),还开始了向其他领域的跨界,近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

2020 年 10 月,谷歌提出了Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。

2020 年 12 月,复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。

2021 年 1 月初,OpenAI 又连放大招,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。

由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示Transformer 是新的 LSTM。

他否定了自己在 2017 年 5 月发表的言论「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它,都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出,当时已诞生 20 年。

David Ha 不会想到,这句预言被一个月后出现的 Transformer 打破,而这仅用了 4 年时间。

著名机器学习资源网站 Papers ith Code 在 1 月 20 日发布的 Nesletter 中列举了近期应用 Transformer 的十大新任务

图像合成

论文Taming Transformers for High-Resolution Image Synthesis

链接https://arxiv./pdf/2012.09841v1.pdf

多目标追踪

论文TransTrack: Multiple-Object Tracking ith Transformer

链接https://arxiv./pdf/2012.15460v1.pdf

音乐生成

论文Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

链接https://arxiv./pdf/2101.02402v1.pdf

舞蹈生成

论文Dance Revolution: Long-Term Dance Generation ith Music via Curriculum Learning

链接https://arxiv./pdf/2006.06119v5.pdf

3D 目标检测

论文Self-Attention Based Context-Aare 3D Object Detection

链接https://arxiv./pdf/2101.02672v1.pdf

点云处理

论文PCT: Point Cloud Transformer

链接https://arxiv./pdf/2012.09688v1.pdf

时序预测

论文Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

链接https://arxiv./pdf/1912.09363v3.pdf

视觉 - 语言建模

论文VinVL: Making Visual Representations Matter in Vision-Language Models

链接https://arxiv./pdf/2101.00529v1.pdf

车道形状预测

论文End-to-end Lane Shape Prediction ith Transformers

链接https://arxiv./pdf/2011.04233v2.pdf

端到端目标检测

论文Deformable DETR: Deformable Transformers for End-to-End Object Detection

链接https://arxiv./pdf/2010.04159v2.pdf

而除了 David Ha 以外,另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」

... is All You Need?

Transformer 引领了不止一种潮流。

在其论文《Attention is All You Need》发表后,各种「 is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Netorks is All You Need》。有趣的是,这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。

Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务,但那时模型的核心架构还是 RNN。相比之下,Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全由注意力机制组成,这种改变所带来的效果提升也是颠覆性的。

,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Netorks is All You Need》中表示,Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

Sepp 这篇论文发表时,Transformer 的跨界之旅已经开始。2020 年 5 月,Facebook AI 推出了 首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer(DETR),用于目标检测和全景分割。6 月,OpenAI 将基于 Transformer 的模型GPT-2 应用到图像领域,用于图像分类任务。

半年过去,越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域,最近更是出现了「Transformers are all you need」、「Transformers are the ne LSTMs」的说法。

Transformer 是新的 LSTM 吗?

1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习发展史上的一座里程碑。

LSTM 是一种特殊的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)带来的梯度爆炸和梯度消失问题;1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。

LSTM 单元的基本结构(图源https://en.ikipedia./iki/Long_short-term_memory)

2020 年 2 月,LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史,介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

而 Transformer 诞生伊始就完全舍弃了 RNN,在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在,许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers ith Code 最近发布的 Transformer 应用十大新任务中,过去都有着 LSTM 的活跃身影。

Transformer 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已见雏形。

不知道如果现在发表「Transformer 无法被替代,还可以再用 50 年」的预言,多久之后会被打破。

 

Copyright © 2016-2025 www.robotxin.com 人工智能机器人网 版权所有 Power by