ICLR 2019 遗珠加大号变形金刚Transformer-XL真的能打败新游戏吗

近几天，一篇 ICLR 2019 的拒稿引起了部分研究人员的注意。这不仅是一个能够处理可变长度序列的模型，在多个任务中刷新了当前的最好性能，而且它还是 Transformer 模型的第三代升级。它的名字叫作「Transformer-XL」（加大号的 Transformer）。

前两代 Transformer 在 2017 年和 2018 年分别由谷歌大脑提出了。第一代是完全基于注意力机制的编码模型，抛弃了之前模型引入注意力机制后仍然保留的循环与卷积结构。在任务表现、并行能力和易于训练性方面都有大幅提高。第二代在新的论文《Universal Transformer》中对最初的 Transformer 进行了拓展，让它具有通用计算能力（也就是「图灵完备」）。他们使用了一种新型、注重效率的时间并行循环结构，这样的设计让 Universal Transformer 比 RNN 中使用的是串行循环速度更快，也比标准前的前馈 Transformers 更强大。

现在，谷歌大脑推出了第三代——Transformer-XL，它首先投稿到了 ICLR 2019，并且在近期论文评审结果揭晓后，他们把论文上传到了 arXiv。这篇论文《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》（超越固定长度内容之外的大型语言模型）把注意力放在拓展模型大小，以及给模型增加可变长度序列处理能力上。

这篇被拒稿但仍值得关注的小杰出作品提出了一种新的神经网络架构，可以让 Transformer 网络在长度不固定的内容中学习依赖，同时不会干扰时空一致性。具体来说，由一个小节级别循环机制和一个新设计位置编码器组成。这项方法不仅可以捕捉长期依赖，还解决了内容分块的问题。

这样的方法效果显著：学到的依赖要比 RNN 学到的长80%，比最初의 Transformers 长450%；在推理时最高还要快原来的1800倍。此外，在多项任务中的最好成绩也被刷新：text8 数据集从1.13提升至1.08，WikiText-103 上从20.5提升至18.3，以及 Penn Treebank 数据集上从55.3提升至54.5等等。