最新资讯偏置的故事告一段落数据山大王能战胜TransformerMLP吗

在学术界，最近一场关于MLP与Transformer的较量引起了广泛关注。谷歌提出的《MLP-Mixer: An all-MLP Architecture for Vision》论文宣称，无需卷积和注意力机制，纯粹的多层感知机（MLP）架构也能达到与Transformer和CNN相媲美的图像分类性能。这一成果在社交平台上引发了热烈讨论，有人认为这是偷换概念，而有人则认为这是工业界研究，但不足以支撑学术结论。

不久之后，清华大学、牛津大学、Facebook AI和Google又发布了一系列论文，试图证明Transformer并不总是必要条件。一时间，这个话题再次成为焦点，每个人都有不同的看法和质疑。

AI科技评论联系了来自业界和学术界7位专家进行深入交流，他们包括马毅、何晓冬、林宙辰、朱军、尤洋、吴琦以及苏剑林。他们对此议题给出了各自独到的见解。

马毅教授指出，从理论角度看，MLP与Transformer在数学概念上几乎完全等价，只是在优化实现细节上有所差异。而何晓冬副总裁则表达了类似的观点，并提出了一个问题：在算力主导AI时，我们应该如何选择那些真正能够提升性能的模型训练方法和架构设计？

尤洋教授分析说，虽然MLP-Mixer接近Transformers性能，但这一前提是需要足够大的数据集支持。在超大数据集JFT-300M上的实验中，它仅在更小的计算量下取得了接近ViT精度。但这意味着对于大部分高校或中等规模公司来说，这种训练可能是不切实际的。此外，他还指出目前人们对inductive bias模型探索仍然很有限，而且谷歌展示的是基于特定人造数据集的实验结果，对于其他情况尚未得出结论。