最新资讯偏置的故事告一段落数据山大王能战胜TransformerMLP吗
在学术界,最近一场关于MLP与Transformer的较量引起了广泛关注。谷歌提出的《MLP-Mixer: An all-MLP Architecture for Vision》论文宣称,无需卷积和注意力机制,纯粹的多层感知机(MLP)架构也能达到与Transformer和CNN相媲美的图像分类性能。这一成果在社交平台上引发了热烈讨论,有人认为这是偷换概念,而有人则认为这是工业界研究,但不足以支撑学术结论。
不久之后,清华大学、牛津大学、Facebook AI和Google又发布了一系列论文,试图证明Transformer并不总是必要条件。一时间,这个话题再次成为焦点,每个人都有不同的看法和质疑。
AI科技评论联系了来自业界和学术界7位专家进行深入交流,他们包括马毅、何晓冬、林宙辰、朱军、尤洋、吴琦以及苏剑林。他们对此议题给出了各自独到的见解。
马毅教授指出,从理论角度看,MLP与Transformer在数学概念上几乎完全等价,只是在优化实现细节上有所差异。而何晓冬副总裁则表达了类似的观点,并提出了一个问题:在算力主导AI时,我们应该如何选择那些真正能够提升性能的模型训练方法和架构设计?
尤洋教授分析说,虽然MLP-Mixer接近Transformers性能,但这一前提是需要足够大的数据集支持。在超大数据集JFT-300M上的实验中,它仅在更小的计算量下取得了接近ViT精度。但这意味着对于大部分高校或中等规模公司来说,这种训练可能是不切实际的。此外,他还指出目前人们对inductive bias模型探索仍然很有限,而且谷歌展示的是基于特定人造数据集的实验结果,对于其他情况尚未得出结论。
苏剑林认为,尽管Synthesizer模型去年就提出过类似的想法,但是它主要应用于NLP领域,而不是CV领域。因此,即使两者结构相似,但由于它们面向的问题不同,其本质区别依然存在。他进一步表示,将Attention改为可训练矩阵并没有改变其复杂度,也没有带来实质性的进步。
从这些专家的意见来看,可以看到,对于这个问题,没有统一答案,每个人的见解都是基于他们自己的专业背景和经验。不过,无论如何,都可以预见到,这将是一个持续的话题,在未来几年里,我们会继续听到有关神经网络架构演变及其影响力的更多讨论。