ICML 2019 神经网络的可解释性从经验主义到数学建模平板电脑最新资讯中探索其深度理解能力
从炼丹到化学:深度神经网络的解释性探索
在这篇文章中,我们将探讨如何通过数学建模来理解和解释深度神经网络(DNNs)的行为。我们会谈论如何从经验主义的调参式训练转向基于评测指标的定量指导,这是一个新一代人工智能需要面对的问题,也是当前深度学习研究的一个新的希望。
首先,我们要认识到,DNNs被认为是“黑箱”,因为它们的特征或决策逻辑在语义层面难以理解,而且缺乏数学工具去诊断与评测网络的特征表达能力。我们的工作旨在解决这个问题,特别是在自然语言处理(NLP)领域。
我们提出了一个算法,可以测量每一层特征所包含输入句子的信息量。这项工作既有普适性又有一贯性,它可以客观反映层间信息传递能力,并实现稳定的跨层比较。通过这种方法,我们可以分析不同NLP任务下不同的模型之间,以及同一任务下不同模型之间,中层特征关注点的区别。
我们还展示了基于输入单词信息量的可视化方法,可以平滑自然地显示神经网络内部信息处理逻辑。在四种常用NLP模型——BERT、Transformer、LSTM和CNN—中,我们发现BERT和Transformer往往能够更加精确地找到与任务相关的目标单词,而CNN和LSTM则倾向于使用大范围邻接单词进行预测。
总之,这篇文章介绍了我们团队近期ICML工作中的一个重要成果,即如何通过数学建模来理解DNNs在NLP领域中的行为。这项工作不仅为AI技术提供了解释性的工具,也为未来的人工智能研究开辟了一条道路。