互联网新潮北交桑基韬揭秘机器学习非语义特征的奇迹与挑战

在AI技术的快速发展中，北交桑基韬教授深入探讨了机器学习非语义特征的得与失，这一主题在当前的人工智能研究领域引起了广泛关注。4月8日，在AI TIME青年科学家——AI 2000学者专场论坛上，桑基韬教授以《“超”人的机器学习：非语义特征的得与失》为题，对这一问题进行了详细阐述。

首先，桑基韬教授指出，机器学习算法虽然能够模仿人类某些能力，但也面临着不可信赖性的问题。在实验室环境下，它们可以达到甚至超过人类水平，但是在实际应用中，却常常表现出对抗鲁棒性、解释性和公平性的不足。这是由于算法可能过度拟合数据中的局部相关性，而忽略了更广泛的分布信息。

接着，他提出了两类虚假相关性：欠蒸馏和过蒸馏。欠蒸馎发生在模型只学习到了训练数据的一部分信息而未能捕捉到全貌，从而导致分布外泛化的问题；而过蒸馎则意味着模型学会了一些难以被人类理解或感知到的模式，这同样会影响其对抗鲁棒性和解释性的表现。

为了解决这些问题，桑基韬教授提出了一种新的方法，即将虚假相关性统一，并探索如何利用非语义特征来改善机器学习模型。他强调，不仅需要关注那些人可以直接理解的语义信息，还应该考虑那些对于人来说不易察觉但对于模型至关重要的非语义特征。

此外，他还分享了一系列例子来说明这种现象，比如计算机视觉中形状和纹理识别，以及蛋白质结构预测中的高频重建等。这些例子展示了尽管人们无法直接感知或理解这些非语义特征，但它们对于提升AI性能至关重要。

最后，桑基韬教授提出了一个有趣的观点，即这类非语义特征可能不是简单意义上的噪声，而是真实任务中的有效信息。他通过多个案例分析，如鸟类四色视觉、AlphaFold蛋白质折叠等，以证明这种观点，并且认为，我们应当更加开放地接受并利用这些看似神秘但实际上非常重要的信息源泉，以推动人工智能技术向前发展。

猜你喜欢