北交桑基韬超越常人的机器学习探秘平板电脑最新资讯揭示非语义特征的双刃剑
北交桑基韬:超越常人的机器学习探秘,平板电脑最新资讯揭示非语义特征的双刃剑
在AI TIME青年科学家——AI 2000学者专场论坛上,北京交通大学计算机科学系教授、系主任桑基韬发表了报告《“超”人的机器学习:非语义特征的得与失》。他从两类虚假相关性角度解释了目前人工智能面临的挑战。在深度学习时代,模型在实验室环境下可以达到甚至超过人类水平,但实际应用中却存在对抗鲁棒性、解释性和公平性的问题。
桑基韬提出了将虚假相关性统一,并探索非语义特征的学习和利用。他强调,不仅是目标还是学习方式,都是类人的,是对人类知识蒸馏的一种形式。这一过程会出现两种情况:欠蒸馏和过蒸馏。欠蒸馏可能导致分布外泛化问题,而过蒼馨则可能影响模型的对抗鲁棒性和解释性。
此外,他还指出,对抗样本研究呈现出一种“猫鼠游戏”的状态,没有绝对成功的攻击,也没有绝对防御。此外,对抗噪声不仅体现了人与AI算法之间不同,还反映了物体形状和纹理识别能力差异。在频域中,即使高频重建图像难以被人类识别,但模型却能准确预测类别,这说明数据包含两类信息,一类是语义信息,一类是以高频为代表的非语义信息。
这些非语义特征对于某些任务至关重要,它们并不是针对模型或数据集过拟合产生的噪声,而是一种跨模型、跨数据集迁移性的真实特征。例如,在蛋白质折叠中的交互指纹虽然结构复杂但对于预测有效,因此它是一种有益于任务完成的非语义特征。
然而,这些非语义特征也带来了挑战,比如它们可能导致训练集局部相关性的欠蒸馏,从而影响泛化性能。此外,他们也可能引入混淆变量,使因果关系变得复杂,需要更严谨地定义任务无关特征及其作用。通过理解这些挑战,我们可以更好地设计机器学习算法,以提高其可靠性并实现真正的人工智能。