揭秘最新游戏分布偏移只是开始真实数据背后的外部有效性等待解锁
数据分布偏移远不够!揭秘真实数据背后的外部有效性之谜
在人工智能领域,研究者们一直在探讨如何确保模型的泛化能力,即使面对新环境和新的数据集。近年来,人们越来越关注一种现象——数据分布偏移(data distribution shift)。然而,纽约大学AI Now研究所的技术研究员Deborah Raji提出了一个挑战:仅仅关注分布偏移是否足够?她认为,更重要的是要考虑外部有效性(external validity)。
根据Raji的观点,虽然模型在训练集上表现良好,但这并不保证它能够准确预测实际应用中的结果。这是因为真实世界中的数据往往是动态变化的,而传统方法通常忽略了这些变化。例如,在COVID-19大流行期间,一些医疗预测模型因无法适应人口地理学特征的变化而被迫叫停。
为了测试模型性能的一种方式是在ImageNet上的性能与其它不同类型或数量的大规模图像库上的性能之间进行比较,这样的差异被称为“验证误差”。Benjamin Recht等人的研究表明,即使有线性相关,也存在15%左右的验证误差,这表明即便是最好的模型也不能完全避免这种问题。
Raji警告说,对于这个问题过度痴迷会限制ML社区发展。她认为,我们应该更多地关注“有效性”这一概念,它包括内部、构建和外部有效性。在现实世界中,最关键的是外部有效性,因为它衡量了系统如何泛化到不同的场景和设置。
一篇发表在JAMA杂志上的文章分析了Epic败血症预测工具在实际使用中的表现,该工具未能识别出67%的情况导致大量虚假报警。这反映了一种更深层次的问题,那就是我们需要考虑所有可能影响结果的因素,不仅仅局限于静态数据分布变换。此外,还需要评估医生与模型交互以及其他与数据几乎无关但仍然影响结果的事项。
Deborah Raji是一位多才多艺的人工智能专家,她致力于解决算法偏见和问责制问题。她曾参与Google Ethical AI团队,并且她的工作涉及道德因素在机器学习工程实践中的应用。Raji已经开始探讨关于外部效力的许多深入话题,并将继续通过Argmin博客分享她的想法。如果你对此主题感兴趣,可以持续关注以获取更多信息。