在探索智能资讯的奥秘时单纯考虑分布偏移显得不足为信真正的数据世界复杂而多变外部有效性的力量不可或缺但
作者Deborah Raji提醒我们,不仅要关注数据分布偏移,更应该深入理解外部有效性。这一概念不仅涉及模型对新环境的适应能力,还包括了系统上下文背景和用户互动模式等因素。
文章指出,研究者们在追求算法性能时往往过度强调数据分布偏移,这可能导致忽视了模型泛化能力的问题。例如,由美国史诗系统公司研发、被密歇加大学医院广泛应用的败血症识别模型,在2020年4月由于频繁出现虚假报警,而被紧急叫停。这是因为新冠大流行导致的人口地理学特征发生了变化才使得模型出现偏差。
为了更好地理解这一现象,研究者Benjamin Recht重新按照ImageNet的数据收集方式收集了一批新的测试集,用原有的模型对新测试集进行准确性测试,并发现了15%左右的差距。这说明,即便是在原数据集上表现良好的模型,在新的环境中也存在一定程度的失效。
Deborah Raji认为,我们需要从“内部有效性”、“构建有效性”到“外部有效性”,全面考量机器学习系统的一般化能力。她以一篇发表在JAMA上的论文为例,该论文分析了一个广泛使用的大型败血症预测模型,其外部有效性的问题。在这项回顾性研究中,他们检查了接受38,455次住院治疗的27,697名患者,并发现该工具未能识别出67%的心脏病患者,因此造成大量虚假报警。
这些问题远远超出了简单的“临床医生和数据集中描述”的数据分布偏移,而是涉及到了医生与模型交互、医院内外环境以及其他与算法几乎没有直接关系但影响结果的事项。因此,我们需要将注意力转向如何通过前瞻性研究来提高机器学习系统对于真实世界场景中的可靠性能。
作为AI Now研究所技术研究员Deborah Raji致力于解决算法偏见、人工智能问责制和算法审计的问题。她曾与Google Ethical AI团队合作,并参与多个相关领域奖项。她已经开始讨论关于这个话题并计划继续分享她的想法和成果。感兴趣读者可以关注argmin博客上的最新更新,以获取更多关于如何提升机器学习系统在实际应用中的表现信息。