最新资讯这可能是关于弱监督学习的最详尽科普文吗
最新资讯:这可能是关于弱监督学习最详尽的科普文吗?
随着人工智能技术深入研究,如何充分利用人工标注信息、减少标注工作量、结合人类经验与学习规则成为了关键问题。本文将结合斯坦福 AI 实验室在弱监督学习领域的研究进展以及相关思考,就理论方法、标注工具、研究进展三个方面进行讨论。
近年来,机器学习对现实世界产生了巨大影响,这主要归功于各种深度学习模型,使得从业人员无需特征工程即可获得最佳性能。现在,我们可以使用 TensorFlow 和 PyTorch 等开源框架和大量可用的先进模型,但依赖大量手动标注训练数据的问题仍然存在。
然而,在很多任务中,这些手动标记的训练集创建起来既昂贵又耗时,通常需要花费许多人数月或数年的成本。除此之外,任务经常会在现实世界中发生变化和演变,因此研究者们面对急需解决的数据标注问题,整合了主动学习、半监督学习等研究成果,并提出了「弱监督学习」概念,以通过较弱的监督信号构建预测模型。
不完全监督指的是只有部分带有标签,同时大量数据没有被标注。这是由于高昂代价无法获得完全强监督信号的情况。三种流行的针对不完全监督环境开发的机器学习范式为主动学习(active learning)、半监督学习(semi-supervised learning)和迁移学习(transfer learning)。
主动学就是假设未标注数据真值可以向人类专家查询,让专家为估计模型最有价值样本点打上标签。在考虑用查询次数衡量成本时,其目标是在提高查询效率的情况下使训练出的模型性能最好。半监督学主要包括生成式方法、二元图法、高密度分割法基于分歧方法,而迁移学借鉴人类“举一反三”的能力,以提高对数据利用率。
随着深度发展,不同类型如基于实例深度迁移、中映射网络迁移及网络结构迁移等也得到了关注。此外,还有一种常见方式是在一个大数据集上对模型进行预训练,然后在感兴趣任务上调优。但由于当前已经成为独立研究领域,本文不会过多介绍迁移学内容。