CVPR 2019口头报告背后的秘密无监督域适应语义分割之谜
百度研究院、华中科技大学与悉尼科技大学的科学家们最近在计算机视觉领域的一个重要会议上展示了他们最新的研究成果。这项研究旨在解决一个长期困扰着深度学习社区的问题:如何让模型能够从虚拟环境(如3D游戏)直接迁移到现实世界中进行精确的语义分割。
传统方法通常是通过对抗学习来减少源域和目标域之间特征分布的差异。但是,这种方法往往忽略了不同域间相同类别特征之间的语义一致性问题。例如,车辆这一类别在目标域可能会被错误地映射到火车这样的其他类别,从而导致负迁移。
为了解决这个问题,科学家们提出了Category-Level Adversarial Network (CLAN),一种新的网络结构,它结合了联合训练和对抗学习。CLAN中的生成网络采用互斥分类器来判断目标域特征是否已经达到局部语义对齐,并根据这两个分类器产生的预测向量之差来加权判别网络反馈的对抗损失。
实验结果显示,在GTA5到Cityscapes和SYNTHIA到Cityscapes这两个常见的无监督领域自适应任务上,CLAN都能取得state-of-the-art水平的性能。特别是在那些不常见类上的表现尤为突出,比如交通标志等。此外,该算法还能显著提高这些难以识别的小型物体在复杂场景下的检测率,对于自动驾驶技术具有重要意义。
总结来说,本文探讨了一种新颖且有效的手段,即使用Category-Level Adversarial Network (CLAN) 在无监督条件下实现高质量语义分割。在实际应用中,这项技术有潜力极大地提升现有的自动驾驶系统,使其能够更好地理解并操作复杂多变的地面环境。