QQ最新资讯单个运动摄像头估计运动物体深度谷歌挑战新难题在社会应用中推广
雷锋网 AI 科技评论按:人类视觉系统在处理三维世界的信息时,能够从平面图像中推测出物体的深度和位置,这是一项我们习以为常但实际上极其复杂的任务。尽管在静态环境下,计算机视觉也能做到这一点,但当摄像头和被拍摄物体都在移动时,这种任务就变得异常困难。这是因为传统的三维重建算法需要至少两个不同角度对同一物体进行观察才能计算出正确的深度,而单个摄像头无法满足这样的条件。
谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法来解决这个问题。在这个方法中,使用了先验知识来代替直接从图像中计算三角形,从而可以更准确地预测运动中的物体深度。这项技术特别针对人物,因为人物深度估计在增强现实(AR)和三维视频特效等应用中非常重要。
为了训练这种模型,谷歌团队利用了YouTube上的视频,其中的人类假装时间静止,然后一个摄像机在空间中移动拍照。这些「时间静止」视频提供了用于训练网络以处理正在移动的人类姿态和场景的情况。此外,还有 2000 个这样的视频用于训练,该研究最终目标是解决同时涉及运动相机和被拍摄对象的情况。
为了应对这种区别,谷歌团队将网络输入结构化,并为每帧视频独立推理深度图。但他们认为,可以通过利用多帧信息进一步提升模型性能。例如,对于固定物体,它们之间形成了不同的视角两帧画面,可以为深度估计提供有用的线索(即视差)。通过光流场消去相机位置依赖性,他们得到了初始深度图,但只适用于场景中的静态部分。
为了还能处理移动的人,他们添加了一个人物分割网络,将人从初始深度图中遮蔽掉。这样得到的输入由 RGB 彩色图、人物掩蔽以及带掩蔽且通过光流计算得出的初始带掩蔽之初期数据组成。然后,将这三个部分作为输入给予网络补充有人的区域及其整幅画面的缺失部位,以及完善整个画面的高精度成果。
经过培训后,该模型可以处理自然拍摄视频中的任意变化,以实现各种创新的应用,如虚焦效果、小幅变换或增加具有准确尺寸与距离的大量元素到原图片上。
论文地址:https://arxiv.org/abs/1904.11111
via ai.googleblog.com, 雷锋网 AI 科技评论编译