社会最新影视资讯单个运动摄像头估计运动物体深度谷歌面临新技术挑战

雷锋网 AI 科技评论按：人类视觉系统在处理三维世界的信息时，能够从平面图像中推测出物体的深度和位置，这是一项我们习以为常但实际上极其复杂的任务。对于计算机视觉来说，尤其是在只有单个摄像头且摄像头与被拍摄物体都在移动的情况下，这种能力变得更加具有挑战性。

传统的三维重建算法依赖于至少两个不同角度对同一物体进行观察，以便通过图像间的差异（视差）来解算三维模型。但是，如果只有一个摄像头，而且这个摄像头和被拍摄物体都在运动，那么这种方法就无法工作，因为它需要假设可以同时观察到同一个物体，从而计算出正确结果。

谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法，专门针对这样的场景。在这项研究中，他们利用了大量来自 YouTube 的视频，其中有的人类模仿“时间静止”，保持姿态不变，而其他部分则由移动的摄影机捕捉。这使得他们能够使用传统基于三角形计算方法来精确地还原整个场景并获得高精度深度图。

为了解决将此训练数据应用于实践的问题，即如何处理当时没有“时间静止”的情况时，研究人员们开发了一种网络结构，该网络可以利用多帧信息以进一步提高模型性能。通过计算每个输入帧与另一帧之间二维光流（两帧之间相邻点位移），他们能够从光流中消去场景深度和相机位置之间的依赖，从而得到初始深度估计。此外，他们还添加了人物分割网络，将人从初始深度图中遮盖掉，以允许网络学习如何补充这些区域，并最终生成完整、准确的人类形象。

经过训练后，该模型可以处理任何自然拍照视频中的动态人物，无论它们如何移动或旋转。这种技术不仅适用于增强现实（AR）和虚拟现实（VR）应用，还可能为未来创造更真实、交互式媒体内容提供基础设施。