QQ最新资讯单个运动摄像头估计运动物体深度谷歌挑战新难题在社会应用中推广

雷锋网 AI 科技评论按：人类视觉系统在处理三维世界的信息时，能够从平面图像中推测出物体的深度和位置，这是一项我们习以为常但实际上极其复杂的任务。尽管在静态环境下，计算机视觉也能做到这一点，但当摄像头和被拍摄物体都在移动时，这种任务就变得异常困难。这是因为传统的三维重建算法需要至少两个不同角度对同一物体进行观察才能计算出正确的深度，而单个摄像头无法满足这样的条件。

谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法来解决这个问题。在这个方法中，使用了先验知识来代替直接从图像中计算三角形，从而可以更准确地预测运动中的物体深度。这项技术特别针对人物，因为人物深度估计在增强现实（AR）和三维视频特效等应用中非常重要。

为了训练这种模型，谷歌团队利用了YouTube上的视频，其中的人类假装时间静止，然后一个摄像机在空间中移动拍照。这些「时间静止」视频提供了用于训练网络以处理正在移动的人类姿态和场景的情况。此外，还有 2000 个这样的视频用于训练，该研究最终目标是解决同时涉及运动相机和被拍摄对象的情况。