后方格智能化观察网
首页 > 智能硬件 > 社会最新影视资讯单个运动摄像头估计运动物体深度谷歌面临新技术挑战

社会最新影视资讯单个运动摄像头估计运动物体深度谷歌面临新技术挑战

雷锋网 AI 科技评论按:人类视觉系统在处理三维世界的信息时,能够从平面图像中推测出物体的深度和位置,这是一项我们习以为常但实际上极其复杂的任务。对于计算机视觉来说,尤其是在只有单个摄像头且摄像头与被拍摄物体都在移动的情况下,这种能力变得更加具有挑战性。

传统的三维重建算法依赖于至少两个不同角度对同一物体进行观察,以便通过图像间的差异(视差)来解算三维模型。但是,如果只有一个摄像头,而且这个摄像头和被拍摄物体都在运动,那么这种方法就无法工作,因为它需要假设可以同时观察到同一个物体,从而计算出正确结果。

谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法,专门针对这样的场景。在这项研究中,他们利用了大量来自 YouTube 的视频,其中有的人类模仿“时间静止”,保持姿态不变,而其他部分则由移动的摄影机捕捉。这使得他们能够使用传统基于三角形计算方法来精确地还原整个场景并获得高精度深度图。

为了解决将此训练数据应用于实践的问题,即如何处理当时没有“时间静止”的情况时,研究人员们开发了一种网络结构,该网络可以利用多帧信息以进一步提高模型性能。通过计算每个输入帧与另一帧之间二维光流(两帧之间相邻点位移),他们能够从光流中消去场景深度和相机位置之间的依赖,从而得到初始深度估计。此外,他们还添加了人物分割网络,将人从初始深度图中遮盖掉,以允许网络学习如何补充这些区域,并最终生成完整、准确的人类形象。

经过训练后,该模型可以处理任何自然拍照视频中的动态人物,无论它们如何移动或旋转。这种技术不仅适用于增强现实(AR)和虚拟现实(VR)应用,还可能为未来创造更真实、交互式媒体内容提供基础设施。

标签:

猜你喜欢

智能手机硬件 关注丨无人机飞...
近年来,我国无人驾驶航空器产业快速发展,已广泛应用于农业、国土、物流、科研、国防等领域,对促进经济社会发展发挥了重要作用。与此同时,实践中无人驾驶航空器“...
智能手机硬件 技术创新驱动增...
随着全球经济的不断发展和技术进步,传统的制造业正经历着前所未有的变革。智能制造系统(Smart Manufacturing System, SMS)作为这...
智能手机硬件 2022年最受...
2022年最受欢迎的智能手表TOP10:功能与设计并重的时尚科技新宠 在2022年,智能手表市场竞争激烈,每一款产品都在追求更高的技术水平和更美的外观设计...
智能手机硬件 蓬莱仙境传说古...
在何处寻觅蓬莱仙境? 传说中的蓬莱,据说是一座位于东海的神秘岛屿,不仅是中国古代神话中最著名的仙境之一,也是人们向往的地方。关于蓬莱的故事被称作“蓬莱鬼话...

强力推荐