后方格智能化观察网
首页 > 智能硬件 > 社会最新影视资讯单个运动摄像头估计运动物体深度谷歌面临新技术挑战

社会最新影视资讯单个运动摄像头估计运动物体深度谷歌面临新技术挑战

雷锋网 AI 科技评论按:人类视觉系统在处理三维世界的信息时,能够从平面图像中推测出物体的深度和位置,这是一项我们习以为常但实际上极其复杂的任务。对于计算机视觉来说,尤其是在只有单个摄像头且摄像头与被拍摄物体都在移动的情况下,这种能力变得更加具有挑战性。

传统的三维重建算法依赖于至少两个不同角度对同一物体进行观察,以便通过图像间的差异(视差)来解算三维模型。但是,如果只有一个摄像头,而且这个摄像头和被拍摄物体都在运动,那么这种方法就无法工作,因为它需要假设可以同时观察到同一个物体,从而计算出正确结果。

谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法,专门针对这样的场景。在这项研究中,他们利用了大量来自 YouTube 的视频,其中有的人类模仿“时间静止”,保持姿态不变,而其他部分则由移动的摄影机捕捉。这使得他们能够使用传统基于三角形计算方法来精确地还原整个场景并获得高精度深度图。

为了解决将此训练数据应用于实践的问题,即如何处理当时没有“时间静止”的情况时,研究人员们开发了一种网络结构,该网络可以利用多帧信息以进一步提高模型性能。通过计算每个输入帧与另一帧之间二维光流(两帧之间相邻点位移),他们能够从光流中消去场景深度和相机位置之间的依赖,从而得到初始深度估计。此外,他们还添加了人物分割网络,将人从初始深度图中遮盖掉,以允许网络学习如何补充这些区域,并最终生成完整、准确的人类形象。

经过训练后,该模型可以处理任何自然拍照视频中的动态人物,无论它们如何移动或旋转。这种技术不仅适用于增强现实(AR)和虚拟现实(VR)应用,还可能为未来创造更真实、交互式媒体内容提供基础设施。

标签:

猜你喜欢

智能手机硬件 西南财经大学研...
在中国经济学界,西南财经大学研究生院是一家享誉盛名的高等教育机构。它不仅承载着对经济学知识传承和创新的一份责任,更是培养了一批又一批优秀经济管理人才。然而...
智能手机硬件 智网通行未来城...
一、引言 在当今这个快速发展的时代,城市交通问题日益突出。为了应对这一挑战,智能交通产品逐渐成为解决方案中的重要组成部分。这些产品不仅提高了运输效率,还大...
智能手机硬件 集成电路芯片的...
集成IC芯片的作用:提高电子设备性能与节能效率 什么是集成电路? 集成电路(Integrated Circuit,简称IC)是一种将多个电子元件在一个小型...
智能手机硬件 美国禁华为芯片...
美国禁华为芯片背后的法律与技术策略分析 国际贸易法的应用 美国政府通过国际贸易法来限制对华为的出口,特别是针对5G通信技术相关产品。这种做法基于《外国投资...

强力推荐