后方格智能化观察网
首页 > 测评 > QQ最新资讯单个运动摄像头估计运动物体深度谷歌挑战新难题在社会应用中推广

QQ最新资讯单个运动摄像头估计运动物体深度谷歌挑战新难题在社会应用中推广

雷锋网 AI 科技评论按:人类视觉系统在处理三维世界的信息时,能够从平面图像中推测出物体的深度和位置,这是一项我们习以为常但实际上极其复杂的任务。尽管在静态环境下,计算机视觉也能做到这一点,但当摄像头和被拍摄物体都在移动时,这种任务就变得异常困难。这是因为传统的三维重建算法需要至少两个不同角度对同一物体进行观察才能计算出正确的深度,而单个摄像头无法满足这样的条件。

谷歌最近的一项研究《Learning the Depths of Moving People by Watching Frozen People》提出了一种基于深度学习的新方法来解决这个问题。在这个方法中,使用了先验知识来代替直接从图像中计算三角形,从而可以更准确地预测运动中的物体深度。这项技术特别针对人物,因为人物深度估计在增强现实(AR)和三维视频特效等应用中非常重要。

为了训练这种模型,谷歌团队利用了YouTube上的视频,其中的人类假装时间静止,然后一个摄像机在空间中移动拍照。这些「时间静止」视频提供了用于训练网络以处理正在移动的人类姿态和场景的情况。此外,还有 2000 个这样的视频用于训练,该研究最终目标是解决同时涉及运动相机和被拍摄对象的情况。

为了应对这种区别,谷歌团队将网络输入结构化,并为每帧视频独立推理深度图。但他们认为,可以通过利用多帧信息进一步提升模型性能。例如,对于固定物体,它们之间形成了不同的视角两帧画面,可以为深度估计提供有用的线索(即视差)。通过光流场消去相机位置依赖性,他们得到了初始深度图,但只适用于场景中的静态部分。

为了还能处理移动的人,他们添加了一个人物分割网络,将人从初始深度图中遮蔽掉。这样得到的输入由 RGB 彩色图、人物掩蔽以及带掩蔽且通过光流计算得出的初始带掩蔽之初期数据组成。然后,将这三个部分作为输入给予网络补充有人的区域及其整幅画面的缺失部位,以及完善整个画面的高精度成果。

经过培训后,该模型可以处理自然拍摄视频中的任意变化,以实现各种创新的应用,如虚焦效果、小幅变换或增加具有准确尺寸与距离的大量元素到原图片上。

论文地址:https://arxiv.org/abs/1904.11111

via ai.googleblog.com, 雷锋网 AI 科技评论编译

标签:

猜你喜欢

app测评软件 爱读书吧-探索...
探索知识海洋:从“爱读书吧”到终身学习的旅程 在这个信息爆炸的时代,我们每个人都生活在一个不断变化、充满挑战的世界中。要想在竞争激烈的社会中脱颖而出,提高...
适合什么职业测试 半导体全球布局...
在全球范围内,各国政府正在加速推动半导体产业的布局,以应对持续的“芯片荒”问题。尽管如此,行业内部人士认为,这些政策短期内难以实施,因此“缺芯”状况可能在...
去看心理科一次大概多少钱 华为芯片突破最...
华为芯片突破最新消息,纳芯微仿如智者般推出全新隔离电压采样NSI1312x系列。该系列芯片能应对正负电压输入和高阻抗输入的挑战,适用于汽车、工业以及大功率...
人才素质测评 江西财经大学现...
在8月,中国的服务业PMI再次飙升至55,这是自2021年6月以来最高纪录。尽管这项指标略有回落,但服务业仍维持着强劲的复苏势头。这一趋势与财新综合PMI...

强力推荐