最新游戏资讯探索ROAD数据集自动驾驶能否像人般感知环境
自动驾驶汽车如何像人那样感知环境并做出决策?
为了实现自动驾驶汽车像人类一样感知环境并做出决策,研究者们开发了多种方法。其中,端到端的方法因其利用深度学习和强化学习技术而受到关注。这类方法可以通过大量数据训练,从图像等感知信息到方向盘转角等车辆控制输入建立关系。
牛津布鲁斯大学计算机视觉实验室的研究团队发表了一项基于端到端方法的道路事件感知数据集(ROAD),旨在测试自动驾驶车辆对道路事件的感知能力。这个数据集由一个移动智能体(即自动驾驶车辆)、它执行的动作和相应场景位置三部分组成。
使用ROAD,研究者希望能够训练自动驾驶汽车更好地理解道路环境以及其他路用者的行为。他们提出了一个模仿学习设置,即利用人类驾驶员处理不同情况时的行为来训练这些系统。
虽然现有的传感器,如激光测距仪、雷达、摄像头和GPS,可以收集丰富数据,但ROAD主要聚焦于基于视觉信息的行驶环境。该项目使用安装在牛津机器人小车上的摄像头拍摄了大量视频,并从中挑选了22个较长时间段(每个约8分钟)的视频,这些视频包含多种道路事件。
这些事件被定义为由移动智能体Ag、执行动作Ac及发生动作位置Loc构成,即E=(Ag, Ac, Loc)。研究团队编译了这22个视频中的内容,将Ag, Ac, Loc作为有限列表中的分类之一,而道路事件则是指逐帧边界框检测形成的一系列时间序列。
随着122K镜头被标记成了560K检测边界框,每一帧与1.7M唯一单独标签相关联,这些标签包括560K智能体标签、640K动作标签和499K位置标签,提供了解释各自实例意义所需信息。此外,元数据还包含描述全景交通状况所需所有必要信息,使得即使不查看视频,也能根据与之关联的一组标签重建当时场景或让自动驾驶汽车做出相同决定。
然而,该数据集仅涵盖了典型场景,没有考虑到行人的活动,对于行业玩家来说,更复杂的情形如Corner Case则是竞争力的关键。此外,由于只基于22个视频进行注释, ROAD 数据量不足以满足大多数算法需求,而且需要覆盖更多复杂场景,以便更全面地评估算法性能。