车百会研究院官网

数据集开放，自动驾驶“福利”来了

2020-08-07

数据集

近期，自动驾驶相关新闻频频登上头条。疫情催动了自动驾驶的市场需求，自动驾驶产业迎来了新的发展窗口期。

“数据”在自动驾驶产业中，是教会汽车认知驾驶环境、正确决策的重要基础。海量、高质的真实数据是自动驾驶开放测试中不可或缺的“原料”。

目前，少有团队有能力开发并维持一个适用的自动驾驶平台，定期校准并收集新数据。近两年，福特、Waymo等多家头部自动驾驶企业相继公开其测试数据集，“开放”成为了新的趋势。

车百智库分析认为：开源数据集增多，将一定程度减少行业资源重复投入。未来，期待有更多的数据集种类、更面向国内的数据集分享，加速整个自动驾驶行业的商业化进程。

近日，福特公司在官网和GitHub上线了最新的数据集。媒体称这可能是迄今为止企业发布的最全面的数据集。

该数据集包含2017、2018两年间其自动驾驶车队在密歇根州多车采集的季节性路测数据，覆盖了一系列驾驶场景，包括高速公路、立交桥、机场、桥梁、隧道、建筑区域和植被类型等。

数据主要由4个激光雷达传感器、6个1300万像素相机，1个500万像素相机和惯性测量单元收集，包括3D地面反射率地图、3D点云地图、六自由度地面真实姿态和局部姿态等信息。所有数据均以Rosbag格式提供，可以使用开源机器人操作系统（ROS）进行可视化，修改和应用。

自动驾驶迎来“开源”新趋势

迄今为止，已有Waymo、Aptiv、Argo AI、Lyft等多家公司宣布开放自动驾驶数据集。

“一直以来，自动驾驶技术的源头来自学术界”。Aptiv Automated Mobility总裁兼nuTonomy创始人Karl Iagnemma表示。“美国学术界一直推崇开源社区模式，并通过分享来带动技术进步”。

自动驾驶行业领头羊Waymo曾两次公开数据集。

2019年8月，Waymo首次公开Waymo Open Dataset数据集，称其是全球最大的自动驾驶多模态语料库。该数据集包含了Waymo汽车在亚利桑那州凤凰城、华盛顿柯克兰、加州山景城和旧金山行驶了数百万英里所收集的数据，而且涵盖了在白天夜晚、黎明黄昏、晴天雨天等不同天气情况下，在各种城市和郊区环境下驾驶时收集的数据。

今年3月，Waymo再次公开Waymo Open Dataset数据集的扩展版本，增加了800个片段。预计可让研究人员更容易从头开始构建安全的自动驾驶模型，而且无需自己承担收集数据的成本。

2019年4月，安波福宣布完全打开其自动驾驶汽车开源数据集nuScenes，称其为第一家向公众开放此类安全数据的公司。

据了解，nuScenes来自波士顿和新加坡各地1000个“场景”，包括140万张图像、39万个LiDAR扫描和140万个人工标注的3D物体边界框，是目前发布的最大多模3D自动驾驶汽车数据集。

福特旗下自动驾驶技术公司Argo AI，2019年6月宣布开放自动驾驶精选数据和高精度地图，供研究人员免费使用。

Argo AI发布的Argoverse数据集，成为第一个公开包含高精度地图数据的数据集。该数据集包含匹兹堡和迈阿密290公里的车道地图，如位置、连接、交通信号、海拔等信息。

2019年7月，Lyft也发布了自动驾驶汽车数据集，且该数据集以现有的nuScenes格式(由安波福开发)免费对外提供。

该数据集包含55000个由人工标记的3D注释交通代理框架，以及7个摄像头和3个激光雷达传感器的比特流数据、1个可供驾驶使用的地面地图以及1个空间语义高精度地图，该高精度地图中包括4000多条巷段、196条人行横道、60个停车标志、54个停车区域、8个减速带、11个缓冲带等。

而国内自动驾驶企业中，百度Apollo于2018年3月发布了Apollo数据及前沿技术品牌ApolloScape，正式开放大规模自动驾驶数据集，以吸引更多企业和开发者利用并补充数据集，进而提高自动驾驶的感知能力。

“开放”意味着共赢

自动驾驶数据一直都是研发公司的核心资产之一。自动驾驶测试产生的实时数据能让车辆有效地了解周围环境，并在真实道路上行驶。

在公开道路的自动驾驶测试中，车内技术人员会记录下关键或有挑战性的场景，每天可以收集4TB或更多的传感器原始数据。

对于机器学习系统而言，原始数据本身价值并不大。所以测试结束后，所有数据都会导入数据中心，并对有用的数据进行分析和标记，以便被用于人工智能系统的训练或测试，如行人、骑自行车的人、动物、交通信号等相关信息。

自动驾驶数据采集是一个成本高、周期长、地域广的工作。对于自动驾驶行业的从业者而言，数据共享，将在一定程度上减少企业资源的重复投入。研发人员可以利用这些数据集，帮助开放自动驾驶汽车的感知算法，加快其产品的研发落地进程。

期待数据集开放“更大方”

过去，研发人员创建和发布的数据集相对较小，而且数据来源也非常有限，通常仅限于摄像头数据集，如KITTI、CityScapes、BDD100K、ApolloScape等（见表1）。

表1 早期自动驾驶公开数据集对比

* 数据来源：公开资料，车百智库整理

而近两年，Waymo、安波福、福特等公司公开的数据集除了图像数据外，还包括激光雷达数据（见图表2）。而且摄像头和激光雷达之间的信息同步也更好，在不同的场景位置可提供真实环境有价值的新信息，研究人员可以利用这些数据来帮助开发车辆感知和预测周围环境的新算法。

表2 近期自动驾驶公开数据集涉及传感器对比

* 数据来源：公开资料，车百智库整理

但是这些数据仍然集中在视觉算法层面。事实上，自动驾驶需要采集的数据非常多，包括道路数据、天气数据、交通标志数据、车辆数据、行人数据等等。数据越丰富，AI程序才能学习得更好，对自动驾驶也更有裨益。

同时，在采集数据外，驾驶程序则更为核心，开放驾驶数据，对于推动整个行业进度，将会产生更大的作用。有业内人士指出，“数据开放的越多越好，核心数据集都没开放”。

其实，开放数据集并不纯粹是“舍己为人”的做法，企业自身也将有所获益。毕竟，目前自动驾驶行业尚未成熟，开放数据集将推动其他公司进步，从而推动整个行业成熟。

期待自动驾驶行业的各路玩家能够在数据开放上，表现得更加“大方”。

期待更“本土化”的数据集开放

近年来，国内自动驾驶汽车测试进行地如火如荼，但大多数都是在简单路况下进行。在长尾场景下[1]，自动驾驶还远远达不到上路的要求，而这些问题仅依靠路测手段很难快速解决。

大规模精准数据集的使用有利于缩短自动驾驶技术研发时间。通过数据集全面提高感知能力，可以在一定程度上解决问题。

中外企业目前均在抢占自动驾驶各层面技术的标准制定和话语权。清华大学李克强教授曾表示，新一代智慧出行系统一定是场景驱动，需要有本地属性。

国内目前仅百度开放了数据集。

国外企业开放数据集被认为在国内应用有限，在2018年3月百度开放数据集时表示，“国内的路况复杂程度显然与国外不同。”百度公开数据，以吸引更多企业和开发者利用并补充数据集，提高自动驾驶的感知能力。

[1] 长尾场景，主要指发生概率较低或者突发的场景，如闯红灯的车辆，横穿马路的行人，红绿灯损坏的路口等。这些场景不按常理出牌，样式繁多，处理难度大。

* 本文仅代表署名研究员个人观点

文 / 车百智库产业研究二部桂艳琳

首页

车百智库

走进企业

大型会议

车百会研究院