万字盘点自动驾驶关键技术

时间：2024-04-12 17:10:23 发布：tgy 来源：北京市高级别自动驾驶示范区第一对焦：自动驾驶

　　【ZiDongHua 之驾驶自动化收录关键词：自动驾驶人工智能机器学习计算机视觉】

　　万字盘点自动驾驶关键技术

　　本文概述了自动驾驶技术的技术方面以及存在的问题，研究了自动驾驶系统的主要领域，如感知、地图和定位、预测、规划和控制、仿真、V2X和安全等，特别是在数据闭环的框架下详细阐述了所有这些问题。数据闭环是解决“长尾”自动驾驶问题的流行平台。

　　自动驾驶作为人工智能与机器学习、计算机视觉等最具挑战性的应用之一，实际上已经被证明是一个“长尾”问题，即几乎没有出现cornor case或安全关键场景。

　　目前，已经有一些关于自动驾驶技术的调查论文，从整个系统/平台到单个模块/功能。

　　▍自动驾驶技术概述

　　本节简要介绍自动驾驶的基本功能和模块，如图1所示，包括硬件和软件架构、感知、预测、地图和定位、规划、控制、安全、模拟和V2X等。

　　自动化水平

　　美国交通部和国家公路交通安全管理局（NHTSA）采用了汽车工程师学会（SAE）的自动化水平国际标准，该标准定义了从level-0（人类驾驶员完全控制）到level-5（车辆完全自行驾驶）的自动驾驶汽车。

　　在level-1中，驾驶员和自动系统一起控制车辆。

　　在level-2中，自动系统完全控制车辆，但驾驶员必须随时准备立即干预。

　　在level-3中，驾驶员可以摆脱驾驶任务，车辆将要求立即做出反应，因此驾驶员仍必须准备在有限的时间内进行干预。

　　在level-4中，与level-3相同，但出于安全考虑，不需要驾驶员注意，例如，驾驶员可以安全入睡或离开驾驶员座椅。

　　硬件

　　自动驾驶汽车测试平台应能够实现实时通信，如控制器局域网（CAN）总线和以太网，并能够实时准确地完成和控制车辆的方向、油门和制动器。车辆传感器配置是为了满足环境感知的可靠性要求并最大限度地降低生产成本。

　　自动驾驶汽车的传感主要分为3类：

　　自车传感

　　定位

　　周围传感

　　自车感应通过自车感觉传感器测量当前车辆状态，即速度、加速度、偏航和转向角等。自车感应传感器包括里程计、惯性测量单元（IMU）、陀螺仪和CAN总线。定位，使用外部传感器，如全球定位系统（GPS）或通过IMU读数进行航位推算，确定车辆的全球和本地位置。周围感知使用外部传感器来感知道路标线、道路坡度、交通标志、天气状况和障碍物。

　　自车感知传感器和外部感知传感器可以分为主动传感器或被动传感器。有源传感器以电磁波的形式发射能量，并测量返回时间以确定距离等参数。示例包括声纳、雷达和LiDAR传感器。被动传感器不发射信号，而是感知环境中已经存在的电磁波（例如，基于光的和红外的相机）。

　　另一个重要问题是计算平台，它支持传感器数据处理，以识别环境，并通过优化、计算机视觉和机器学习等计算密集型算法对车辆进行实时控制。有不同的计算平台，从CPU、GPU、ASIC到FPGA等。为了支持基于人工智能的自动驾驶，需要云服务器支持大数据服务，如大规模机器学习和大尺寸数据存储（例如高清地图）。

　　为了支持车路协同，车辆侧和路边都需要边缘通信和计算设备。自动驾驶汽车中的传感器配置示例如图2所示。它安装了激光雷达、摄像头、雷达、GPS和IMU等。

　　如果需要收集多模态传感器数据，则需要进行传感器校准，包括确定每个传感器数据之间的坐标系关系，例如相机校准、相机-激光雷达校准、激光雷达-IMU校准和相机-雷达校准。

　　此外，传感器之间需要使用统一的时钟（以GNSS为例），然后使用特定的信号来触发传感器的操作。例如，激光雷达的传输信号可以触发相机的曝光时间，这是时间同步的。

　　软件

　　自动驾驶软件平台分为多个层次，从下到上依次为实时操作系统、中间件、功能软件和应用软件。软件体系结构可以是端到端或模块化风格。

　　端到端系统直接从传感输入产生控制信号。控制信号可以是方向盘和踏板（油门和制动器）的操作，用于加速/减速（甚至停止）和向左/向右转弯。端到端驱动主要有3种方法：

　　直接监督深度学习

　　神经进化

　　深度强化学习

　　模块化系统是由多个组件组成的管道，将传感输入连接到执行器输出。模块化自动驾驶系统（ADS）的关键功能定期总结为：感知、定位和地图、预测、规划和决策以及车辆控制等。图3说明了E2E和模块化系统。

　　Perception从传感器收集信息，并从环境中发现相关知识。它发展了对驾驶环境的上下文理解，如障碍物的检测、跟踪和分割、路标/标记和自由空间可驾驶区域。基于所实现的传感器，可以通过使用激光雷达、相机、雷达或这3种设备之间的融合来处理环境感知任务。

　　在最高层次上，感知方法可以分为3类：中介感知、行为反射感知和直接感知。中介感知开发了关于周围环境的详细地图，包括车辆、行人、树木、道路标记等等。行为反射感知将传感器数据（图像、点云、GPS位置）直接映射到驾驶操作上。直接感知将行为反射感知与中介感知方法的度量集合相结合。

　　地图是指用道路、车道、标志/标线和交通规则等信息构建地图。通常，地图有两大类：平面地图是指依赖于地理信息系统（GIS）上的图层或平面的地图，例如高清地图；点云地图是指基于GIS中一组数据点的地图。

　　高清地图包含一些有用的静态目标，如车道、建筑物、红绿灯和道路标记等，这些元素是自动驾驶所必需的，即使是由于遮挡而无法被传感器适当检测到的物体。用于自动驾驶的高清地图与车辆定位功能紧密相连，并与激光雷达、雷达和摄像头等车辆传感器保持交互，以构建自动驾驶系统的感知模块。

　　定位决定了其在驾驶环境方面的地位。全球导航卫星系统（GNSS），如GPS、GLONASS、北斗和伽利略，依靠至少4颗卫星以相对较低的成本估计全球位置。可以通过使用差分GPS来提高GPS精度。GPS通常与IMU集成，以设计低成本的车辆定位系统。IMU已被用于估计车辆相对于其初始位置的位置，这种方法被称为“死推算”。

　　由于高清地图已被用于自动驾驶，因此基于该地图的定位也被考虑在内。最近，出现了许多关于自给式里程计算方法和同时定位与测绘（SLAM）的研究。通常，SLAM技术应用里程计算法来获得姿势，该姿势随后被馈送到全局地图优化算法中。

　　由于基于图像的计算机视觉算法的缺点，如特征提取和匹配、相机运动估计、三维重建和优化，视觉SLAM仍然是一个具有挑战性的方向。

　　预测是指根据障碍物的运动学、行为和长期/短期历史来估计障碍物的轨迹。为了完全解决轨迹预测问题，智能非常重要，因为必须限制各种可能性，在已知社会智能的情况下，无限的搜索空间必须是有限的。为了模拟社会互动，作者需要了解Agent人及其周围环境的动态，以预测他们未来的行为并防止任何崩溃。

　　规划决定将车辆带到目的地，同时避开障碍物，从而生成参考路径或轨迹。规划可以分为不同层次的路线（任务）规划、行为规划和运动规划。

　　路线规划是指在有向图中找到点对点的最短路径，传统方法分为4类，即goal-directed、separator-based、hierarchical和bounded-hop技术。

　　行为规划决定了本地驾驶任务，该任务将车辆驶向目的地，并遵守传统上由有限状态机（FSM）定义的交通规则。最近，人们正在研究模仿学习和强化学习来生成用于车辆导航的行为。

　　然后，运动规划在环境中选择一条连续的路径，以完成局部驱动任务，例如RRT（快速探索随机树）和Lattice规划。

　　控制通过选择适当的致动器输入来执行计划的动作。通常控制可以分为横向控制和纵向控制。大多数情况下，控制设计被解耦为2个阶段，轨迹/路径生成和跟踪，例如纯追踪方法。然而，它可以同时生成轨迹/路径和轨迹。

　　V2X是一种车辆技术系统，使车辆能够与周围的交通和环境进行通信，包括车对车通信（V2V）和车对基础设施（V2I）。从行人的移动设备到红绿灯上的固定传感器，使用V2X的车辆可以访问大量数据。通过积累来自其他同行的详细信息，可以缓解自车车辆的缺点，如感应范围、盲点和规划不足。V2X有助于提高安全性和交通效率。如何在车辆-车辆或车辆-道路之间进行协作仍然具有挑战性。

　　值得一提的是，ISO-26262驾驶车辆功能安全标准为确保车辆软件开发的安全性定义了一套全面的要求。它建议使用危险分析和风险评估（HARA）方法来识别危险事件，并定义减轻危险的安全目标。汽车安全完整性等级（ASIL）是ISO-26262在汽车系统中定义的风险分类方案。人工智能系统带来了更多的安全问题，这些问题由一个新建立的标准ISO/PAS-21448 SOTIF（预期功能的安全）来处理。

　　除了模块化或端到端系统之外，ADS开发中还有一个重要的平台“模拟”。由于实验车辆在道路上的驾驶成本仍然很高，并且在现有人类驾驶道路网络上的实验受到限制，因此模拟环境有利于在实际道路测试之前开发某些算法/模块。模拟系统由以下核心组件组成：

　　传感器建模（摄像头、雷达、激光雷达和声纳）

　　车辆动力学和运动学

　　行人、驾驶者和骑自行车者的形状和运动学建模

　　道路网络和交通网络

　　三维虚拟环境（城市和农村场景）

　　驾驶行为建模（年龄、文化、种族等）

　　模拟平台中存在的关键问题是“sim2real”和“real2sim”，前者是指如何模拟现实场景，后者是指如何作为数字孪生进行场景再现。

　　▍感知

　　感知周围环境并提取信息是自动驾驶的关键任务。

　　使用不同感知模式的各种任务属于感知范畴。相机是基于计算机视觉技术最常用的传感器，3D视觉成为一种强有力的替代/补充。

　　最近，BEV（鸟瞰图）感知已成为自动驾驶中最活跃的感知方向，尤其是在基于视觉的系统中，有两大优势。

　　首先，驾驶场景的BEV表示可以由下游驾驶应用程序直接部署，如轨迹预测和运动规划等。

　　其次，BEV提供了一种可解释的方式来融合来自不同视图、模态、时间序列和Agent的信息。例如，其他常用的传感器，如激光雷达和雷达，可以在3D空间中捕获数据，可以很容易地转换为BEV，并直接与相机进行传感器融合。

　　在之前的调查论文中，BEV工作可分为以下几类，如图4所示。

　　首先，基于视图变换分为基于几何的变换和基于网络的变换；

　　基于几何的方法充分利用相机的物理原理来传递视图，可以进一步分为经典的基于同形图的方法（即逆投影地图）和基于深度的方法，通过显式或隐式深度估计将2D特征提升到3D空间。基于深度信息的利用方式，作者可以将基于深度的方法分为两种类型：基于点和基于体素。

　　基于点的方法直接使用深度估计将像素转换为点云，在连续的3D空间中散射；

　　基于体素的方法通常直接利用深度引导将2D特征（而不是点）散射在相应的3D位置。

　　基于网络的方法可以采用自下而上的策略，其中神经网络的作用类似于视图投影仪，另一种选择可以采用自上而下的策略，通过交叉注意力机制（基于Transformer）直接构建BEV查询并搜索前视图图像上的相应特征，或者提出混合查询以匹配不同的下游任务。

　　到目前为止，BEV网络已被用于目标检测、语义分割、在线地图、传感器融合和轨迹预测等。

　　如图5所示，BEV融合算法有2种典型的流水线设计。其主要区别在于2D到3D的转换和融合模块。在透视图管道（a）中，不同算法的结果首先被转换到3D空间中，然后使用先验或手工规则进行融合。BEV管道（b）首先将透视图特征转换为BEV，然后融合特征以获得最终预测，从而保持大多数原始信息并避免手工设计。

　　在图6中，作者给出了仅用于相机输入、仅用于激光雷达输入以及相机和激光雷达输入的BEV和OCC网络的3个示例。

　　对于图6（a）所示的仅相机输入，多相机图像首先通过“Backbone”模块进行编码，如EfficientNetor/RegNet加FPN/Bi-FPN，然后分为两条路径；一方面，图像特征进入“视图变换”模块，通过深度分布或Transformer架构构建BEV特征，然后分别转到两个不同的Head：

　　一个Head通过“map ele detector”模块（其结构类似于基于transformer的DETR模型，也有一个可变形的注意力模块，输出关键点的位置和它们所属元素的ID）和“折线生成”模块输出地图元素的矢量化表示（它也是一个基于Transformer架构的模型，输入了这些嵌入的关键点，折线分布模型可以生成折线的顶点并获得地图元素的几何表示）；

　　另一个Head通过“BEV obj Detector”模块获得obj BEV边界框，其可以使用Transformer架构或类似的PointPillar架构来实现。

　　另一方面，在“2D-3D变换”模块中，基于深度分布将二维特征编码投影到三维坐标，其中保留了高度信息；然后获得的相机体素特征进入“3D解码”模块获得多尺度体素特征，然后进入“占用”模块进行类别预测，生成体素语义分割。

　　对于图6（b）所示的仅限激光雷达的输入，一些模块与图6（a）相同；首先，在“体素化”模块中，将点云划分为均匀分布的体素网格，生成3D点和体素之间的多对一地图；然后进入“Feature Encod”模块，将体素网格转换为点云特征图（使用PointNet或PointPillar）。

　　一方面，在“视图变换”模块中，将特征图投影到BEV上，将特征聚合器和特征编码器组合在一起，然后在BEV空间中进行BEV解码，分为两个Head：一个Head的工作原理如图6（a）所示，经过“map-Ele-Det”模块和“PolyLine-Generat”模块；

　　另一个Head通过“obj-det”模块进行BEV物体检测，结构类似PointPillar模型；另一方面，3D点云特征图可以直接进入“3D解码”模块，通过3D去卷积获得多尺度体素特征，然后在“occep.”模块中进行上采样和类预测，生成体素语义分割。

　　对于图6（c）所示的相机和激光雷达输入，大多数模块与图6（a）和6（b）相同，只是“特征连接”模块将连接激光雷达路径和相机路径的特征。

　　▍轨迹预测

　　为了安排安全高效的导航，自动驾驶汽车应该考虑周围其他智能体的未来轨迹。轨迹预测是一项极具挑战性的任务，最近引起了很多关注，它可以预测场景中所有动态智能体的当前和过去状态。

　　预测任务可以分为两个部分。第一部分是“意向”分类任务；它通常可以被视为一个有监督的学习问题，作者需要注释Agent可能的分类意图。第二部分是“轨迹”，它需要预测Agent在接下来的N个未来帧中的一组可能的未来位置，称为路点。这建立了他们与其他Agent以及道路的互动。

　　传统上，作者根据基于物理的、基于机动的和感知交互的模型对行为预测模型进行分类。基于物理的模型构成了动力学方程，为不同类别的智能体手工设计的运动建模。基于机动的模型是基于主体的预期运动类型的实用模型。

　　交互感知模型通常是基于ML的系统，可以对场景中的每个Agent进行配对推理，并为所有动态Agent生成交互感知预测。

　　图7给出了Cruise.AI设计的预测模型图，该模型是通用汽车收购的L4自动驾驶初创公司。显然，它说明了一个编码器-解码器框架。在编码器中，有一个“场景编码器”来处理环境上下文（地图），如Google Waymo的ChaufeurNet（光栅化图像作为输入）或VectorNet（矢量化输入）架构，一个“目标历史编码器”来处理Agent历史数据（位置），以及一个基于注意力的图网络来捕捉Agent之间的联合交互。

　　为了处理动态场景的变化，将混合专家（MoE）编码到门控网络中，例如，停车场中有不同的行为，如反向拉出、拉出和K转弯、平行停车第二次尝试、倒车和拉出、反向平行停车和垂直拉出等。

　　在图7所示的解码器中，有一个两阶段结构，其中初始轨迹由一个简单的回归器生成，然后由具有“多模态不确定性”估计的长期预测器进行细化。为了增强轨迹预测器，有一些辅助训练任务，如“联合轨迹不确定性”估计、“交互检测和不确定性”估算以及“占用预测”。

　　这种轨迹预测器的一大创新是其“自车监督”机制。基于观察到的“后知后觉的未来”，他们提供了“机动自标记器”和“交互自动标记器”来为预测模型生成大量的训练数据。

　　▍Mapping

　　该地图，尤其是高清地图，是自动驾驶的首选。地图构建技术可分为在线地图绘制和离线地图绘制。在离线地图中，作者在一个中心位置收集所有数据。数据捕获来自安装了全球导航卫星系统、IMU、激光雷达和相机等的车辆。另一方面，在线地图构建是使用轻型模块在船上进行的。

　　目前所有有前途的地图技术都使用激光雷达作为主要传感器，尤其是用于高清地图。另一方面，有一些方法只使用视觉传感器来构建地图，比如Mobileye的REM或基于视觉SLAM和深度学习的路标。

　　HD地图生成通常包括收集高质量的点云、对齐同一场景的多个点云、标记地图元素以及频繁更新地图。这个管道需要大量的人力工作，这限制了它的可扩展性。BEV感知提供了在线地图学习的潜力，该学习基于局部传感器观测动态构建高清地图，似乎是一种为自动驾驶汽车提供语义和几何先验的更具可扩展性的方式。

　　在这里，作者介绍了最近在在线地图方面的一项工作，称为Bi-Mapper。Bi-Mapper从透视图和IPM视图构建BEV路线图。透视图提供了物体之间的关系，在几何结构方面与BEV不同。由假设深度产生的IPM视图可以获得附近对象的鲁棒表示，但会导致远处对象的失真。

　　Bi-Mapper的框架如图8所示：它由全局交叉视图流、局部自车视图流、异步互学习和解码器模块组成；除了分割损失外，还有一个跨空间损失，可以缓解几何失真问题。

　　在Bi-Mapper中，全局跨视图流在自车坐标系中融合了不同视图的特征，这完全依赖于多视图的交叉学习。BEV路线图是在自车坐标系中绘制的，其中像素和相机坐标系之间的关系可以从相机校准参数中获得。局部自车视图流遵循该模型分别从多个视图学习局部特征。为了减轻几何失真，他们设置了“跨空间”损失。异步相互学习模块让两个流相互学习。

　　▍定位

　　准确定位自动驾驶汽车可以对行为规划等下游任务产生巨大影响。虽然使用IMU和GPS等传统动态传感器可以产生可接受的结果，但基于视觉的传感器、激光雷达或相机显然适用于这项任务，因为使用此类传感器获得的定位不仅对车辆本身，而且对其周围场景都有响应。虽然这两种传感器都具有良好的定位性能，但它们也存在一些局限性。

　　多年来，自动驾驶汽车的本地化一直在进行，大多数时候与地图绘制方面相结合，带来了两条截然不同的路线：第一条是SLAM，定位和地图绘制在一个循环中同时运行；第二种是在离线构建地图的同时拆分定位和地图。

　　最近，深度学习为SLAM带来了数据驱动的方法，在这里，作者展示了一个基于Transformer的定位方法的例子，称为卷积变换器的基于能量的跨模态定位（ECMLCT）：没有GPS和IMU的车辆通过LiDAR点云根据卫星图像进行定位，该点云被展平为旋转鸟瞰图（BEV）图像；从地图中提取候选卫星，并将其与BEV激光雷达图像配对以找到姿态相似性；具有高相似性的激光雷达卫星对实现低能量。ECML-CT架构如图9所示。

　　BEV激光雷达图像与候选卫星瓦片阵列相连，用作模型的输入。他们使用具有ReLU激活和最大池化的两个卷积层来获得中间表示。Reshape后，将其送入Transformer编码器。Mlayer Transformer编码器的顺序输出之后是序列池化步骤，该步骤随后被地图到MLP头中的LiDAR卫星对的相似性得分a。

　　▍规划

　　大多数规划方法，尤其是行为规划，都是基于规则的，这给数据驱动的系统探索和升级带来了负担。

　　基于规则的方法规划框架负责计算自车车辆的低级控制器要跟踪的轨迹点序列。作为一个主要优点，基于规则的规划框架是可解释的，当发生故障或意外的系统行为时，可以识别出有缺陷的模块。限制在于它需要许多手动启发式函数。

　　基于学习的计划方法已成为自动驾驶研究的一种趋势。驾驶模型可以通过模仿学习学习知识，通过强化学习探索驾驶策略。与基于规则的方法相比，基于学习的方法更有效地处理了车辆与环境的交互。尽管它的概念很吸引人，但很难甚至不可能找出模型行为不端的原因。

　　模仿学习是指基于专家轨迹的智能体学习策略。每个专家轨迹都包含一系列状态和动作，并提取所有“状态-动作”对来构建数据集。

　　为了处理标记数据的负担，一些科学家将强化学习（RL）算法应用于行为规划或决策。Agent可以通过与环境互动来获得一些奖励。RL的目标是通过试错来优化累积数字奖励。通过与环境持续交互，Agent逐渐获得最佳策略的知识，以到达目标端点。在RL中从头开始训练策略通常是耗时且困难的。将RL与其他方法（如IL和课程学习）相结合可能是一个可行的解决方案。

　　近年来，深度学习（DL）技术通过深度神经网络（DNN）的奇妙特性：函数逼近和表示学习，为行为规划问题提供了强大的解决方案。DL技术使得RL/IL能够缩放到以前难以解决的问题（例如，高维状态空间）。

　　这里提出了一种两阶段占用预测导向神经规划器（OPGP），它将未来占用和运动规划的联合预测与预测导向相结合，如图10所示。

　　在OPGP的第一阶段，在变压器Backbone上建立了一个集成网络。视觉特征是历史占用网格和光栅化BEV路线图的组合，表示特定场景下交通参与者的时空状态。矢量化上下文最初涉及以自动驾驶汽车为中心的参与者的动态上下文。同时输出所有类型交通参与者的占用预测，同时考虑视觉特征和矢量化上下文的交互感知。同时，编码后的场景特征和占用率在规划器Head中被共享并有条件地查询，规划器Head进行多模式运动规划。

　　OPGP的第二阶段侧重于建模来自占用预测的明确指导，以优化可行的方式进行细化。更具体地说，在Frenet空间中构建了一个优化管道，用于使用变换的占用预测进行规划细化。

　　▍控制

　　与自动驾驶管道中的其他模块（如感知和规划）相比，车辆控制相对成熟，经典控制理论发挥着主要作用。然而，深度学习方法不仅在各种非线性控制问题上获得了优异的性能，而且在将先前学习的规则外推到新的场景中也取得了很大的进展。因此，深度学习在自动驾驶控制中的应用越来越受欢迎。

　　传感器配置多种多样；虽然有些人的目标是仅用视觉控制车辆，但其他人则利用测距传感器（激光雷达或雷达）的低维数据，有些人则利用多传感器。在控制目标方面也有变化，一些人将系统公式化为高级控制器来提供目标，然后通过低级控制器来实现目标，通常使用经典控制技术。其他人的目标是学习端到端驾驶，将观察结果直接地图到低级车辆控制界面命令。

　　车辆控制大致可分为两个任务：横向控制和纵向控制。横向控制系统旨在控制车辆在车道上的位置，并实现其他横向动作，如变道或防撞操作。在深度学习领域，这通常是通过使用车载相机/激光雷达的图像/点云作为神经网络的输入来捕捉环境来实现的。

　　纵向控制管理车辆的加速度，使其在车道上保持理想的速度，与前车保持安全距离，并避免追尾碰撞。虽然横向控制通常通过视觉输入（摄像头）实现，但纵向控制依赖于与前/后车辆的相对速度和距离的测量。这意味着雷达或激光雷达等测距传感器更常用于纵向控制系统。

　　在本节中，作者描述了一种具有语义视觉地图和摄像头的端到端（E2E）驾驶模型。这些地图用于促进分割置信度Mask的注意力机制，从而将网络集中在捕获图像中的语义类上。类人驾驶是使用对抗性学习实现的，不仅通过最小化相对于人类驾驶员的模仿损失，还通过进一步定义鉴别器，该鉴别器迫使驾驶模型产生类人的动作序列。

　　训练数据（命名为“Drive360数据集”）来自一辆安装了8个摄像头的车辆（在实验中，只使用了前置摄像头数据），这是一个渲染的TomTom视觉路线规划模块，其中记录了人类驾驶员的车速和方向盘角度。

　　然后，用HERE Technologies的地图数据离线扩充数据集，以提供准确同步的视觉路线规划模块和额外的语义地图信息，如到红绿灯、十字路口、人行横道、限速和道路曲率等的距离。HERE语义图的一个有用特征是，它们通过定义数据子集来实现特定驾驶场景的模型训练和评估。

　　基本的E2E驾驶模型采用一系列过去的图像（例如，最后K帧）和地图渲染，并预测未来时间步长的转向角和速度。

　　考虑到Drive360数据集，使用模仿学习来训练这种端到端驾驶模型是很简单的，该网络的架构如图11（a）所示。

　　附加语义图信息的幼稚方法，称为后期融合方法，将数据附加到模型管道的末端，如图11（b）所示：所有语义图信息都作为向量嵌入，然后由完全连接的网络进行处理。

　　他们提出了一种基于语义图信息提高分割网络输出类概率的新方法，其完整架构如图11（c）所示。这种方法使用语义分割网络，为所有19个类别（如行人、道路和交通标志）生成置信度Mask。

　　然后，使用获取语义图信息并输出19类注意力向量的软注意力网络来促进这些Mask。因此，注意力网络允许提升分割网络的个体类概率，其中提升基于数字地图信息和LSTM的先前隐藏状态。

　　在训练驾驶模型时，决策问题被视为具有i.i.d.目标（专家行动）的监督回归问题。在训练E2E驾驶模型时，考虑到时间依赖性，提出了匹配动作序列（称为小驱动）而不是单一动作。为了产生小驱动程序的时间损失，模仿学习问题被公式化为生成对抗性网络（GAN），其中驱动模型是生成器，鉴别器判断小驱动程序是否与人类小驱动程序来自相同的分布。

　　▍V2X

　　得益于通信基础设施的更好建设和通信技术的发展，如车辆对一切（V2X）通信，车辆可以以可靠的方式交换信息，从而实现它们之间的协作。协同驾驶利用车对车（V2V）和车对基础设施（V2I）通信技术，旨在实现协同功能：

　　协同感知

　　协同机动

　　有一些通用的协同驾驶场景：智能停车、变道和并线以及交叉口协同管理。车辆排队，也称为车队驾驶，是在同一车道上以较小的车间距（通常小于1秒）以相同的速度驾驶两辆或两辆以上连续车辆的做法，这是实现协同自动驾驶的主要用例。

　　使用集中或分散方法进行的有价值的研究工作集中在协调交叉口的CAV和高速公路入口匝道的合并上。在集中式方法中，系统中至少有一项任务是由单个中央控制器为所有车辆全局决定的。在分散控制中，每个车辆基于从道路上的其他车辆或某个协调器接收到的信息来确定其自己的控制策略。

　　分散的方法可以分为三类：协商、协议和紧急。

　　最具代表性的谈判协议有：用于合作问题的合同网和用于竞争问题的拍卖。协调过程中的协议将产生一系列可接受的举措，甚至是目标的动态重新确定。Emergent使每辆车都根据其目标和感知以自私的方式行事，例如，博弈论或自组织。

　　在自动驾驶中，利用多个智能体之间的互动来改善感知的协作或合作感知取代了个人感知，受到了相当大的关注。随着深度学习方法在自动驾驶感知中的广泛应用，提高协同感知系统能力和可靠性的努力正在稳步增加。

　　根据传递的信息和协作阶段，协作感知方案可以大致分为早期、中期和后期协作。早期的协作采用网络输入处的原始数据融合，也称为数据级融合或低级融合。

　　考虑到早期协作的高带宽，一些工作提出了中间协作方法来平衡性能和带宽的权衡。后期协作或对象级协作在网络上采用预测融合。协作感知中的挑战性问题包括：车辆的校准、定位、同步和空间配准等。

　　在这里，作者提出了一个分层的V2X传感平台，如图12所示。时间同步信息传达来自不同Agent的数据之间的时间差。为了灵活，数据容器优选保持时间窗口，例如1秒（对于激光雷达/雷达为10帧，对于相机为30帧）。空间配准需要姿态信息，这些信息是从车辆定位和校准中获取的，大多基于在线地图或与离线构建的高清地图中的信息匹配。

　　作者假设传感器是相机和激光雷达。神经网络模型可以处理原始数据以输出中间表示（IR）、场景分割和目标检测。为了统一协作空间，将原始数据地图到BEV，并且处理后的结果也位于同一空间中。

　　为了保持有限的尺度空间，在IR中保留了多个层，例如3层，这允许不同数据分辨率的灵活融合。V2X的协同感知需要在接收器中做更多的工作，以整合来自其他车辆和路边的信息，分别融合IR、分割和检测通道。融合模块可以是基于CNN、基于Transformer或基于图神经网络（GNN）的。

　　▍仿真

　　在封闭或公共道路上进行物理测试是不安全的，成本高昂，而且并不总是可重复的。这就是模拟测试有助于填补空白的地方，但模拟测试的问题在于，它只能与用于测试的模拟器以及模拟场景在真实环境中的代表性一样好。

　　理想的模拟器是尽可能接近现实的模拟器。然而，这意味着它必须在3D虚拟环境方面非常详细，并且在较低level-的车辆计算（如汽车物理）方面非常精确。因此，在3D场景的真实性和车辆动力学的简化之间存在权衡。

　　通常，在虚拟场景中学习到的驾驶知识会转移到现实世界，因此如何使在模拟中学习的驾驶知识适应现实成为一个关键问题。虚拟世界和现实世界之间的差距通常被称为“现实差距”。为了解决这一差距，提出了各种方法，分为两类：从模拟到现实的知识转移（sim2real）和数字孪生学习（real2sim）。

　　sim2real逐渐发展出6种方法，包括课程学习、元学习、知识蒸馏、鲁棒强化学习、领域随机化和迁移学习。基于数字孪生的方法旨在使用来自传感器和物理模型的数据，在模拟环境中构建真实世界物理实体的地图，以实现反映相应物理实体（如AR（增强现实）和MR（混合现实））的整个生命周期过程的作用。

　　尽管在模拟中测试自动驾驶系统相对便宜且安全，但为评估生成的安全关键场景对于管理风险和降低成本应该更重要。事实上，安全关键场景在现实世界中是罕见的，因此在模拟中生成这些场景数据的各种方法被投入了研究，分为3种类型：数据驱动的生成，仅利用收集到的数据集中的信息来生成场景，使用来自部署在仿真中的自动驾驶车辆的反馈的对抗性生成，以及利用主要来自外部知识的信息作为生成的约束或指导的基于知识的生成。

　　在这里，作者报道了一个最新的神经传感器模拟平台-UniSim，由多伦多大学Waabi和麻省理工学院建造。UniSim将配备传感器的车辆捕获的单个记录日志转换为真实的闭环多传感器模拟，作为可编辑和可控的数字孪生。图13显示了UniSim的概述。

　　如图13所示，UniSim是一个神经渲染闭环模拟器，它从环境的单次通过中捕获的传感器数据中联合学习静态场景和动态演员的形状和外观表示。为了更好地处理外推视图，为动态对象引入了可学习的先验，并利用卷积网络来完成看不见的区域。

　　此外，UniSim中的3D场景分为静态背景（灰色）和一组动态演员（红色）。对于静态背景和动态演员模型，分别查询神经特征字段，并执行体绘制以生成神经特征描述符。静态场景是用稀疏特征网格建模的，并使用Hypernet从可学习的潜在因素中生成每个参与者的表示。最后，使用CNN将特征块解码为图像。

　　注：一类新兴的生成模型，称为扩散模型，其通用管道包括学习数据分布的前向过程和后向过程，以及生成新数据的采样过程，在计算机视觉中获得了极大的关注。近年来，它在图像到图像、文本到图像、3D形状生成、人体运动合成、视频合成等领域越来越受欢迎。期望扩散模型为自动驾驶模拟器合成可想象的驾驶场景内容。

　　▍安全

　　安全是自动驾驶系统（ADS）在现实世界部署中的主要问题。除了对传感器和网络系统的经典攻击外，基于人工智能或机器学习（包括深度学习）的系统尤其需要考虑神经网络天生容易受到对抗性示例中的对抗性攻击所带来的新安全问题。

　　目前，对抗性防御可以分为主动防御和被动防御。主动方法侧重于提高目标人工智能模型的稳健性，而被动方法旨在在将对抗性示例输入模型之前检测和对抗这些示例。主动防御方法主要有5种：

　　对抗性训练

　　网络提炼

　　网络正则化

　　模型集成

　　认证防御

　　反应防御尝试对抗性检测和对抗性转换。为了提供安全保障，需要针对ADS将面临的现实世界中的场景规模进行大量的验证和确认（V&V）。V&V最大化场景覆盖的一个常见策略是在模拟的大量生成场景样本中验证ADS。有两种方法可以保证合理的覆盖范围：基于场景采样的方法和形式化方法。

　　场景采样方法是人工智能安全控制的主要方法，包括基于测试的采样，以最小的努力最大限度地扩大场景覆盖范围，以及基于伪造的采样，寻找更值得开发者关注的安全角落案例，如安全关键场景。

　　AV安全中常用的形式化方法包括模型检验、可达性分析和定理证明。模型检查源于软件开发，以确保软件行为符合设计规范。当安全规范用公理和引理表示时，则定理证明可以用于使用最坏情况假设来验证安全性。可达性分析由于其为动力系统生成安全声明的固有能力，捕捉到了动态驾驶任务（DDT）的主要特征，如Mobileye的安全模型RSS（责任敏感安全）和Nvidia的安全模型SFF（安全力场）。

　　广泛使用的安全指南标准ISO 26262《道路车辆功能安全》仅适用于缓解与已知部件故障相关的已知不合理风险（即已知的不安全场景），但它没有解决由于复杂的环境变化以及ADS如何应对这些变化而导致的AV驾驶风险，而车辆中没有任何技术故障。

　　ISO 21448预期功能的安全性（SOTIF）中提出了一个定性目标，该目标描述了最大限度地减少ADS功能设计的已知和未知不安全场景结果的高级目标，如图14所示。

　　基于样本的方法在发现未知的不安全场景方面具有较少的偏见和更多的探索能力，从未知到已知的推动具有“水平”性质，因为所有采样场景通常都在一致的模拟环境和相同的保真度水平内。

　　▍总结

　　在这篇关于自动驾驶的综述中，作者概述了一些关键的创新以及尚未解决的问题。已经提出了几种基于深度学习的架构模型，即BEV/占用感知、V2X中的协作感知、基于BEV的感知、预测和规划的端到端自动驾驶（BP3）。

　　最后，作者想简要讨论基础模型对自动驾驶领域的影响及其数据闭环范式。

　　最近，在大型语言模型（LLM）的支持下，聊天系统，如ChatGPT和PaLM，出现并迅速成为在自然语言处理（NLP）中实现人工通用智能（AGI）的一个有前途的方向。

　　事实上，关键的创造，如在整个万维网中获取知识的大规模预预训练、微调、即时学习、情境学习、思想链（COT）和来自人类反馈的强化学习（RLHF），在提高LLM的适应性和表现方面发挥了重要作用。同时，也带来了一些关于强化偏见、侵犯隐私、有害幻觉（不真实的废话）和显著的计算机功耗等方面的担忧。

　　基础模型的概念已经从NLP扩展到其他领域，如计算机视觉和机器人。同时，实现了多模态输入或输出，使其应用更加广泛。视觉语言模型（VLM）从网络级图像文本对中学习丰富的视觉语言相关性，并使用单个VLM（如CLIP和PaLM-E）对各种计算机视觉任务进行零样本预测。

　　Meta提出了ImageBind，这是一种学习跨6种不同模态（图像、文本、音频、深度、Heat和IMU数据）的联合嵌入的方法。它实际上利用了大规模的视觉语言模型，并通过与图像的配对将零样本功能扩展到了一种新的形式。

　　扩散模型的巨大成功始于图像合成，但扩展到其他模态，如视频、音频、文本、图形和三维模型等。作为多视图重建的一个新分支，NeRF提供了三维信息的隐式表示。扩散模型和NeRF的结合在文本到三维合成中取得了显著的成果。

　　总之，LLMs的出现使AGI从NLP到各个领域，特别是计算机视觉，产生了连锁反应。自动驾驶系统（ADS）肯定会受到这一趋势的影响。如果有足够庞大的数据和视觉语言模型，再加上NeRF和扩散模型，基础模型的思想和操作将在自动驾驶中产生革命。

　　“长尾”问题将在很大程度上得到缓解，数据闭环可能会转变为另一种循环模式，即预训练+微调+强化学习，更不用说为轻型货车模型构建模拟平台和自动标记训练数据的容易性了。

信息排行更多

热点话题更多

经纬恒润赋能唐山港智慧化港口建设

丰田纺织将再次出展2024北京国际汽车工业展览会

工业和信息化部召开人工智能赋能新型工业化企业座谈会

PDI Technologies 将参展 UNITI expo 2024

当CPU算力趋近极限，GPU能否成为数字芯片设计的救星？

Automation Anywhere 在 Google Cloud 上为数百家企业带来 Gemini 模型驱动的流程自动化，旨在支持业务转型

CVPR 2024 | 自动化所新作速览（一）

珞珈沃土育英才，武汉大学联合小米成立“机器人系”

话题推荐更多

栏目最新更多