田大新：多模态系统融合助力自动驾驶技术落地 | 第七届世界智能大会-智能网联汽车高质量发展论坛

时间：2023-08-01 00:42:15 发布：tgy 来源：新能源汽车报第一对焦：自动驾驶

【ZiDongHua 之汽车驾驶自动化收录关键词：自动驾驶多模态系统融合北京航空航天大学田大新激光雷达毫米波雷达世界智能大会智能网联汽车高质量发展】

　　头条|田大新：多模态系统融合助力自动驾驶技术落地

在第七届世界智能大会-智能网联汽车高质量发展论坛上，北京航空航天大学交通科学与工程学院副院长田大新发表了题为《自动驾驶关键技术》主旨报告。

　　他指出，目前自动驾驶已经成为技术创新和产业发展的热点，拉动了很多行业和产业链的协同发展。当前，世界各国都在这个领域进行了广泛布局，设立了各种国家级的行政计划和项目。

　　自动驾驶技术涉及四大模块

　　《汽车驾驶自动化分级》将自动驾驶分为五级，L0是最低等级，命名为人类驾驶，和自动驾驶完全不沾边。L1为辅助驾驶，正在体现技术创新还是在L2、L3阶段，特定场景、特殊环境下的L4、L5则还需要很长的时间才能够实现。作为科研人员和技术研究者以及产业创新将突破L3作为当前的重要目标。

　　田大新认为，实现上述目标，剖析一下自动驾驶涉及的关键组成部分或者关键的技术可以分为四大类：其中环境感知是基础，它替代的是我们人眼的观察、听觉、触觉，这是感知层面。有了感知后涉及路径规划，决定了车辆按照哪条路线走，以及行为的决策。最后实现真正的行驶离不开机械的自动控制，也就是运动控制模块。实现完整的自动驾驶，这四类技术缺一不可。

　　在环境感知层面，主要运用摄像头、激光雷达等感知元件。除了特斯拉坚持仅采用摄像头为感知方案外，现在通用的自动驾驶感知模块还是依靠激光雷达+摄像头的组合方案。

　　如何将图像和雷达进行融合，是当前学术的前沿热点，这称作跨模态感知。“我们知道图像有它的特点，直观反映出它的原貌，有点儿类似人的眼睛。在雨雾遮挡等恶劣的环境下会受限，光线遮挡后无法识别。但是雷达却可以不受恶劣环境影响，把周边环境识别出来。”田大新谈道，多模态的信息融合能够增强自动驾驶技术应对复杂多变场景的能力，它的感知准确性以及鲁棒性增强，业界都在持续进行相关领域的探索。

　　除了基础模块层面，从体系架构方面也在探索。田大新指出，单车感知方案虽然可以做到眼观六路，但是无法预料未知路段和环境，这就需要车路协同感知。将路侧的感知信息传递给车辆，便于驾驶员及时了解前方的交通状况，为决策模块提供很好的支撑。

　　“车路协同感知为车辆提供预判信息，让自动驾驶技术越来越完善。单车智能+车路协同，使自动驾驶技术水平提升了很大一个量级。”田大新表示。

　　在路径规划层面，根据道路的情况，生成路径，控制车速，最后形成最优的目标路线，这是路径规划方面通用的处理流程。但车辆在道路上行驶，会受到多重因素的影响，加上中国的道路情况复杂多变，仅靠单车智能的挑战非常大，需要提前做好多车协同规划。

　　在行为决策层面，现在非常火的是机器学习、强化学习、规则学习以及诸如ChatGPT的大模型等。自动驾驶的技术是不断学习的过程，怎样用拟人化的学习过程最终实现控制车辆，做出正确的操作，这是最终决策的过程。

　　“现在非常热的深度强化学习，针对自动驾驶有相应的动作和激励来训练模型。自动驾驶有一个问题叫做长尾效应，涉及的问题和场景非常多，比如马路上突然飘来白色塑料袋，一个小动物突然穿行马路等，在平时的训练过程中很难穷尽。而通过仿真系统生成大量场景，训练行为的测算，使得机器在短时间内能够快速迭代，实现拟人化，未来可能会超过人的驾驶性能学习的模型算法。”田大新进一步介绍道。

　　此外，他还提到，自动驾驶技术要具体落到车的机械操纵上，涉及和传统的机械设置、PID控制、闭环控制、MPC控制器来做运动控制的整体算法，这是一整套的控制体系。

　　探索多模态融合系统

　　“围绕自动驾驶从感知、规划和决策方面，我们的团队开展了一系列的研究，针对融合感知跨模态，提出了轻量化自注意力特征融合模块，最终是一个优化目标回归和分类损失函数的计算。相关论文也发表在这个领域最权威的期刊，识别精度得到了最大提升。”田大新表示。

　　他进一步补充道，在针对不同的自注意力特征融合和视觉感知融合，以及不同的天气光照条件下，团队的研究成果使整个识别的准确率和精度均得到较大提升，同时构建了点云的语义增强模块，使生成的效果像图像一样直观，对驾驶员进行提醒。“就像现在四周遍布无线电波，手机可以借助无线信号传输一样，看不见摸不着，点云也是这样的，需要多模态跨模态间的融合。”

　　不仅如此，在探索轻量级的动态滤波和动态融合模块方面，团队研究对三维距离的交并比目标函数进行优化，目前在人工智能领域最权威的期刊发表。

　　田大新表示，不是靠单车感知，要形成多车感知，每个车的感知范围有限，多个车分布的信息整合，类似基本数学做并集，还要去除冗余，弥补缺失，最终形成宏观全局的态势感知，这是目前团队在做的创新性工作，相关成果也正在预发表阶段。另外，在多车协同时空融合算法以及多目标感知方面，团队也进行了一些探索性的工作。

　　与此同时，在控制决策方面，需要重点考虑不同场景下的多车协同编队换道算法，纵向编队多车协同换道以及基于不确定多车协同的换道。“特别是在十字路口特殊场景下，自动驾驶车辆最难的挑战，是不敢过十字路口，对向的车总觉得危险，不像人在驾驶时觉得这个空隙可以穿过去，自动驾驶车辆对这个场景的预判还是非常有挑战的。”田大新补充道。