【ZiDongHua 之“驾驶自动化”收录关键词:毫末智行 自动驾驶 计算机视觉 传感器
 
  毫有引力|国际顶赛双奖!毫末“快-慢双系统”展现中国自动驾驶硬实力
 
  
 

快系统实时响应,慢系统智能决策!

快如闪电,稳若泰山!
毫末双系统闪耀国际顶尖赛事
端到端自动驾驶再攀技术高峰

想知道毫末如何用快慢双擎征服全球赛道?

3分钟带你直击技术内核

 

6月11日-15日,2025国际计算机视觉与模式识别会议 CVPR 2025( Conference on Computer Vision and Pattern Recognition 2025)在美国田纳西州召开。毫末智行团队与清华大学联合提出的快系统 HMAD在 CVPR 2025 NavSim E2E Driving 挑战赛上获得第三名;同时,在 Waymo Vision-based End-to-End Driving Challenge 上,毫末慢系统 HMVLM 仅使用 Waymo Open Dataset 训练获得第二名。

 

图1:快系统获第三名

 

毫末的自动驾驶研发起步于感知大模型,着眼于泛化的环境理解与场景识别,团队先后探索了两段式方案、视觉问答 VQA( Visual Question Answering )任务,不断推动感知到决策的边界。随着端到端 E2E( End-to-End )技术日益成为行业共识,团队逐步转向一段式轨迹输出的端到端方案,将自动驾驶能力提升到新的层级。

 

基于对真实场景复杂度和工程落地需求的深刻认知,毫末采用了“快–慢双系统”架构:快系统主攻高频控制与安全冗余,追求实时性与稳定性慢系统专注复杂场景下的语义理解与策略推理,追求智能化与可解释性。两条技术路线并行迭代,独立攻关,最终实现融合共进。

 

此次“快-慢双系统”连获佳绩,展现了毫末端到端自动驾驶技术的创新实力和国际竞争力,同时也证明了毫末在大模型驱动下复杂场景理解与决策的强大潜力。

 

下面,跟随小编,一起解锁毫末“快-慢双系统”的硬核技术干货!

 
 

 

告别黑箱决策!

快系统实现端到端决策真正可控

 

 

在 CVPR 2025 NavSim E2E Driving 挑战赛中,毫末的快系统基于 NAVSIM( Navigation Simulation )框架进行评测和迭代。

 

NAVSIM 数据集由学术界与产业界联合开发的专为端到端自动驾驶规划研究打造的大规模仿真与基准测试平台,针对传统自动驾驶评估的难题进行了创新设计,已成为端到端规划方向的权威基准,被众多国际竞赛、论文广泛采纳。

 

NAVSIM 采用非反应式仿真框架,在真实采集的鸟瞰图数据上进行短程仿真,兼顾效率与真实。针对每一条生成轨迹,从责任事故、可行驶区域合规、碰撞时间裕度、任务进度、驾驶舒适度、综合策略等多个维度给出量化分数。使得快系统能够精准识别与优化端到端决策过程的每一个环节,实现真正可控的端到端自动驾驶。

 

传统端到端自动驾驶方案通过深度网络直接从多传感器输入端到轨迹或控制信号,虽然整体 pipeline 简洁、易于端到端优化,但在实际落地中暴露出两类核心问题:一是轨迹生成单一,缺乏多样性,难以覆盖复杂、长尾场景;二是决策过程“黑箱化”,可解释性与合规性不足,难以工程化部署,业界通用的直接回归方式难以兼顾决策的多样性、合理性与安全性。

 

针对上述业界痛点,毫末提出生成评分解耦的架构——快系统方案以锚点为基础,生成多样化的轨迹候选 Anchored Offset Proposal Generator 对候选轨迹从多个仿真指标进行评分,选出最佳结果 Simulation-supervised Multi-target Scorer 。这样的架构实现了生成多样+决策可控+过程可解释的技术闭环。

 

图3:快系统架构流程图

 
具体来讲,毫末快系统以三大核心技术突破行业瓶颈:

 

1、 Anchored Offset Proposal Generator 案的核心创新点是:不再直接回归终点或全轨迹,而是引入与车辆行为语义相关的锚点,每个锚点可学习、可自适应;同时多步迭代优化初始锚点后,轨迹通过多步 offset 修正,递进式优化;采取多样性控制引入多锚点与随机扰动机制,解决模式坍缩 mode collapse ,保证候选轨迹分布合理。与传统技术相比,直接回归只能输出单一轨迹,遇到多解、不确定性场景易失效, Anchored Proposal 方案本质上引入了轨迹空间探索能力,丰富决策的鲁棒性。

 

2、 Simulation-supervised Multi-target Scorer 方案的评分器原理基于 NavSim 仿真环境设计,针对实际自动驾驶落地的多维安全、合规、舒适等需求,对每条轨迹做打分。核心指标包括:无过错碰撞 No At-Fault Collision 、可行驶区域合规 Drivable Area Compliance 、碰撞时间裕度 Time to collision 、行驶进度 Ego Progress 、驾驶舒适度 Comfort 、综合策略得分 Extended PDM Score 等。利用 NavSim 仿真标签、真实驾驶采样+数据增强,监督学习端到端训练评分网络,具有明确安全边界、可解释性强、便于系统优化与上线部署的优势。

 

3、快系统在可解释性与扩展性上具有优势评分器输出可直接用于系统监控与调优,开发者可追踪每个决策点得分来源、实现精细可控的工程部署。

 

毫末在探索中不断追求创新,此次参赛的快系统方案主要受评分器能力和轨迹空间搜索效率的限制,未来计划结合慢系统语义理解能力,可进一步提升极端场景下的决策可靠性。

 

 

 
最强大脑
慢系统如何让 AI 学会人类思考?

 

作为全球首个聚焦纯视觉输入、全端到端决策链路的权威赛事 Vision-based End-to-End Driving Challenge ,比赛设置极为严苛,专门考验参赛系统在无高精地图、无激光雷达等辅助条件下,仅凭8路摄像头画面,实现看-想-开的全流程自动驾驶能力,这项赛事已成为国际自动驾驶大模型、端到端路线的重要试金石。

 

赛事4,021段,每段20秒的真实行车片段中,精选出极其罕见的长尾危险场景——逆向来车、鬼探头、突然 cut-in ,出现概率低于0.003%,参赛队伍必须直接预测未来5秒、无决策以及感知标注的20个 BEV( Bird's-Eye View )轨迹点,挑战系统极限推理与泛化能力。 RFS Rater Feedback Score )基于人工和自动化的多维反馈,精准反映系统在极端场景下的安全性与可靠性。

 

毫末慢系统是针对端到端自动驾驶慢系统研发的核心模型。主要思路是用 VLM( Vision-Language Model )的通用理解和推理能力,弥补快系统在场景复杂度、语义泛化和推理透明性上的短板。

 

图4:慢系统架构流程图

 

具体来讲,毫末慢系统通过以下优势赋能自动驾驶决策:

 

  • Qwen 等通用视觉语言大模型的能力:毫末深知创新的关键,不在于网络结构的复杂度,而在于如何将自动驾驶场景知识、高阶推理链和关键业务需求高效注入大模型。

     
  • 方案整体工程友好,可复用性强,落地难度低多摄像头视觉输入与车辆运动学上下文进行特征提取和融合。

     

  • 策略性多视角选择与 Prompt 设计:重点保留对动态场景有影响的信息,同时降低输入冗余和系统带宽压力。

     

  • 多阶段链式推理 CoT  Prompt :将模型推理过程拆分为场景理解→决策推理→轨迹生成三步,每一步生成可读、可解释中间结果,引导模型对复杂场景作出合理推理。

     

  • Spline-based 轨迹平滑后处理:优化轨迹的物理合理性和舒适度。

 

毫末慢系统为了实现简洁实现和工程高效,没有引入额外的自研深层网络或复杂定制模块,而是将核心工程挑战集中在场景理解、 Prompt 设计和业务接口优化。在实际研发过程中,毫末发现只要理解业务需求,设计好输入输出结构和推理链,通用大模型的基础能力就可以很好发挥出来,大大简化了训练、部署与维护流程。

 

尽管毫末慢系统展现了优秀的复杂场景理解和高可解释性推理能力,但目前仍存在巨大挑战:首先,物理世界理解有限。受限于视觉语言大模型的泛化边界,模型对真实物理环境的细节、动力学约束等精确捕捉能力仍有明显不足。某些涉及微妙物理互动或极端动态变化的场景,推理结果可能存在失真;其次,算力与响应时延压力大。毫末慢系统推理链路长,模型参数量大,实际部署时对硬件算力和推理延迟要求高,目前难以高频实时闭环运行,主要用于策略级、低频决策环节。

 

 

 

快系统+慢系统=更聪明的 AI 驾驶?

毫末端到端自动驾驶未来蓝图

 

毫末选择“快-慢系统”双线并进,是基于对真实自动驾驶场景复杂性与可落地性的深刻洞察。快系统确保高频控制和工程闭环,慢系统则在高难度场景下展现强大的理解与推理能力。两套体系各自收获重要理解和实战成绩,彼此补充,互为启发,为下一步的协同融合打下坚实基础。

 

展望未来,毫末将聚焦快慢系统的深度融合,力求在保持高实时性和高智能化的基础上,打造更安全、更聪明、更可解释的端到端自动驾驶系统。毫末也欢迎更多行业同仁和学术伙伴,携手交流合作,共同推动自动驾驶技术的产业化和开放创新。

 

毫末坚信,在不久的将来端到端自动驾驶不再是“黑盒”,自动驾驶每一步都更透明、更可控、更值得信赖。关注毫末智行,和毫末一起定义自动驾驶的未来!