首 页
研究报告

医疗健康信息技术装备制造汽车及零部件文体教育现代服务业金融保险旅游酒店绿色环保能源电力化工新材料房地产建筑建材交通运输社消零售轻工业家电数码产品现代农业投资环境

产业规划

产业规划专题产业规划案例

可研报告

可研报告专题可研报告案例

商业计划书

商业计划书专题商业计划书案例

园区规划

园区规划专题园区规划案例

大健康

大健康专题大健康案例

行业新闻

产业新闻产业资讯产业投资产业数据产业科技产业政策

关于我们

公司简介发展历程品质保证公司新闻

当前位置:思瀚首页 >> 行业新闻 >>  产业资讯

自动驾驶典型 VLA 架构
思瀚产业研究院    2025-07-08

1、Waymo EMMA:开创性的端到端多模态自动驾驶模型

作为早期开创性模型,EMMA 模型架构较为简单,主要由编码器+大语言模型构成。感知部分,EMMA 模型开创性的同时处理文本(导航指令、自车历史状态)、图像(摄像头视频感知)等多模态输入,并利用视觉-语言框架将所有的输入和输出表示为普通文本,将驾驶任务转化为视觉问答(VQA)问题,充分利用其 Gemini 大语言模型储备的大量知识,更好的理解驾驶任务中的动态变化;推理输出方面,为了增强模型的推理能力使之更符合自驾需求,EMMA 对原有大语言模型进行了微调,通过混合训练来实现更多自驾能力,具体而言,其将感知任务拆分为空间推理、道路图估计、场景理解等多个子任务,使微调的LLM模型能够更好的生成各种运动规划和驾驶控制信号。

EMMA 框架具有三大特性。1)EMMA 将所有的输入和输出表示为自然语言文本形式,所有任务共享统一文本表示空间,可以最大限度的调用语言模型的知识储备并提供了将其余驾驶任务继续融入系统的拓展性;2)引入 CoT 增强模型的可解释性,EMMA将CoT融入到轨迹生成中,要求模型在预测时阐明相关理由,例如将推理过程结构化为场景描述、关键物体描述、关键物体行为描述、驾驶决策输出四个子任务,数据集测试结果显示,引入CoT的模型相较于基准模型整体性能提升了 6.7%,在驾驶决策和关键物体识别的能力上分别提升3.0%和 1.5%;3)自监督模型,模型训练唯一需要监督数据的是自车未来位置,其余数据不需要专门人工标签,提高了数据来源的可拓展性。

EMMA 在公开数据集的开环测试取得了较好效果。EMMA 采用最小尺寸基座模型Gemini1.0 Nano-1 分别在 WOMD 和 nuscens 数据集上进行了端到端轨迹预测的测试。在WOMD数据集中,经过内部预训练的 EMMA+模型在短时间窗口上的ADE(平均位移误差)性能超越了基准模型,但在较长时间窗口表现较差,主要是 EMMA 只有摄像头输入,基准模型结合了激光雷达,深度感知能力更好;在 nuscens 数据集中,自监督的EMMA+取得了SOTA效果,比参与测评的监督基准模型平均性能提高 6.4%,比自监督的基准模型性能提高17.1%。

作为自动驾驶 VLA 的初步尝试,EMMA 距离工程部署尚有距离:1)模型仅能处理有限帧数,难以捕获驾驶任务所需的长时间依赖关系,自动驾驶性能较差;2)依赖预训练的多模态模型,但该模型未集成与点云相关的编码器,3D 空间感知和多模态能力受到限制;3)当前测评基于公共数据集上的开环测试,模型闭环性能不清晰,距离工程部署尚有距离;4)参数规模庞大的语言模型在车端部署对端侧芯片算力、带宽带来挑战,车端推理实时性不足,需要在模型大小、推理质量、推理效率之间实现平衡。

2、Open Drive VLA 框架的贡献在于模型3D环境感知和交互

Open Drive VLA 是专为自动驾驶设计的端到端 VLA 模型,主要包含一个预训练的视觉编码器和一个开源 VLM 模型。模型首先利用预训练的编码器从多视图图像中提取中间特征;然后分层视觉语言特征对齐模块将图像 token 对齐到文本域;其次在VLM推理空间中进行车辆-环境-自车交互推理和输出高层次的驾驶指令,最后根据高层次指令给出自车的未来轨迹。架构的创新在于 1)引入以视觉为中心的查询模块和分层视觉-语言特征对齐模块,提升模型3D 感知能力;2)引入条件车辆运动预测任务,提升自车复杂环境下交互能力。

3D 环境感知与对齐:传统的 VLM 模型通常依赖于 2D 视觉编码器,视觉token的选择和注意力权重通过语言监督间接引导,模型缺乏足够的 3D 空间感知能力会造成严重的多模态输出幻觉(即语言模型的反应与图像输入内容不一致)。针对此问题,OpenDriveVLA在感知环节采用了以视觉为中心的查询模块,使模型重点关注与驾驶相关的物体和3D地图信息,具体而言在模型获得 BEV 特征表示后,会用三个视觉查询模块(Track、Map、Scence)以空间定位的方式捕捉动态车辆行为和静态地图结构,以获得3D 中间特征表示。

并利用分层视觉-语言对齐机制弥补不同空间的模态差距,即指针对三个特定的查询模块引入三个特定的可训练投影机制进行视觉嵌入,使得不同模块的视觉信息都有详细的语言描述与之对应,达到对齐视觉和语言模态的效果,例如对于 Map 信息,以真实标注数据训练的文本转化机制可以将车道分隔线、人行横道和道路边界等地图元素都转化为描述性文本。

轨迹生成与环境交互:Open Drive VLA 引入了条件车辆运动预测任务,作为3D车辆-环境-自车交互建模的代理任务,使模型能够学习不同物体在空间中的运动模式,即模型能够在给定场景描述、地图结构以及自车状态后,在推理空间中直接预测每个实体相对于自车的未来位移,并给出自车在此条件下的未来运动轨迹预测。该任务的引入增强了模型轨迹生成能力,并改善了复杂交通场景中的决策能力。从开环评测效果角度,如下图所示,相较于UniAD模型,Open Drive VLA 对环境的感知能力更强,没有对周遭车辆的过度反应,生成的轨迹更为平滑。

OpenDrive VLA 仍面临诸多问题。1)为了平衡模型推理速度和计算开销,LLM模型采用隐式推理,缺乏明确的 CoT 过程,导致模型在复杂场景中的推理能力和模型的可解释性较差;2)目前的测评仍是开环评测,后续的闭环测试和仿真场景搭建预计仍然存在困难;3)模型的自回归特性阻碍了高速场景中的实时推理。

3、小米 ORION 框架引入QT-Former 模块实现了长时序记忆

小米 ORION 架构是典型三段式 VLA 架构,主要由三个关键组件构成:QT-Former、LLM及生成式规划器。首先通过视觉编码器对图像编码;其次 QT-Former 实现长期上下文提取并连接视觉空间与 LLM 模型的推理空间;LLM 将场景特征、历史视觉信息、用户指令等多模态信息结合执行推理任务并预测一个规划标记;最后生成式规划器生成由规划标记条件约束的多模态轨迹。

该框架利用 QT-Former 和生成式规划器分别连接了视觉-推理、推理-动作空间,实现了从图像感知到视觉问答再到动作规划的统一端到端优化,模型创新之处在于QT-Former 动态记忆模块的引进一定程度解决了长时序记忆问题以及VAE模块优化了轨迹生成。

QT-Former 模块实现图像压缩和长时序建模。通常 VLM 模型要求输入的都是高分辨率图像,但高分辨率图像 token 化后计算量较高,不能保证端侧模型输出的实时性,因此小米引入了 QT-Former,其类似一个信息筛选机制,负责提取对语言文本生成最有用的图像特征并压缩转化为 LLM 可以理解的 token。长时序建模层面,传统VLM模型一般利用拼接多帧图像进行时序记忆,这种方法受制于 Token 长度,QT-Former 引入了动态记忆模块和历史查询机制一定程度上解决了长时序记忆的问题。

其运作机理为初始化感知Query 与场景Query,首先原始感知 Query 与场景 Query 先通过自注意力模块交换信息;然后与带有3D位置编码的图像特征执行交叉注意力并分别获得感知结果及新的场景Query,其中感知结果被输入至任务头用于各项任务,新的场景 Query 与 long-term Memory Bank(记忆库)中的历史Query再执行交叉注意力以不断地更新历史 Query 并按照先进先出的替换原则再存储到记忆库中。

其创新之处在于,不同于以往记忆模块只简单存储压缩后信息而不关注提取当前场景信息的机械机制,小米通过初始化少量历史 Query,能够进一步提取与历史信息最密切相关的当前场景特征,增强了模型的长期记忆能力。

小米 ORION 架构的工程化部署面临挑战。根据小米公开数据,ORION架构在Bench2Drive 数据集上获得了较好的闭环测试性能,获得了77.74 的驾驶分数和54.62%的成功率,相较于 SOTA 方法分别增长 14.28 分和 19.61pct 的成功率。但我们认为其距离商用落地仍有较多工作:1)基座模型使用开源模型 Vicuna v1.5,没有针对自动驾驶做微调,不同模块间的配合及针对自驾任务的性能可能不足;2)LLM 模型参数规模庞大,端侧推理实时性难以保证。目前可行的路径之一是将 QT-Former 与 VAE 模型连接,将LLM模型用作辅助推理,形成实质的双系统模式,在端侧芯片能力足够和模型运算效率优化以后再部署全局端到端;3)图像编码器或仍沿用传统的 2D 网络,模型的 3D 空间理解能力较弱影响模型性能。

4、理想 Mind VLA:深度融合空间、语言及行为智能

Mind VLA 六大关键技术,构建自驾模型新范式。24 年10 月理想汽车双系统架构正式推送,但彼时的模型架构尚存在诸多问题,例如双系统联合优化困难、基于开源的VLM模型在3D 空间理解能力上仍然不足、模型的多模态性处理不足(输出方式为Transformer 回归建模,难以处理驾驶行为多模态性)、人类价值观对齐不足等。

基于双系统实践和对前沿技术的吸收,理想汽车推出了自研 Mind VLA 模型,提出了 6 大关键技术:3D 空间理解能力构建、基础语言模型构建、语言模型推理效率优化、Diffuison 轨迹生成、RLHF、云端worldmodel 强化学习。其模型方案可以理解为:利用 3D 空间编码器编码环境特征输入至语言空间,语言空间利用逻辑推理能力和空间理解能力将输入信息处理后给出合理的高层级actiontoken,然后通过 diffusion 模型进一步优化出最佳的驾驶轨迹,实现空间智能、语言智能、行为智能的统一。

基础语言模型重构、RLHF、云端 world model 强化学习主要解决模型计算效率与类人性问题。除了从算法优化的角度提升模型计算效率,从模型自身构建角度是更为根本的解决方法,当前 VLM 一般是由开源 LLM+预训练 Vision encoder 构建,这类方法简便易行,但基于互联网数据训练却限制了模型 VL 部分的实现效果,一方面是开源LLM虽经过微调与后训练,但模型构成中仍有大量与自驾无关的参数占用硬件资源;另一方面是基于开源数据训练的Vision encoder 无法充分利用自驾领域成熟的感知网络。

理想重新配比了3D数据、自动驾驶相关图文数据与文史类数据的比例,从零训练语言模型并自定义自驾专用LLMinputtokenizer,根本上选择了更为困难但上限更高的路径以解决模型效率问题。RLHF 与云端世界模型强化训练是模型后训练环节,主要解决模型类人性问题。RLHF方法是通过筛选大量 NOA 接管数据(不符合人类预期的表现)以建立人类偏好数据集,使模型从特定的偏好数据中学习对齐人类行为,提升模型的安全下限。

同时MindVLA基于自研的重建+生成云端统一世界模型,深度融合重建模型的三维场景还原能力与生成模型的新视角补全,以及未见视角预测能力,构建接近真实世界的仿真环境实现了基于仿真环境的大规模闭环强化学习,并利用工程化能力将 3D GS 的训练速度提升了7 倍以上。通过创新性的预训练与后训练方式,Mind VLA 实现了优秀的模型表现与泛化能力,预计将成为部署与量产最快的车端 VLA 模型。

免责声明:
1.本站部分文章为转载,其目的在于传播更多信息,我们不对其准确性、完整性、及时性、有效性和适用性等任何的陈述和保证。本文仅代表作者本人观点,并不代表本网赞同其观点和对其真实性负责。
2.思瀚研究院一贯高度重视知识产权保护并遵守中国各项知识产权法律。如涉及文章内容、版权等问题,我们将及时沟通与处理。