一、VLA 推动自动驾驶从功能迈向体验
视觉-语言-动作模型(VLA)是一种多模态的机器学习模型,由VLM模型演变而来,它结合了视觉、语言和动作三种能力,旨在实现从感知输入直接映射到控制输出的完整闭环能力,其不仅关注环境感知,也关注规划与控制问题。
VLA 模型最初被开发用于解决具身智能中的指令跟随任务,其后这一理念快速应用于自动驾驶领域,相较于“VLM+E2E”的中间态架构,VLA 深度整合了空间感知、逻辑推理、行为规划等多模态信息进行端到端训练,从根本上解决了模型信息传递损耗和不同模型联合优化训练问题,显著提升了模型极端环境下泛化能力和决策能力,推动自动驾驶从端到端模型“自驾功能实现”迈向VLA模型“交互性、类人性、泛化性体验优先”。
一般而言,VLA 模型架构具有三个核心组成:多模态编码器(动作、文本、图像等)、大语言模型用以接收信息和进行推理、解码器用于输出轨迹和动作。但也有部分模型只含有两个模块,如 Open VLA 使用 LLM 主干直接输出 action 指令。
VLA 模型具有强大通用能力,具备成为具身智能基础模型的潜力。VLA通用性体现在其以多模态大语言模型为底座,具备“理解万物”的能力,针对不同的使用场景和任务,理论上只需要使用特定数据对模型进行大规模预训练并适配相应的解码模块,即能输出相应的动作指令,相当于给一个足够聪明的大脑匹配不同的躯干和感知器官以适应不同的任务需求。其高度的场景推理能力和泛化能力让模型在不同的应用场景中都能表现出色,展现出超越自动驾驶乃至机器人等单独垂域应用的潜力,有望成为广义具身智能基础模型范式。
二、自动驾驶 VLA 模型构建与工程部署面临的主要问题及解决方法
自动驾驶 VLA 模型更多是一个工程化而非技术性问题。实现VLA 模型的工程落地至少需要三个前提:即一个足够聪明的模型(大脑)在一个足够拟真的空间中(仿真环境)进行训练,并利用足够优秀的映射对齐算法实现数据、模型能力的real2sim、sim2real 迁移。在自动驾驶领域,主要面临的是模型与环境问题,模型层面突出表现为模型的多模态性、3D空间感知能力、计算速度与计算开销平衡、长时序记忆能力等问题;环境问题主要是如何构建优秀的仿真环境。
虽然现有的车端 VLA 技术路线尚未收敛且工程部署较少,但我们认为由于汽车面临的结构化场景、任务单一、汽车自由度低且结构较为统一、数据和车队保有量高、各种数据迁移方式迭代完善、算力充足等因素,车端 VLA 技术路线已经较为明朗,其更多是一个工程化问题而非技术性问题,有望支撑汽车由 L2+走向L3 甚至L4 级自动驾驶,目前不同厂商都进行了模型方案在理论层面的改进,国内元戎启行、理想、小米、小鹏等已有了相关进展,其中小鹏 VLA-OL、理想 Mind VLA 工程化落地进展较快,预计年内将实现车端部署。
1、3D GS 或是车端实时获取良好3D 中间特征的途径
多段式 VLA 模型云端训练和端侧部署都需要良好的 3D 中间特征。自动驾驶中间特征指用于连接感知层与推理决策层的抽象表示,是由原始传感器数据经过处理后的高层次特征,通常包含场景障碍物、道路语义、行人等静态信息,速度方向等动态信息,可以理解为包含自车周围所有隐式、显示信息的统一场景表达,获取良好的3D 中间特征,无论是在端侧服务下游如路径规划、行为预测等驾驶任务,还是云端构建良好的训练环境供模型迭代训练都有重要意义。
传统的端侧构建中间表达的方式有高精地图、BEV 鸟瞰图、占用网络、实时高精地图等方式,云端一般为 NeRF 场景重建算法+素材库+游戏引擎重建环境,但传统的方法或多或少皆有缺陷,如端侧通过稀疏查询(如实例框、地图元素)描述周围场景无法精细捕捉 3D 环境的细节导致决策过程信息不足、OCC 算法将场景表示为3D占用以获取更全面的细节,但稠密计算导致计算开销较大挤压了推理决策的资源,云端也存在重建速度缓慢、重建真实性、丰富度不足等缺陷。而 3D GS 作为一种全面且稀疏的中间特征获取方式,在场景精细度和构建效率方面取得了较好的权衡效果。
3D GS 是一种基于高斯分布的点云表示与渲染技术,有效权衡了场景重建真实性与重建效率的矛盾。3D GS 的重建过程可理解为:1)将多视角图像或点云数据(如LiDAR)经过运动结构恢复(Sfm)处理生成稀疏点云;2)将点云转化为3D 高斯点,并添加位置、颜色、形状分布、不透明度等信息形成场景的初步表示;3)通过可微分渲染技术和自适应密度控制进行优化,最小化渲染图像和真实场景差异;4)最后利用GPU 生成最终图像并做到实时渲染。
3D GS 的优异性能使其能够应用于自动驾驶仿真环境重建、实时渲染建图、动态障碍物检测跟踪等任务。与传统场景重建技术 NeRF 相比,3D GS 具有计算效率较高、自监督、渲染实时性等优势,为端侧应用提供可能。1)渲染实时性高,3D GS 能通过GPU并行化实现实时渲染(>30 FPS),而 NeRF 渲染一帧需数秒至数分钟,相较之下NeRF更像一位精细的画家,注重写实,而 3D GS 则是一位泼墨艺术家,注重写意,泼洒的速度会显著快于精细绘画;2)数据需求较少,仅需少量多视角图像即可生成高保真模型,存储空间需求比NeRF减少 50%以上;3)动态适应性,3D GS 可通过调整高斯分布的位置直接建模动态物体(如移动车辆),而 NeRF 需重新训练或引入额外动态建模模块,效率较低;4)自监督学习,3DGS 可利用原图 RGB 信息进行自监督学习,使重建模型利用海量数据进行自我训练成为可能。
2、强化长时序记忆能力将提升VLA 模型长程任务规划与解决能力
缺乏长时序记忆机制导致模型性能下降。长时序问题是指大语言模型的输入窗口能够保留的信息有限,难以关联长时间范围内的内容,因此 VLA 模型由于主干语言模块缺乏长时序记忆机制,导致模型语义跟随性较差,难以处理需多步规划的任务和行车过程中的长时序遮挡问题,在长流程任务中易出现步骤遗漏或逻辑混乱,导致驾驶行为停滞或无法正确识别目标的现象。
LLM 模型实现长时序记忆的技术难点在于:1)Transformer 架构固有缺陷,标准Self-Attention 的计算复杂度为 O(N²),其中 N 为序列长度,导致实际模型能够同时处理的信息有限,造成历史信息丢失;2)即使在同一文本窗口内,也会面临记忆稀释问题,即在长文本输入中,早期的信息可能被赋予较低的注意力分数而被“遗忘”;3)长时记忆不仅要存储过去的信息,还需要动态地更新和清理“过时”或“无关”的内容,对模型的架构设计和训练提出了更高的要求;4)单纯增加输入窗口长度需要更大的显存和更高的计算成本,对于车端模型而言并不经济。
针对上述问题,业界提出了多样化的解决办法,诸如拓展文本窗口、缓存与检索机制、生成段落摘要、动态记忆模块、稀疏注意力等。我们认为“稀疏注意力机制+动态记忆模块”组合或是较好的车端方案,使模型能在“记忆能力”和“大脑容量”上获得提升:
1)稀疏注意力机制通过选择性关注输入序列中的关键部分来降低计算复杂度和内存消耗,尤其适用于处理长序列数据(如文本、图像、音频),其核心原理是通过引入稀疏连接规则,限制每个查询(query)仅与部分键(key)交互,而非全局计算,从而将Transformer 计算复杂度从O(N²)降低到接近线性。例如谷歌 Big Bird 模型通过引入稀疏注意力机制展现了较好的性能,使模型能够处理的序列长度较传统模型提升至约 8 倍,同时显著减少了GPU/TPU的内存占用,提高了模型计算效率,国内理想汽车 Mind VLA 架构中也引入了相似的处理方法。
2)动态记忆模块通过显示存储、动态更新与历史信息检索改善传统模型的记忆能力,记忆模块相当于给模型外挂一个存储 U 盘,同时通过学习的方式,模块还能自主识别重要信息以进行选择性存储,并根据输入动态地调整存储的记忆数据,小米 QT-Former、理想早期双系统架构中的记忆模块都是该方法的代表。
3、优化模型架构与推理机制可以提高端侧计算效率
端侧模型需在较小参数规模前提下尽可能提高计算效率,“稀疏化”是模型设计的关键。一般而言,模型参数与模型性能正相关,但由于汽车端侧芯片算力不足、带宽较低等因素以及端侧运行实时性需求,云端大模型在端侧部署时需要缩小参数规模和尽可能提升计算效率。除去常见的模型蒸馏、裁剪等缩小参数规模的方式外,模型量化的压缩方式,模型架构优化、推理机制改善等效率提升方式对于端侧部署也同样重要,本段以理想双系统和MindVLA架构的相关技术为例探讨该过程。
模型量化可以降低模型内存空间占用并提升推理速度。模型量化核心思想是降低运算精度,即将模型中的浮点数(通常是 FP32)表示的权重和激活值转换为低精度整数(如INT8、INT4)或半精度浮点数(FP16),从而实现模型压缩和加速的技术,其主要具有两大优势:1)降低模型内存空间占用,如将 FP32 模型量化为 INT8 模型,理论上模型的存储空间需求可以减少为原来的四分之一;2)加速推理,低精度计算通常具有更高的计算吞吐量,目前许多硬件平台(如 CPU、GPU)对低精度整数运算有专门优化,可以实现比高精度浮点运算更高的并行度和更低计算时延。
量化后更小的模型规模和低精度计算使模型端侧部署算力消耗更小,例如理想 LLM 模型 GPTQ 技术(后训练量化)大幅提升了模型计算效率,使模型时延从4.1秒大幅降低至 1.9 秒,输出频率从 0.24Hz 上升至 0.52Hz。
MOE 架构在保持算力消耗相对稳定的同时实现模型扩容,进而提高模型性能。混合专家模型(MOE)是一种“分而治之”的模型策略,核心思想在于将一个大的任务分拆交由对应专家(子模型)处理。
例如在 Transformer 架构中将前馈网络层(FNN)替换为一个MOE层,MOE 层通常由多个专家模型和一个门控网络(一般是 router)构成,当模型需要解决任务时由学习后的门控网络将任务输送给对应专家,从而实现在整体模型扩容的同时(更多的专家网络加入)其整体的计算消耗与传统稠密计算相当(同时间仅有部分专家被激活,相当于一种稀疏化机制)。例如理想的 Mind GPT 模型中引入了8位“专家”做相关计算,每个专家单独训练可以负责其擅长的部分,如图像分割、处理输入的语音指令、动作规划等。
推理效率提升包括稀疏注意力机制(见前文)、投机推理+并行解码等方法。由于LLM模型的并行计算能力,可以近似理解其处理一个 token 和一批token 的效率一致,在此前提下,投机推理机制通过引入一个或多个预训练的、参数较小的模型(draft model)预测生成多个候选 token,然后再利用标准模型对候选词进行批量验证,从而避免了标准模型的重复调用以提升推理效率,该方式的难点在于如何提高小模型采样准确性以避免标准模型验证次数较多;
并行解码主要指在 transformer 中加入两种推理模型,如规划决策实时性要求较高的actiontoken 采用双向注意力机制,通过单次计算即可输出所有信息;对于时效要求较低的语言token(如对自车行为的解释)则采用因果注意力机制逐字输出,投机推理+并行解码的方法对模型输入和输出两端计算效率提升都起到一定作用。
4、利用世界模型构建云端仿真环境是模型闭环测试、强化学习的关键
构建高保真的仿真环境有利于 VLA 模型实现闭环测试验证。自动驾驶模型测评分为开环评估和闭环评估两类,二者核心区别在于模型输出是否有反馈与循环。目前大多数模型采用的公开数据集开环测试为一个单项流程,即传感器信息输入→算法处理→输出结果,最终结果不会产生后续反馈,一般基于预录制的数据对模型某些基础功能(如感知功能)进行测试,适用于初步验证;
闭环测试则是一个循环流程,即传感器信息输入→算法处理→输出结果→执行动作和车辆反馈→将反馈作为下一时刻新的信息输入,闭环测试涉及自车与整个外部环境的交互验证、实时的数据处理和决策,更能体现模型在整个行驶过程中的规划决策性能。初步的开环测评与模型实际落地需要的交互性验证、真实测试环境等要求并不匹配,而直接进行大规模实车闭环验证与强化学习的测评成本和安全性要求难以满足,因此构建逼真的仿真测试环境成为 VLA 模型闭环的关键。
优秀的仿真模拟环境可以使车端 VLA 模型进行强化学习以达到甚至超越人类驾驶水平。传统的模仿学习中,行为克隆会学习从驾驶环境状态映射到人类专家采取的驾驶动作,核心目标是让模型通过监督学习的方式复制专家行为并逐步改善模型性能,但模仿学习问题在于模型上限较低(严重依赖专家数据)和泛化能力差(corner case 难以处理)。
强化学习旨在让智能体与环境不断交互,通过尝试不同的行动来最大化累积的奖励,在自动驾驶领域通过强化学习可以使车辆感知、规控能力进一步优化以达到甚至超越人类专家水平。强化学习方案主要包含智能体、交互环境、奖励函数、动作策略等内容,出于与闭环验证同样的原因,优秀的仿真模拟器对于实现模型强化学习至关重要(提供“真实”交互环境)。我们认为,未来在具有一个优秀仿真模拟器的基础上,行为克隆(初步训练端到端模型)+逆强化学习(从专家数据中初始化奖励函数)+强化学习(通过与环境交互改善模型和奖励函数)方案或将成为自动驾驶模型训练主流方案。
仿真环境构建方法多样,世界模型是未来潜力方向。目前学界对于世界模型没有明确的定义,我们认为通用的世界模型应具有几个特点:1)能够认识物理世界的表象并理解背后的运行规律(因果、物理规律等),并能够基于对物理世界的认识来预测世界的演化;2)能够进行反事实推理,即对于数据中没见过的决策也能推测出结果,具备泛化到样本数据以外的能力;3)具备基于长时记忆进行自我演进的能力。
自动驾驶领域的世界模型即利用历史场景观测信息加上预设条件预测未来智能驾驶场景变化(静态场景、动态交互的变化)和自车响应的模型,其核心任务有三大类:1)生成未来的物理世界(场景理解、运动预测、场景仿真);2)生成智能体的场景决策与动作规划(决策规划);3)将二者合二为一并增加虚拟场景中智能体数量,让智能体之间产生交互从而从单一的物理模拟环境变为交互性的交通场景物理世界(端到端驾驶)。
需要指出的是,由于当前世界模型生成方案尚不成熟,我们认为当前自动驾驶仿真环境的构建中,基于部分真实数据重建+世界模型生成或是工程部署可行性较大的方案。目前世界模型在业界的应用主要是场景生成,即作为数据生成器进行仿真环境构建,其可以看作 VLM 模型的逆向工程,构建方案本质上是 Prompt 控制+视频场景生成。
1) 从视频生成的具体步骤,世界模型场景构建的步骤主要可分为:1)场景初始化,即收集真实的多模态数据并对数据进行标注以形成真实数据的结构化表示;2)控制条件经编码器输入并生成带噪潜在空间表示;3)扩散模型训练与结果输出;4)对生成场景进行优化和后处理。生成式世界模型方案中控制条件的获取是其中的关键,因为生成式世界模型依赖控制条件(初始帧、相机轨迹、动静态结构化信息)来保证生成场景的环境合理性、资产可控性、物理一致性以及提升渲染效率,这些条件本质上是将人类先验知识注入生成过程,弥补纯数据驱动方法的不足。
2) 从视频生成模型选择,主要有对抗式生成(GAN)、Transformer 回归生成、扩散模型等不同技术路线,其中扩散模型相较于其余几种模型具备生成质量高且细节丰富、训练稳定性较强、生成结果多样、生成过程可控等诸多优点,成为当前生成式方案的主流。
3) 从视频生成方向角度,当前的视频生成方向主要有三个:1)更多视角、更高分辨率,如华为 Magic Drive DiT 方案;2)更长时间,如商汤Infinity Drive 模型能够生成超过 2 分钟的片段;3)高保真、时空一致的 3D 渲染,例如理想《DriveDreamer 4D》和《Recon Dreamer》,未来融合以上三种能力是世界模型视频生成发展方向。4) 从视频生成优势角度,相较于通常的重建或生成方案,世界模型方案至少具备三项优势:1)摆脱对于特定的、分布受限的数据来源的依赖,能够渲染复杂操作并保持图像的时空连贯性;2)基于世界模型集成的物理引擎对物理规律的认知,生成的仿真环境除了解决 Vision Gap,还具备物理交互属性,为方案增广至广义具身智能(如机器人领域)提供可能;3)生成方案实现的场景灵活多样,且生成成本较低。
以理想汽车世界模型相关论文和方案为例,探讨世界模型在自动驾驶领域场景生成方向的落地进展。从整体思路看,理想汽车云端场景构建遵循重建+世界模型生成的思路并发表了 9 篇相关工作论文,其中 2 篇分别介绍 3D GS 的重建及其改进方法,其余7篇为生成式世界模型相关工作,整体而言其生成方案大致有以下趋势:
1)初始场景不断完善。从最初 Dive、DriveDreamer4D 方案的图像信息到后续DrivingSphere、GeoDrive 方案中占用网络、点云信息引入,方案从单纯RGB信息到3D点云结构渲染的 RGB 图像、从静态场景到动态目标、从主要目标到树枝、房屋等细节再到潜在扩散模型对细节的补足,对于初始场景的刻画更加丰富饱满。初始场景(布局、光照、几何结构等)是后续生成渲然的基础,愈加完善的初始场景可以避免生成完全随机,确保场景生成符合基本物理逻辑也为后续的场景交互编辑提供了更好的基础;
2)生成控制条件升维。方案的控制条件从最初二维道路结构、相机位姿、车辆轨迹等静态信息向场景 3D 点云、占用网络等立体结构再向车辆可控运动等动态信息,最后升级到利用视频输入作为模型生成的指导,利用 3D 渲染、动态信息替代数值控制信号。愈加丰富的控制信息一方面能够显著提升生成场景的真实性,另一方面也为精确的场景控制提供入口,更便于闭环测验中的场景编辑。
3)更为重视闭环反馈机制构建,实现场景实时编辑与模型训练协同规划。在《DrivingSphere》论文中通过智能体协调模块引入,首次实现了自驾模型与环境交互的闭环反馈机制制;GeoDrive 模型更进一步,首次在驾驶世界模型中实现场景实时编辑与VLA协同规划。
理想的生成式世界模型还可按实际应用方向归类,我们总结如下:一是作为数据机器用以生成简单的环境数据以弥补真实重建数据的不足,是较基础的数据生成模型。例如 Dive 模型关注视频数据生成,其利用原始BEV 构图的RoadSketch(道路结构)和 Layout Entries(布局条目)进行多视图视频生成;
OLiDM模型则主要解决激光雷达数据缺乏问题,根据文本描述和 3D 边界框进行从前景目标到环境背景的渐进式生成,并且对生成的前景目标进行初步标注并利用 OSA 模块进行目标-空间语义对齐(例如解决 1 毫米像素空间对应 50m 现实距离的不合理问题),解决了自动驾驶中LiDAR数据规模小、标注难、场景多样性不足等问题。
在视频生成的基础上,进行大范围、多视角、高保真的场景渲染。理想在《 DriveDreamer4D 》 和 《 Recon Dreamer 》 两 篇 论 文中提出了NTGM+CDTS和DriveRestorer+PDUS 两个技术集,差异核心在于 DriveDreamer4D 方案使用公开的世界模型,且在复杂渲染中表现还不尽人意;而 Recon Dreamer 方案中的Drive Restorer 实际上是一个经过微调的世界模型,并利用 PDUS 方法使得模型在复杂渲染(如多车道变换)中的性能更强。
DriveDreamer4D 模型主要利用世界模型解决 NeRF 和3D GS 等重建方案的训练数据依赖性问题,即利用先验世界模型作为数据机器来合成新颖的轨迹视频、利用结构化条件来控制要素的时空一致性以增强 4D 驾驶场景表示。具体而言,DriveDreamer4D使用轨迹生成模块(NTGM)调整原始轨迹动作(如转向角度和速度)以生成新的轨迹;新轨迹生成以后即可获取新轨迹视角下的道路结构、3D 边界框等结构性信息;
最后将结构化信息、新轨迹初始帧、文本控制信息等输入到世界模型以生成跟随新轨迹的视频;除数据生成外,DriveDreamer4D 也关注生成数据与真实数据的对齐问题,即利用CDTS在每个时间步上利用提取的结构化信息作为约束,将真实数据与生成数据进行对齐以减轻4DGS训练中的数据差异,具体表现为消除最终生成视频中的“鬼影”、“重影”现象。
Recon Dreamer 框架通过引入 Drive Restorer 模型和 PDUS 策略来解决大范围机动下的“鬼影”问题,本质是经过自动驾驶数据微调后世界模型方案能力的进一步提升。DriveRestorer 实质上是一个扩散生成模型,理想利用未充分训练的重建模型沿自车原始轨迹渲染低质量视频并与真实视频对比形成渲染恢复数据集,以真实视频数据为监督训练DriveRestorer 恢复渲染视频中的鬼影,并且为了增强模型能力,还对天空、图像边界等重点区域进行了掩码操作。
PDUS 是一种渐进式数据更新策略,其作用类似于自驾模型的动态记忆模块,即在新轨迹生成过程中对于初始的渲染恢复数据集进行动态、分部的更新,再由DriveRestorer 处理得到新轨迹视频,以此迭代直到模型收敛并最终提升模型在大范围机动复杂条件下的场景生成能力(即将长距离生成分解为逐步更新生成问题)。
注:第一行为场景真值,最后一行为 ReconDreamer 生成效果图,在 3 米级车道变化中,其生成效果更优;在 6 米级大范围变化中,其生成效果显著更优
进一步提升对初始化场景的精细刻画与场景编辑能力。如前所述,初始化场景的精细刻画对于后续视频生成具有基础性作用,《DrivingSphere》中通过BEV条件扩散模型OccDreamer 生成城市级静态场景,结合动态交通参与者的时空位置管理,能够构建包含静态背景和动态对象的精细化 4D 世界表示;GeoDrive 模型则以单帧RGB图像为输入,借助MonST3R 网络精准估计点云和相机位姿,并结合用户提供的轨迹信息构建具有三维一致性的条件序列,确保场景结构连贯真实。
同时得益于场景刻画中点云信息的引入,使得部分生成模型可以在多帧点云聚合期间调整物体边界框的属性,以提供经修改的LiDAR条件用于视频扩散模型,而无需对每个物体分别建模且逐场景优化,即实现场景动态编辑功能,动态场景编辑的实现奠定了模型高效训练闭环反馈的基础,例如 GeoDrive 模型首次在驾驶世界模型中实现实时场景编辑与 VLA 协同规划。
更多行业研究分析请参考思瀚产业研究院官网,同时思瀚产业研究院亦提供行研报告、可研报告(立项审批备案、银行贷款、投资决策、集团上会)、产业规划、园区规划、商业计划书(股权融资、招商合资、内部决策)、专项调研、建筑设计、境外投资报告等相关咨询服务方案。