网站的ftp地址是什么在局网站作风建设-河源市网站建设公司-Seo优化

网站的ftp地址是什么,在局网站作风建设,网站建设微享互动,郑州做小程序的公司加我微信#xff0c;拉你入群#xff0c;一起讨论#xff0c;备注#xff1a;姓名研究方向高校或企业#xff0c;否则不予通过这几年#xff0c;自动驾驶的技术流派可谓“神仙打架”#xff1a;从早期的一体化端到端#xff0c;到火遍全网的 VLA#xff0c;再到如今炙…加我微信拉你入群一起讨论备注姓名研究方向高校或企业否则不予通过这几年自动驾驶的技术流派可谓“神仙打架”从早期的一体化端到端到火遍全网的 VLA再到如今炙手可热的世界模型World Model几乎每一家做自动驾驶的公司都在强调自己那条“独一份”的技术路线。但如果把这些名词的“包装”撕开会发现一个很朴素的共性——不管叫“一段式端到端”、VLA还是 WAWorld Model–Action本质上都是在做同一件事用数据驱动的方式把传感器的感知输入转换成车辆的控制信号。遗憾的是目前大多数自动驾驶综述在梳理技术路线时往往把端到端和 VLA 当成两条平行、割裂的路线来讲很少从统一视角去对比分析。这就导致一个问题研究者很难在同一坐标系下同时看清“传统端到端”和“VLA 范式”之间到底有何本质差异、又在哪些方面殊途同归。为了解决这个认知断层上海交通大学 AutoLab 团队联合滴滴参考了 200 余篇相关工作撰写了最新综述《广义端到端自动驾驶的综述统一视角》。论文中作者提出了“广义端到端”GE2E的概念只要是通过一个整体模型将原始传感器输入直接映射为规划轨迹或控制动作的方式都可以被视为 GE2E——至于中间架构是否引入视觉语言大模型并不是本质区分。在这一统一框架下论文把三类看似分散的技术路线收拢到了一张图谱中传统端到端Conventional E2E以视觉语言模型为核心的端到端VLM-centric E2E以及两者深度融合的混合式端到端Hybrid E2E。由此构建出一套相对完整、可对比的技术版图为后来者提供了一个更清晰的“总览视角”。 1. 引言从模块化到“通用端到端”自动驾驶Autonomous Driving, AD是一项极其复杂的任务需要车辆在真实道路环境中进行精确感知、合理预测、可靠规划与安全控制。传统自动驾驶大多采用模块化架构感知检测车、人、灯、路等预测预测其它交通体的未来运动规划与控制生成自车轨迹和控制指令这些模块分别设计、分别训练再通过工程手段组合成一个完整系统。这种方式的优点是可解释、易调试工程上成熟但也存在结构性缺陷模块之间信息割裂中间结果丢失细节误差在流水线上逐级放大Error Propagation各模块优化目标不统一整体性能受限随着大规模驾驶数据和深度学习的发展学界和工业界开始转向端到端End-to-End, E2E自动驾驶直接从传感器输入图像、激光雷达、导航信息等预测车辆未来轨迹或控制信号。图1 端到端自动驾驶范式对比。(a)(b)传统端到端、(c)以大模型为中心的端到端、(d)(e)混合端到端。近几年端到端自动驾驶发展出了三条看似不同、实则内在统一的技术路线如上图传统端到端Conventional E2E基于视觉/激光雷达学习结构化场景表示如 BEV 占据栅格、向量化地图、对象轨迹等在统一网络中联合感知、预测和规划。VLM 中心范式VLM-centric E2E以大规模视觉语言模型VLM / VLA为核心将驾驶问题转化为“语言空间中的推理与决策”由大模型提供高层认知与解释能力。混合范式Hybrid E2E将传统端到端系统的精确、安全与高效率与 VLM 的开放世界知识与强泛化能力结合起来。本文提出一个统一概念General End-to-End Autonomous DrivingGE2E通用端到端自动驾驶——只要系统从原始传感输入出发通过一个整体模型直接输出规划轨迹或控制信号无论中间是否显式使用 VLM都属于 GE2E 范畴。在这个统一视角下本文系统梳理三大范式的典型架构与设计哲学主流数据集与评测基准各类方法在开放/闭环指标上的性能对比共性挑战与未来技术趋势为了方便读者阅读作者绘制了以下思维导图展示了全文的脉络图 2 GE2E全文脉络 2. 传统端到端自动驾驶传统端到端方法希望在统一模型中联合优化感知、预测、规划避免模块化带来的信息损失与误差累积。根据是否显式设计中间任务主要可分为仅规划端到端Planning-only E2E多任务端到端Multi-task E2E此外在学习策略上多数方法以模仿学习为主也开始融入知识蒸馏、强化学习、自监督、主动学习等手段。2.1 仅规划端到端Planning-only E2E早期 E2E 模型较为简洁只包含一个从图像 → 控制信号的网络例如ALVINN三层小型网络从摄像头激光输入预测转向角NVIDIA CNN E2E从前向摄像头图像直接预测方向盘转角此类方法有明显优势结构极简、易部署。但很快暴露出局限3D 场景理解能力不足、决策缺乏多样性、解释性差。后续研究在三个方向上演进1多模态融合增强 3D 场景理解单摄像头难以充分获取空间信息因此出现多模态融合方法TransFuser利用 Transformer 融合图像与激光雷达MMFN进一步融合摄像头、雷达、HD Map 等通过更丰富的 3D 信息规划结果更安全、鲁棒性更高。2生成式建模应对轨迹多模态性现实中同一场景往往存在多种合理驾驶行为例如前车缓慢行驶时可以减速跟车也可以安全变道。传统回归式预测会产生“平均轨迹”既不跟车也不果断变道反而不安全。因此出现基于生成模型的规划使用扩散模型 / Flow Matching等对轨迹分布进行建模例如GoalFlow先预测目标点再在约束下生成多模态轨迹TransDiffuser / DiffusionDrive / DiffAD 等将规划视为条件轨迹生成问题这样可以显式建模“多种备选动作”并在其上进行选择。3效率优化面向车载部署真实车辆上计算资源有限延迟受安全约束较为严格。为此一些工作专注于效率Fast-LiDARNet针对激光雷达进行高效建模和硬件友好优化EfficientFuser用轻量化 EfficientViT 提高融合效率DRAMA、GMF-Drive、MambaFusion使用 Mamba 等结构降低时序建模复杂度这类方法在保持性能的同时显著降低了延迟和算力开销。纯规划端到端的固有缺陷尽管在工程上简洁规划-only E2E 有两大结构性问题解释性差Black-box直接从原始输入到轨迹不输出中间结构化结果出错时很难定位“是感知错了、预测错了还是规划策略有问题”监督信号稀疏只使用最终轨迹监督未利用丰富的 3D 标注检测、分割、预测等模型难以学到真正的“驾驶因果逻辑”容易出现安全隐患因此最新的主流研究逐渐转向多任务端到端架构。2.2 多任务端到端Multi-task E2E多任务 E2E 将感知、预测、规划显式建模为多个子任务但不再作为完全独立模块而是在统一框架中联合优化。研究主要聚焦三个问题可以对应理解为三层能力场景建模与理解Scene Modeling Understanding多任务协同Multi-task Coordination轨迹规划策略Trajectory Policy2.2.1 场景建模与理解目标构建对自动驾驶友好的高效、全局、时序感知的场景表示。unsetunset1高效场景表示unsetunset早期方法如 UniAD、P3 系列多采用稠密 BEV 栅格表示优点结构直观便于统一对接下游任务缺点计算量大、实例级结构信息弱物体边界、关系不够明确因此出现了更稀疏、实例化的表示VAD向量化表示关键场景元素车道线、边界等减少占据图的冗余SparseAD / SparseDrive直接对 BEV 上的对象实例建模不再构建全局稠密 BEVGaussianAD用 3D 语义高斯云表征场景实现“稠密语义稀疏结构”兼具核心思想不再把整张 BEV 当图片处理而是把“有用的对象”提炼出来节省算力并提升决策针对性。unsetunset2空间理解与推理unsetunset安全驾驶不仅需要知道“有什么”还需要理解“谁和谁之间在互动、有什么约束”GraphAD用图结构建模“车–车”、“车–路”之间关系DualAD将动态目标与静态地图的建模解耦分别优化FusionAD融合 LiDAR Camera 提升空间几何理解UncAD显式建模环境不确定性利用不确定度指导预测与规划增强长尾场景的鲁棒性unsetunset3时间融合与时序推理unsetunset除了空间需要理解动态变化传统多帧特征叠加对齐再融合如 BEVFormer 系列新方法ReasonNet用长期记忆库 Transformer 对历史信息进行全局推理BridgeAD显式对齐历史轨迹信息与当前时刻GenAD / DiffAD将“场景演化预测规划”统一为生成任务例如生成未来 BEV 图像目标不只知道“现在是什么样子”还要综合历史判断“将会发生什么”。2.2.2 多任务协同Task Coordination多任务 E2E 的优势在于不同任务间可以互相“借力”。早期多任务框架中任务通常是按固定顺序串行执行感知→预测→规划任务间交互有限。后续研究主要探索两类协同方式1人工设计协同结构根据任务之间的关系重新设计任务组织方式例如PPAD将预测与规划交替执行体现“自车规划会影响他车运动”的交互逻辑TTOG融合运动预测与规划使规划可以直接从行为数据中获益DriveAdapter用 adapter 解耦感知规划避免传统行为克隆中“因果混淆”问题DMAD将语义学习与运动学习分离减少负迁移强化有益迁移2统一多任务架构另一条路线是让网络自己学“谁影响谁”不人为规定顺序DriveTransformer / HiP-AD将感知、预测、规划的 Query 放入一个统一模块中交互每个任务的 Query 既与图像/雷达交互也与其它任务 Query 和历史 Query 交互最后通过任务专用 head 输出各自结果这种架构便于扩展更多任务如地图构建、行为解释也更利于大规模训练与统一优化。2.2.3 轨迹规划策略Trajectory Policy即“如何生成安全、舒适、符合法规的轨迹”。在简单模仿学习的基础上出现了几种重要思路1后处理优化如UniAD先预测占据再通过数值优化牛顿法等在占据约束下修正轨迹优点可利用 3D 几何信息进一步提高安全性缺点破坏端到端的一体性优化器本身不可学习上限有限依赖感知质量错误会放大因此出现了可微优化思路把后处理写成可微层合并进训练中让优化过程也被学习。2可训练轨迹评估器候选选择另一类做法先生成一批候选轨迹再通过可学习评估器选择最优使用聚类等方法离线构建“轨迹词典”模型从有限词典中选轨迹 ID或在其基础上稍作修正如Hydra-MDP / Hydra-MDP多头解码器预测多种候选配合多指标评估WoTE / World4Drive基于世界模型预测未来环境状态对轨迹进行前瞻性评估这类方法兼顾可解释性与端到端训练能力。3概率规划与扩散策略针对“规划多模态性”的问题除了生成模型还可以在输出层直接预测概率分布VADv2预测概率分布并从中采样动作显著提升闭环表现DiffusionDrive / DiffAD / DiffE2E / Consistency 等将规划建模为扩散/一致性模型中的条件生成任务面临的核心问题是如何保证实时性例如DiffusionDrive 通过“截断扩散”大幅减少步骤在 4090 上达 45FPS4分层/层级规划一部分研究认为“一次性生成全轨迹”难以适应环境动态变化因此采用分层策略先生成高层意图如 keyframe、意图路线再细化为高频轨迹代表方法KEMP基于关键帧的分层预测ThinkTwice多解码器堆叠利用空间–时间先验迭代细化CogAD粗到细的认知式规划意图 → 精细轨迹ARTEMIS自回归逐点输出强时间依赖、鲁棒性高2.3 学习策略超越“纯模仿”的几条路绝大多数 E2E 方法都基于行为克隆 / 模仿学习。但单纯模仿存在对长尾和危险场景泛化差容易发生 Covariate Shift偏离专家分布后不断累积错误因此许多工作开始探索更丰富的学习策略。2.3.1 知识蒸馏Knowledge Distillation利用“特权教师” → “普通学生”的范式教师有额外信息或更强模型能力如访问真值状态、使用强化学习训练学生模型则是车辆部署时实际使用的端到端网络典型工作LBC教师直接访问环境真值学生只用视觉输入通过蒸馏获得更强能力RoachRL 训练的特权 Agent 生成高质量轨迹给 E2E 学生做监督IVMP / DistillDrive蒸馏多模态规划模型包含光流、语义地图等中间任务的表示目标弥补端到端模仿学习中监督信号的稀疏性与偏差。2.3.2 强化学习Reinforcement Learning, RLRL 能通过与环境交互获得新体验对长尾场景与多目标优化尤其有价值Drive in a Day早期将端到端驾驶建模为 MDP用深度 RL 训练RDMF / SAPO-RM利用不确定度或安全约束如控制屏障函数指导探索减少危险试错RAD / ReconDreamer-RL / EvaDrive结合高保真 3D 场景重建 / 视频生成构建“虚拟世界”做 RL以 3D Gaussian Splatting / Diffusion 等技术生成大量复杂场景在此基础上做闭环强化降低真实世界试错开销2.3.3 自监督学习Self-supervised Learning目标大量无标注驾驶数据中挖掘规律降低昂贵 3D 标注依赖PPGeo先做几何自监督再做策略预训练少量标注即可适配多任务LAW训练“潜在世界模型”自监督预测未来提升场景表示与轨迹预测UAD只用 2D 无监督任务替代依赖 3D 标注的模块在零 3D 标注下超过多种 SOTA2.3.4 主动学习Active Learning应对 covariate shift 的经典方法是 DAgger但简单“采样标注混合训练”容易退化。DARB指出关键在于“样本质量”而非“数量”提出关键状态采样——优先标注最信息量、更危险的状态ActiveAD / SEAD从数据多样性、场景信息、BEV 特征等角度设计样本选择策略在少量标注下逼近甚至匹配全数据性能2.3.5 其他策略一些工作从鲁棒性与实用性出发引入了更多训练机制对抗训练如 MA2T提升模型对恶意干扰的鲁棒性测试时训练TTTCentaur部署时自适应修正分层联邦学习CRCHFL面向车队与边缘计算场景的分布式训练 3. VLM 驱动的“认知型”端到端驾驶传统端到端系统在开放世界理解和复杂推理上存在“天花板”假设封闭世界只能识别预定义类别难以应对新颖/长尾事件结构上仍是“感知–预测–规划”流水线不具备统一、可语言化的世界模型与因果推理能力为弥补这一本质认知差距近年兴起一类以大规模视觉语言模型VLM为核心的范式把自动驾驶 Agent 看作一个“认知体”能看视觉编码能想语言推理场景建模能说解释决策还能驱动规划模块完成精细控制这一类方法通常采用类似结构可理解为通用 VLM / VLA 框架的驾驶特化版视觉编码器文本编码器跨模态对齐模块将视觉特征映射到语言空间大语言模型LLM作为“中枢大脑”动作头Action Head或轨迹规划器输出驾驶行为下面从架构、学习策略与效率优化三个层面概述这一范式的关键设计。3.1 模型结构3.1.1 视觉–语言对齐Vision–Language Alignment核心任务将高维视觉特征转为 LLM 可以理解的“语义 token”。两种主流路线直接投影MLP / 线性层将视觉特征直接映射到 LLM 的嵌入空间结构简单诸多工作采用DriveMLM、DriveGPT4v2、DriveMoE 等基于 Query 的压缩如 Q-Former使用少数可学习 Query 向量从视觉特征中“提取精华”节省 token 数量提升效率此外针对自动驾驶的空间特性出现了任务定制化对齐方法BEV-TSR / GPVL通过检索或 3D 任务预训练对齐 BEV 特征与文本描述MPDrive避免让 LLM直接生成复杂坐标改用可视化标记简化空间表述Prompting Multi-Modal Tokens / Driving with LLMs将 LiDAR 点云、向量化轨迹等结构化数据以“伪 token”或“向量描述”形式输入 LLM3.1.2 时空理解Spatiotemporal Understanding自动驾驶是“四维问题”3D 空间时间。unsetunset1增强 3D 空间理解unsetunset几类典型思路显式 3D 建模OmniDrive加入显式 3D 位置编码Atlas用 DETR 式结构直接 token 化 3D 场景S4-Driver用稀疏体素将多视角 2D 特征投影到 3D多模态 3D 融合LiDAR-LLM、DriveMLM、LMDrive、BEVDriver 等将 LiDAR 点云与图像融合提升几何准确性对象中心先验Reason2Drive、MPDrive、DriveMonkey 等将物体与空间关系结构化输入 VLM提高对复杂交通互动的理解隐式 3D靠数据规模“涌现”Cube-LLM 等工作尝试依靠大规模多视角数据让模型自发习得 3D 直觉unsetunset2时间维度建模unsetunsetSce2DriveX、LaVida Drive使用长时间视频片段 BEV 全局信息学习长时程交通事件TrackingMeetsLMM引入目标跟踪信息为每个动态体建立时间连续的轨迹ORION设计基于 Query 的时间记忆模块QT-Former从历史帧中取出重要上下文3.1.3 推理能力ReasoningVLM 的真正价值在于推理与解释不仅是识别。unsetunset1记忆增强推理unsetunset长时记忆Drive Like a Human、DiLu、LeapVAD、LeapAD、Drive as You Speak 等把“过去的驾驶经历、用户偏好、规则”存入记忆库供未来决策参考短时记忆Agent-Driver、DriVLMe 等用记忆保持多轮交互的上下文保证“前后说法一致、行动连续”unsetunset2链式思维Chain-of-Thought, CoTunsetunset将复杂决策拆解为有逻辑顺序的子步骤结构化逻辑 CoTDolphins、CoT-Drive、ReasonPlan、X-Driver、EMMA时空 CoTFSDrive 强调对“未来若干帧”进行逐步视觉推演工具增强 CoTAgent-Driver、AgentThink、Receive-Reason-React、DriveAgent-R1动态 CoTAutoVLA能根据任务难度决定要不要“多想几步”自反思 CoTAutoDrive-R²模型对自己的推理结果做自我审查unsetunset3图式视觉问答GVQAunsetunset将驾驶问题拆解为“对场景图的一系列问答”DriveLM、SimpleLLM4AD 等先构建场景图对象及其关系再以问答链形式按“感知→预测→规划”顺序推理使决策过程更透明、可检查unsetunset4检索增强生成RAGunsetunset用外部知识库弥补单一参数模型的知识边界RAG-Driver从历史驾驶案例中检索相似情况Driving with Regulation检索相关交通法规辅助判定何种行为合规unsetunset5嵌入驾驶知识unsetunsetHybrid Reasoning、WiseAD 等通过加入交通规则、物理约束等提升安全性与可依赖性unsetunset6面向可解释性的推理unsetunsetVLAAD、ADAPT、Explanation for Trajectory Planning 等专门训练模型输出语言解释行为并保证两者一致性3.1.4 行为与规划策略Planning Action HeadVLM 输出的“高层决策”要落地为精确执行常见有两类接口设计unsetunset1VLM 控制器unsetunsetVLM MLP PID如 LMDrive、CarLLaVA、SimLingo、DriveGPT4-v2VLM MPCLanguageMPC、VLM-MPCEmpowering让 LLM 输出安全约束MPC 负责求解再把 MPC 的可行性反馈给 LLM形成闭环unsetunset2VLM 轨迹规划器unsetunset规则式规划DriveMLM、ChatGPT as Co-Pilot 等用 VLM 决定高层策略规则模块生成具体轨迹生成式轨迹规划DriveMoE、Diff-VLA、ReCogDrive 等利用扩散或生成模型生成多条候选轨迹unsetunset安全校验机制unsetunset为缓解 VLM“幻觉”与不确定性通常会在执行前增加安全检查事后验证/优化CALMM-Drive多候选方案分层筛选PlanAgent使用模拟评估轨迹安全性LeapAD / LeapVAD通过记忆与反思修正行为训练阶段嵌入反馈FeD引入语言化反馈引导模型逐步纠正行为unsetunset推理与规划对齐unsetunset一个核心问题解释逻辑CoT与最终行为是否一致SimLingo引入语言–动作对齐机制RDA-Driver用对比学习让“正确行为–合理解释”成为正对其他为负对ORION使用统一潜在空间让推理结果可以直接指导轨迹生成实现语义空间与数值空间的深度对齐3.2 学习策略VLM 场景与传统 E2E 类似VLM 场景中也广泛使用知识蒸馏FeD、VLM-assisted 等强化学习AlphaDrive、Poutine、ReCogDrive、AutoVLA 等数据高效学习LDM、ReasonPlan、S4-Driver 等通过自监督及少量标注获得接近全监督性能3.3 效率问题与优化思路VLM / VLA 能力强但大而慢是现实约束。优化路径大致三条模型蒸馏如 CoT-Drive、DSDrive把大模型的推理能力压缩到小模型架构优化早退AD-EE、动态分辨率DynRsl-VLM、MoEDriveMoE异步推理AsyncDriver让规划高频运行LLM 低频决策数据与 Token 优化结构化表达FastDrive、ReCogDrive、Senna、VERDI 等Token PruningAutoPrune 等 4. VLM × 传统 E2E混合范式传统 E2E 像一个反应迅速、动作精准的“身体”但在开放世界理解和复杂推理上有限VLM 像一个知识丰富、善于推理的“头脑”但在数值控制与实时性能方面存在“行动鸿沟”。混合范式就是在两者之间搭建“认知–执行桥梁”。主要有两大技术路线在线协同Online CoordinationVLM 在推理时参与决策离线知识迁移VLM-Aided TrainingVLM 只在训练时做“老师”推理时只保留高效 E2E 模型4.1 在线协同分层融合架构整体思路VLM 负责“想清楚干什么”E2E 负责“怎么精细完成”。融合位置主要有三种4.1.1 感知层融合目标利用 VLM 的语义能力增强 E2E 感知模块的语义与注意力。VLM-E2E用 VLM 生成与驾驶相关的文本提示将其与 BEV 特征融合NetRoller提出“即时首 token 全层获取”机制快速获取 VLM 中间层信息提高融合实时性核心挑战在于如何在不大幅增加延迟的前提下将 VLM 的高维、长时语义有效注入到 E2E 的高频感知流程中4.1.2 规划层融合目前最常见的方式 —— VLM 输出高层命令/策略E2E 负责输出实际轨迹。代表工作DriveVLM / SennaVLM 生成高层指令meta-action如“变道超车”下游规划器条件化生成轨迹DME-Driver引入人类决策逻辑FASIONAD启发自《快思慢想》设计快/慢两种思考模式VLAD / LeAD在系统架构和更新节奏上做进一步优化如多时钟频率4.1.3 感知规划协同融合进一步的工作尝试实现“双向信息流与架构共享”DriveVLM感知输出由 VLM 进行语义校验VLM 提供的“建议轨迹”反哺规划模块SOLVE共享视觉编码器VLM 对规划模块进行“初始化与指导”Hint-AD将 E2E 的中间结果输入到 VLM生成对齐解释使整体系统更可解释可以看到混合架构正从“简单串联”向“深度耦合、互相依赖”演化。4.2 离线知识迁移VLM 辅助训练这种方法的特点是训练阶段使用 VLM 作为“教师”提供额外监督信号高层动作、语言解释、链式推理等推理阶段仅保留传统 E2E 模型不引入任何 VLM 计算优点不增加部署复杂度和延迟能将 VLM 的认知能力“固化”到 E2E 模型参数中缺点性能受限于 Teacher VLM 的知识覆盖和 Student 的容量如何保证蒸馏后的策略在开放世界中仍然可靠仍是难题4.2.1 规划与动作对齐代表工作VLM-AD让 VLM 生成结构化动作标签如转弯、变道作为附加标签监督 E2E 模型DIMA将学生模型的潜在表示对齐到“教师模型理解下的结构化空间”本质是让 E2E 模型内部表示“带上语言语义”使其决策更加可解释、行为更加稳定。4.2.2 感知–预测–规划全链路对齐更进一步的方法希望对整个决策链条进行对齐VERDI用 VLM 的推理链对感知、预测、规划的中间特征分别施加监督VLP对齐 BEV 表征与“理想 BEV 表征”的语义空间ALN-P3提出统一的“感知–预测–规划”联蒸馏框架要求从输入到输出整条链路都与 VLM 的语言推理一致目标可以概括为不仅要“做对”还要“想明白为什么要这么做”。为了更直观地理解各流派的异同作者整理了主流模型的输入、骨干网络、中间任务及输出形式欢迎查阅。 5. 数据集与评测基准GE2E 研究需要同时覆盖不带语言标注的传统自动驾驶数据集带语言标注的视觉语言自动驾驶数据集5.1 无语言标注数据集规划评测主要用于评估规划与闭环控制nuScenes多模态感知短时规划主要用于开放环Open-loop评测指标包括 L2 误差、碰撞率等CARLA / Bench2Drive可控制天气、交通密度、路况多用于闭环仿真评测指标Route Completion、Infraction Score、Driving ScoreNAVSIM介于开放与闭环之间通过模拟预测评估真实世界表现兼顾可靠性与效率5.2 含语言标注数据集VLM / VLA 专用近年来基于 LLM 辅助构建的数据集大量涌现用于场景理解QA / Caption行为解释为何刹车、为何变道语言指令驱动控制CoT 推理、图问答等按数据来源大致可分为四类完全基于 nuScenes 构建Talk2Car、DriveLM、NuScenes-QA、NuPrompt、SURDS 等基于其他开源数据集KITTI、WOMD、BDD、DRAMA 等自采真实数据LingoQA、MAPLM、CoVLA、DriveAction、DrivingVQA 等CARLA 仿真生成DriveMLM、DriveLM-CARLA、DriveCoT、Bench2ADVLM、SimLingo 等为了帮助研究者快速上手我们在综述原文Table 2中系统梳理了现有 VL 数据集的规模、任务类型、数据来源及标注方式如图3所示。图 3 VL数据集总结5.3 性能对比与趋势图 4 规划性能对比图从图4的公开排行榜来看Open-loopnuScenes, NAVSIM顶尖方法中传统 E2E 占主导但带 VLM 的混合 / VLA 方法在某些指标上逐渐追平甚至超越NAVSIM 上已有模型在综合指标上超越人类司机表现Closed-loopBench2Drive, CARLA Town05传统 E2E 在稳定性和路线完成率上仍然有明显优势当前 VLA/VLM 方法在“轨迹数值精度对环境反作用的建模”上还有提升空间整体趋势传统 E2E数值精度高、闭环性能好VLM/VLA泛化能力强、解释能力好、在开放世界中表现出色混合范式有望在两者之间找到更好的平衡点⚠️ 6. 核心挑战从 GE2E 统一视角来看三大范式共同面临以下关键挑战6.1 长尾数据分布现实道路中大多数数据是“平淡”场景真正危险或复杂的场景极少模型在长尾场景表现差合成数据 / 仿真补长尾常有“仿真–现实域差”问题VLM 即便有海量世界知识在特定任务微调中也可能出现灾难性遗忘目前方向包括生成长尾场景仿真生成模型强化学习探索罕见状态终身学习 / 数据引擎持续挖掘“高价值失败案例”6.2 可解释性传统 E2E多依赖注意力可视化、检测结果等方式做“间接解释”难以准确反映真正的内部因果逻辑VLA具备天然“会说话”的优势可用 CoT 输出推理过程但“解释与行为可能不一致”的问题非常现实Hallucination / 对齐不足如何确保“想的内容”与“做的事情”真正一致仍是重要研究方向。6.3 安全与法规保障仅靠训练时加入安全约束还不足以应对真实世界的复杂、不确定情况推理时安全模块虽有帮助却会破坏端到端简洁性过于保守降低效率和用户体验如何在安全、效率、舒适性之间找到可量化、可调的平衡是核心难题。6.4 实时效率特别是 VLM/VLA参数大、推理慢、生成式解码延迟高各类压缩/裁剪/早退策略往往带来能力下降或可靠性损失在低延迟约束下保持高鲁棒性仍是开放问题。 7. 未来趋势与研究方向综合全文未来 GE2E 自动驾驶的关键方向包括强化学习模仿学习的混合范式先用模仿学习快速获得可用策略再用 RL 在仿真/世界模型中进行安全的闭环优化面向多目标安全、舒适、效率、合规的奖励建模与策略优化自动驾驶基础模型Driving Foundation Models大规模预训练小样本场景微调VLA 作为统一“感知–推理–规划”框架通过世界知识提升对长尾事件的预判能力智能体系统Agent SystemsLLM 作为“调度与决策中枢”调用感知、地图、规划等专用子模型Tools形成多模块协作的“认知–执行层级结构”提升解释性与鲁棒性世界模型World Models在潜在空间里“模拟未来”实现安全的离线探索和规划把“预测未来场景演化”作为一个自监督任务从海量视频中学习跨模态融合Vision LiDAR HD Map 文本将 RGB 丰富语义与 LiDAR 精确几何、有结构地图高层规则有效融合提升在复杂 3D 环境中的决策可靠性数据引擎Data Engine与自动化闭环从真实路测与用户数据中自动挖掘“模型失败样本”“不确定样本”形成“采集 → 筛选 → 标注/合成 → 训练 → 上路 → 再采集”的闭环迭代体系✅ 8. 小结本文从统一的 GE2E 视角回顾并梳理了三大端到端自动驾驶范式传统 E2EVLM 核心 E2E混合 E2E在架构设计、学习策略、数据与评测上的代表性工作各类方法在开放/闭环场景中的优势与不足面向未来的关键挑战与突破方向可以看到端到端自动驾驶正在从“只会模仿、不会解释的黑盒控制器”逐步演化为“既能看、能想、能说又能安全开车的智能体系统”。在这个过程中基础模型、世界模型、强化学习、VLM/VLA 与工程级数据引擎将是推动下一代自动驾驶系统走向真正“可靠、安全、可解释”的关键技术支柱。欢迎感兴趣的读者查阅论文原文与开源项目进一步深入这条正在快速演进的技术路线。参考论文标题Survey of General End-to-End Autonomous Driving: A Unified Perspective单位上海交通大学滴滴出行链接https://doi.org/10.36227/techrxiv.176523315.56439138/v1项目主页https://github.com/AutoLab-SAI-SJTU/GE2EAD

网站的ftp地址是什么在局网站作风建设

做网站都去哪申请网址泗阳建设局网站

公司已有网站如何自己做推广湖南建筑信息网

多终端网站赤壁网站建设

重庆网站供奉战犯搜狗seo怎么做

企业网站app上海做网站较好的公司

可信网站认证有必要吗页面设计风格的主要内容

网站的ftp地址是什么在局网站 作风建设

做网站都去哪申请网址泗阳建设局网站

公司已有网站 如何自己做推广湖南建筑信息网

多终端网站赤壁网站建设

重庆网站供奉战犯搜狗seo怎么做

企业网站app上海做网站较好的公司

可信网站认证有必要吗页面设计风格的主要内容

网站的ftp地址是什么在局网站作风建设

公司已有网站如何自己做推广湖南建筑信息网