2024年，自动驾驶会迎来质的改变吗？ - 葱头胖友圈

89.2万人次，这是今年北京国际汽车展览会（以下简称“北京车展”）的观众人数，而上一届北京车展的观众人数是53万人次。

“甲子光年”在现场观察到，相比于前几届车展燃油车和新能源汽车大战的场景，今年北京车展完全没有能源类型的竞争，几乎所有车企都在推出新能源车型。

大模型是本次车展的一个重要主题，很多厂商都把大模型上车作为一个宣传亮点。而自从特斯拉开启了端到端自动驾驶潮流，端到端已经成为自动驾驶领域必须攻克的高地。

元戎启行、商汤科技、小鹏汽车都在车展上展示了其最新的端到端自动（智能）驾驶方案。5月20日，小鹏汽车的AI天玑系统将全量推送覆盖小鹏 X9、G6 、G9 、P7i四款车型所有的Pro和Max版本。

小鹏汽车董事长何小鹏在北京车展期间接受媒体群访时表示，原先智能驾驶需要大量代码制定规则，即使达到一万行，可能也只能实现50%的规则能力。“2025年智能驾驶会发生质的改变。现在看甚至提前一年，因为技术比我想象中更快。”何小鹏说，“随着端到端技术的出现，我们仅需投入数十亿（元）的训练费用，便可以在一年内大幅提升产品性能，这将极大加快自动驾驶技术在实际应用中的普及速度。”

但也有人把特斯拉的端到端大模型方案奉为圭臬，认为必须按照特斯拉的方案，即传感器数据和车辆状态信息输入单一大模型后直接输出车辆控制指令，才是真正的端到端自动驾驶方案。

这种争议在机器人领域也有，比如人形机器人Figure 01宣称的“端到端神经网络”就引发了讨论。

出门问问创始人、CEO李志飞认为，原理上，Figure看起来类似于Google在2023年3月发布的PaLM-E和RT-1的pipeline组合，而不是Google于2023年7月发布的端到端模型RT-2。

“'端到端'这个事，不同人的理解不一样。”北京大学计算机学院助理教授、博士生导师董豪告诉“甲子光年”，“有的人认为RT-2这种直接输出action的才叫‘端到端’，但是那种方法缺点很明显，调用大模型的频率比较高，算力消耗特别大，而且很难做到比较高的决策速度。Figure说的‘端到端’，不是指直接输出action，而是由高频的模型来输出action。”

那么端到端自动驾驶技术是什么？端到端大模型是否是自动驾驶最优解呢？本文，“甲子智库”将带来大模型在自动驾驶领域的应用和发展方向分析。

一、自动驾驶技术的迭代与大模型应用

纵观自动驾驶技术的发展历程，人工智能的不断突破显著提升了自动驾驶的感知性能。从卷积神经网络（CNN）的引入，到循环神经网络（RNN）的应用，再到结合鸟瞰图（BEV）与Transformer模型的创新，每一次的技术进步都在增强自动驾驶的精确度与安全性。

特别是基于Transformer的BEV感知模型，已经获得了业界的广泛认可。大模型技术不仅加速了自动驾驶技术的演进，也为城市导航辅助系统（NOA）的普及和深入应用打下了坚实的基础，极大提高了智能驾驶产品的用户满意度。

当前主流自动驾驶方案的核心在于“感知-决策规划-控制”的模块化结构，其中“感知”是前置模块且至关重要。它确保车辆能够实时、准确地掌握周围环境，是实现安全无人驾驶的关键前提。

自动驾驶感知技术的发展已经经历了几个关键阶段：

卷积神经网络（CNN）：凭借在图像识别上的卓越性能，CNN成为自动驾驶感知的起点，可以有效整合图像与雷达数据，提升对道路和交通元素的识别能力；

循环神经网络（RNN）与生成对抗网络（GAN）：RNN擅长处理时间序列数据，而GAN能创造逼真的合成数据，两者结合，增强了自动驾驶系统在行为预测和路径规划方面的能力；

鸟瞰图（BEV）：BEV通过将三维数据投影到二维平面，提供了清晰的环境视图，优化了路径规划和避障决策；

BEV与Transformer的结合：BEV+Transformer大模型结合了Transformer的序列数据处理能力和BEV的环境概览，实现了更精细的环境理解和更全面的预测能力。此外，特斯拉在2023年进一步推出了占用网络模型，进一步提升了对三维环境的感知精度。

基于Transformer的BEV感知大模型已经成为自动驾驶领域的主流技术趋势，它推动了“重感知、轻地图”的技术路径，并加速了城市导航辅助系统（NOA）的量产与规模化应用，进而实现“全国都能开”。AI大模型无疑是自动驾驶行业发展的有力助推器。

事实上，在OpenAI推出ChatGPT之前，Transformer架构就已在自动驾驶感知领域得到推广与使用，并随着数据量增长与稳定性提升实现了相关产品的规模化部署。

整体而言，自动驾驶中大模型技术的运用可分为云端和车端两大类：

云端：

自动数据标注：通过大模型的自监督预训练，结合少量人工微调，实现视频数据的自动标注，提升标注精度，减少人工复审，大幅提高效率。

数据挖掘：利用大模型的泛化能力，挖掘长尾数据，如CLIP模型通过文本描述进行图像检索。

知识蒸馏：大模型学习丰富特征后，通过知识蒸馏技术传递给小模型，提升后者性能与准确度。

场景重建与数据生成：采用NeRF技术进行场景隐式存储和渲染监督学习，实现场景重建和生成高真实感数据。

车端：

模型合并：整合处理各类子任务的小模型为一个综合性“大模型”，通过联合推理提升感知算法的准确度和响应速度。

物体检测：运用大模型进行固定物体检测，如车道线、交通灯等，其检测性能不受外部条件如天气、时间变化的影响。

车道拓扑预测：基于BEV的feature map，运用自回归编解码网络将BEV特征解码为结构化拓扑点序列，实现车道拓扑的预测。

在数据驱动的新时代背景下，自动驾驶技术正在经历一场深刻的技术变革。大模型技术的应用已经从云端向车端延伸，涵盖了自动数据标注、数据挖掘、目标感知乃至车道拓扑预测等关键领域。这些应用凸显了大模型技术在自动驾驶领域的关键地位，并展示了其对行业的深远影响。

在主机厂与自动驾驶厂商对感知模型的开发与训练中，Transformer大模型早已不是新客，并已经开始在感知模块之外的其他领域尝试使用。随着大模型技术的进步与模型训练方式的进一步革新，端到端大模型为自动驾驶技术的进一步发展提供了新的思路。

二、端到端大模型谋划上车

继BEV+Transformer与OCC占用网络之后，端到端自动驾驶技术开始受到广泛关注。特斯拉作为行业的先锋，其推出的FSD V12系统便是端到端自动驾驶技术的典范。那么端到端自动驾驶和模块化自动驾驶有什么不同？

从高精地图到无图的“全国都能开”，从高速NOA到城区NOA，AI大模型的应用已经帮助行业L2++级别的自动驾驶功能量产上车并投入规模化使用，不断冲击着L3的界限。但如何从L2++真的跨越到L3/L4，始终是横亘在自动驾驶从业者面前的难题。

在ChatGPT的成功之后，由“大算力+大模型+大数据”驱动创造的“智能涌现”，为自动驾驶带来了新的路径选择。

现阶段已经上车的智能驾驶产品，绝大多数采用了“感知-规划-控制”串联的模块化架构。摄像头、雷达、IMU、激光雷达等传感器采集到的信息先交由感知模块进行空间感知计算；感知模型输出结果后，再交由基于规则的规划模块，进行相应的决策与路径规划；控制模块再根据决策规划的结果，最终生成车辆转向角、制动力、油门/电门等动作。

在当前的自动驾驶技术发展中，深度学习算法与大模型仍主要集中在提升“感知”模块的性能。出于对行车安全的考量，决策规划模块目前仍然依赖于基于规则的方法。然而，这种基于规则的决策模型在应对城市复杂交通环境和不断出现的极端情况（corner case）时仍显不足，这导致高级别的自动驾驶在实际运行中难以保证完全不需要人工干预。

而端到端架构则有所不同，它比模块化的系统架构更加简洁。狭义的端到端模型并不拆分感知、规划、控制等模块。相反地，端到端模型是一体化的，传感器信号作为模型的输入，输出则直接用于车辆执行器的加减速与转向的指令。在足量优质数据与充沛算力的加持下，进行统一训练。随着自动驾驶领域数据量的持续增长，为训练更为先进的决策模型提供了条件，使得端到端的自动驾驶模型成为可能，为未来彻底解决人工接管问题打好基础。

特斯拉今年3月在北美地区全面推送FSD Beta V12.3版本，此次升级的最大亮点是引入了特斯拉CEO埃隆·马斯克（Elon Musk）引以为傲的“端到端神经网络”技术，这一变革被誉为“改变游戏规则的技术”。

特斯拉介绍，FSD Beta V12.3将城市街道驾驶堆栈升级为一个在数百万视频片段上训练的端到端神经网络，取代了超过30万行的显式C++代码。这意味着汽车操控逻辑已经实现交由神经网络处理，而不是由程序员编写的代码。

国内一些领先的企业也在跟进这一技术的研发与部署。刚刚结束的北京国际汽车展览会也印证了这一点：商汤科技、元戎启行等国内AI企业的端到端智能驾驶量产方案在北京车展亮相，“端到端大模型上车”成为热议话题。元戎启行展出了基于端到端模型的量产智能驾驶方案DeepRoute IO，商汤绝影也在现场展示了面向量产的端到端自动驾驶解决方案 UniAD（Unified Autonomous Driving）的道路测试表现。

从开发的角度来看，“端到端”概念的引入是革命性的。主流的规划方案仍然基于手写规则，高度依赖提前设计的先验规则与传统算法的优劣，遇到bad case时需要持续不断添加规则，以打补丁的方式实现模型调优。

相比之下，没有进行任务拆分的端到端自动驾驶则摒弃了传统自动驾驶中感知、规划、控制各大模块及下边的各类子任务，能够实现输入传感器数据可直接输出车辆动作控制。

整体来看，端到端的优点包括但不限于：

数据驱动：用于模型训练的数据规模与数据质量是影响最终产品性能的主要因子，仅需要少量的人工编码。通过扩大优质训练数据的规模，可以不断提升系统的能力上限，并通过数据驱动的方式不断响应长尾场景下的数据回传，更新模型参数，大幅降低甚至完全消除对人工编码的需求。

整体最优： 端到端旨在服务整体目标，而不是每个模块单独一个目标，提炼并压缩优质驾驶数据的经验，实现“老司机”般丝滑的驾驶体验。

消除误差：一体化的模型结构可以减少各模块之间信息传递的延迟，且全栈神经网络的上下层之间可以传递全量的信息，消除累计误差，让自动驾驶系统反应更加敏捷和准确。

三、端到端大模型面临的挑战

端到端自动驾驶系统的优势日益明显，其借助大模型技术的深入应用，为自动驾驶技术的进一步发展提供了一条高效率的途径。然而，端到端是否成为自动驾驶未来发展的唯一道路，目前还存在一些疑问。

当前端到端自动驾驶系统的开发和实施正面临一系列挑战。

首先，端到端大模型的解释性不足，这对于将安全性放在首位的自动驾驶领域是一个亟待解决的问题。当端到端系统出现问题时，它不像模块化系统那样能够逐步分析中间结果，从而定位问题源头。在文本和图像生成等场景中，大模型的容错成本较低，但在自动驾驶领域，一旦出错，代价却极为昂贵。这成为了端到端系统通过验证测试并实现产业化的关键障碍。

其次，端到端自动驾驶大模型，类似于大语言模型，其核心在于对海量优质驾驶视频片段的学习和提炼，这需要极大的高质量数据集。

以特斯拉的FSD V12系统为例，它需要神经网络学习数百万的视频片段。这不仅涉及到数据采集的挑战，还包括从海量数据中筛选和清洗出高质量数据的难题。FSD是特斯拉的选装功能，但由于价格过高，FSD的选装率常年在低位徘徊。即便在比例较高的美国，FSD的选装率也不足20%。为了加强FSD的吸引力，帮助特斯拉获得更多训练数据，特斯拉FSD的美国售价已经快速“腰斩”：2023年9月，FSD套餐价格从15000美元降至12000美元，又在今年4月降至8000美元；月度订阅价格也在4月从199美元/月降至99美元/月。

而在北京车展上，极越宣布将于2026年量产上车英伟达1000TFLOPS高性能计算平台Thor，满足未来全场景端到端的智驾需求，“为用户带来安全、先进的智能移动出行体验”。而对于端到端大模型的数据问题，极越CEO夏一平今年3月曾对“甲子光年”表示，大模型训练比较核心的东西不是数据比谁多，而是比谁有更多的高质量数据，“数据质量很重要。数据质量不好，训练出的模型可能就是有缺陷的。”

最后，大模型的训练需要巨大的投资，包括高质量视频数据的采集和算力资源的大幅增加。埃隆·马斯克曾提出，到2024年底，特斯拉的训练算力将达到100EFLOPS，这是一个令人震惊的目标。对于国内企业来说，算力资源的积累问题将变得更加突出。

尽管如此，端到端技术以其创新的理念，为实现完全无人驾驶的目标提供了新的可能性。随着技术的不断进步和行业的共同努力，这些挑战有望被逐一克服。特斯拉计划推出的robotaxi产品，显示了其在自动驾驶领域的雄心壮志，预示着技术正朝着更高级的阶段迈进。同时，商汤科技、元戎启行、毫末智行等国内企业的积极参与，也展现了中国在自动驾驶技术领域的潜力和决心。

“2024年谁还没落地‘智驾全国都能开’，谁就会掉队。”这是夏一平今年3月受访时表达的观点。

不过，何小鹏在北京车展期间谈到端到端技术应用时也很明确地指出：“目前，许多企业声称他们能在全国范围内提供服务，但实际上他们仍然依赖于高精地图，看起来速度快但高精地图目前仅覆盖全国公路的不到1%。当车辆从A路开到B路时，如果没有高精地图的支持，服务就会立即中断。只有完全摆脱对高精地图的依赖，才能在复杂场景下得到应用。”

如同今年年初汽车行业的价格战一样，接下来，主机厂及供应商在自动（智能）驾驶方面的竞争势必会更加激烈。

不要忘了，马斯克前段时间来了北京，特斯拉FSD在中国落地或许就在不远的将来。

本文来自微信公众号：甲子光年（ID：jazzyear），作者：翟惠宇，编辑：王博