我回想起2020年,何小鹏先生向大洋彼岸的马斯克先生喊话:“要做好被我们打得找不到东的准备。”
那时候的我天真地以为,我们有着最成熟的激光雷达(Lidar)产业链,能够将激光雷达的成本降低到可以量产上车的水平,还能保证产出点云的质量,所以国内厂商能够有天然的硬件优势,保证感知结果的精确。
我也以为何小鹏先生的底气来自于此。
到了2023年,小鹏G6靠着几乎独一份的智驾体验和800V 电池,收获大量订单,隐隐有爆款态势。对面特斯拉FSD对于国内的客户依然是一个巨大的饼,一个连时间表都无法给出的饼。
从这个角度来看,何小鹏先生兑现了他的诺言。但是,很遗憾的是,从最近小鹏智能驾驶的宣传来看,这似乎与激光雷达(Lidar)关系不大。
无独有偶,据称蔚来子品牌阿尔卑斯的首款车将不再配备激光雷达。同时,理想汽车不久前的家庭科技日上,大篇幅讲了自研智能驾驶的进步,而对激光雷达几乎只字未提。
所以,激光雷达是我们走的一段弯路吗?
一、激光雷达不是城市导航辅助驾驶的必要条件
1. 激光雷达点云没有进入XNet进行训练
根据小鹏智能驾驶感知负责人Patrick Liu在CVPR 发表的演讲,为小鹏城市辅助驾驶打下强悍基础的XNet,几乎没有用到Lidar的信息。Lidar只是在XNet给出感知结果之后,进行识别距离的二次确认。
在 Patrick Liu 在CVPR的演讲结束之后,有个观众问了一个问题:“整体并没有提到激光雷达,为什么?”
Patrick Liu 的回答非常耐人寻味:
目前我们还是Vision Centric System,Lidar 没有进入前融合,实际上激光雷达还是用于一些通用障碍物的识别(例如一些从没有见过的物体,感知识别不到,但是可能空间中会有一部分点云),XNet 中并没有使用Lidar点云,实际上Lidar传感器尚处在一个还在不断变化的时候,并没有稳定下来。
也就是说Lidar 目前对于整个感知系统处于一个不是很重要的状态,没有进入BEV网络进行训练。
从这个角度来看,激光雷达在感知的权重几乎降低到了自适应巡航毫米波雷达的程度。
而根据此前吴新宙的采访:
我们用激光雷达一直非常收敛。
也证明了激光雷达在目前的技术栈中被依赖的程度并不高。
从这个角度看,实际上小鹏的路线与特斯拉是非常类似的,只是多了激光雷达的传感器冗余,加快了落地速度。
2. 特斯拉从未在量产车上使用过激光雷达
特斯拉的量产车上从来没有出现过激光雷达,但从来不妨碍业内从业者对特斯拉自动驾驶团队的尊重。到目前为止,称为量产综合最强其实并不为过。
面对纯视觉系统处理不好的大雾和暗光环境,许多工程师认为这是视觉天然缺陷,但是特斯拉认为这是数据不足。
只要对应数据足够多,感知系统的潜力就能被挖掘出来。一切能力不足,都可以归因成数据不足。纯视觉高阶辅助驾驶核心能力,在于优秀的数据回环系统和自动标注系统。
逻辑其实非常清楚,既然纯视觉如果可以完成Lidar的测距任务,那Lidar就没有必要存在了。用同样的逻辑,特斯拉也将原有的毫米波雷达去除了。
当然,我承认在一些极其恶劣的条件,纯视觉的能力一定有着很大的限制,但是这绝对不会成为高成本激光雷达的上车必要条件。最后的一点距离确认的任务,不足以支撑如此高的成本。
“即纯视觉方案能做到90分,激光雷达方案只能做到91分,但是为此付出的成本却非常大,这很明显价值不高。”某头部智能驾驶感知方案负责人如是说
特斯拉可能会选择将这一点任务交给成本更低的4D毫米波雷达,这是后话。目前生产的HW4.0,Model Y,Model 3 并没有毫米波雷达,而Model S X上配备了,从某种程度上可以认为,这只是安全冗余或者是目前的影子模式数据收集用,而不是核心器件。
目前量产智能驾驶的两个头部玩家都对激光雷达持相对否定的态度,为何?
二、BEV算法和占用网格正让激光雷达的作用降低
激光雷达最重要的两个特质:测距精度和通用障碍物的识别,效用在不断降低。
在早期L2级别的自动驾驶中,摄像头给出识别结果,然后再根据毫米波雷达的距离结果,二者进行信息的互相补充,进而得出最后感知结果,用于常规的自适应巡航(ACC)和紧急刹车系统(AEB)等。
但是实际上由于毫米波雷达的误检测比较多,地面也会被识别成前方物体。因此,一些厂商会直接将静态目标直接过滤掉,只使用动态目标的结果。
这就造成毫米波雷达实际效用大大被降低,在整个感知技术栈中变得可有可无,尤其是当纯视觉感知到了足够的精度时,毫米波雷达的结果会被毫不犹豫地被抛弃。
激光雷达几乎走在毫米波雷达的老路上。“目前头部的纯视觉BEV的检测距离精度,大部分时候已经到了不需要激光雷达的程度。”某头部智驾感知工程师表示。
按照目前视觉方案的精度,激光雷达精确测距的优点已经越来越鸡肋。另一个非常明显的转变是,特斯拉已经可以靠纯视觉占用网格(后文有相关解释)完成泊车测距显示,也就是说,其静态感知的测距精度已经到了厘米级别。
由于极高的成本,并且波段基本接近可见光。极大部分内容摄像头也可以看见,常见的视觉受限场景——雨天和雾天场景,雨水和雾气产生的干扰点让激光雷达根本没有优势。激光雷达的危险程度甚至更高。
三、如何去除激光雷达
1. 数据回环与标注系统
与tesla 2021 AIDday 非常类似,Patrick 的演讲过程中大篇幅提到了小鹏的数据回环和标注系统。
一个离线的识别模型,少了车上算力的限制,可以将模型变得更大;同时多了多帧的信息,例如某一帧的自动标注可以使用前一帧和后一帧的信息来对齐,保证位置的准确性。
同时,有意思的是,自动标注系统中大部分都会使用点云的信息,由于激光雷达点云的精确性更好,可以用于更精确的标注。这样出来的标注质量可能会比特斯拉的要好,也就更有机会训练出更加优秀的感知系统。
而目前头部车企的不断回环的带点云的数据,是一座巨大的容易被标注的数据金库。实际上,回环系统,各家全栈自研车企都建设完成或者在建设途中了。这种背景,可能会让去除激光雷达的路走得更快。
2. 纯视觉占用网格
深度学习来做自动驾驶感知,有一个天然的缺陷。几乎所有的能识别出来的物体都需要在训练集中出现过,如果没有的话,识别失败是很容易预知到的结果。但是道路上的物体无穷无尽,根本无法穷举。
同时,很多算法团队也在试图让自家的算法拥有Zero-Shot的能力,即没见过也可以识别,但是稳定性难以保障。
如果使用激光雷达,可以根据点云给出通用障碍物。即不在乎是什么,只在乎是不是一个影响驾驶的物体。这是激光雷达最重要的优点。
没有识别到的物体,如果有置信度足够高的点云集合,即使视觉系统没有识别到,那么实际上也可以将其直接作为障碍物给出识别结果。
当然,特斯拉也给了回答,视觉占用网络。
没有激光雷达,特斯拉纯视觉算法将所有的物体分割成了占用空间,即不再关心非常具体的类别,只关心占用的3D空间和速度相关信息。这样就规避了穷尽类别的问题。
当然这也建立在视觉算法能够完全恢复3D空间距离的基础上。Lidar能够提供足够好的距离结果,为标注距离后训练占用网络提供了非常好的基础,但是由于目前量产的激光雷达囿于成本,整体点云的密度并不足以提供极为稠密的深度信息,也需要标注团队的努力。
3. 合成数据的精确标签
合成数据:顾名思义,非真实数据,而是人工合成的数据,可以用于算法的训练
早在2021年特斯拉就提出他们使用了合成数据进行算法的训练,例如高速上奔跑的行人;2022 年提出使用自动化仿真环境构建为算法提供训练和测试。这些都为特斯拉的算法提供了非真实的数据来源。
我相信在特斯拉进行占用网络的开发过程中,也有非常多合成数据的参与。在这里,合成数据有着一个无法比拟的优势:极其精确的3D真值。
相较于自动化标注给出的似是而非的真值,开发团队为了降低成本,不得不忍受;合成数据由于其生产过程是高度人为可控的,数据的真值是非常精确的。
与此同时,某个占用空间的速度,加速度,类别也是高度已知的,即使是完全人类标注,所生产的标签也无法比拟。这种高度精确的数据为算法提供了非常广阔的应用空间,也在一定程度上提高了算法的上限。
四、激光雷达的危机来源
在纯视觉方案不够精确时,智驾工程师们会用更多的数据和更精妙的算法来榨干视觉方案的价值,来提高数据的利用率。到了激光雷达这里,似乎工程师们的态度发生了变化。为何?
激光雷达依然在不断变化,除去老生常谈的905和1550波长之争和安装位置的区别,激光雷达点云抗干扰的能力依然是激光雷达厂商们不断努力的方向,这些都是变数。这些变数让激光雷达的下游对未来产生怀疑。
1. 尚未稳定的技术带来的沉没成本
摄像头经过多年的发展,已经有了一套非常稳定的数据处理方案,一切都有规律可循。学术界业界使用的传感器都趋于一致,即使使用的感光元器件,图像信号处理模块稍有区别,但是整体输出的结果都有一个规则:趋近人类眼睛的感受。
而BEV的引入,也在一定程度上降低了对外参的依赖,因为BEV需要将图像全部转换到俯视视角,这种相对解耦让之后车型的适配也相对灵活
所以摄像头的变化会在一个相对合理并且可以被接受的区间内,即使是内外参有一些区别,并不会让适配工作变得极为复杂。
而激光雷达,业界形成的共识大概只有,点云需要更密,远处的分辨率要足够高。更不要说,激光雷达目前的安装位置也没有形成共识,这种点云一旦被强依赖开发,之后的车型势必都需要按照相同的方案进行开发。否则数据的复用会带来极大的工作量。
所以一些公司将激光雷达直接转换成占用空间(Occupancy Grid), 与特斯拉占用网络的结果趋于一致。
但是激光雷达点云又不提供速度信息,占用网络速度标注又是一个不容易被解决的问题,只有视觉能解决这个问题。
2. 成本倒逼的两套技术方案
对于辅助驾驶,目前大部分车企都有两套技术方案,一套带激光雷达,用于更加高阶的技术方案,一套不带激光雷达,用于更低成本车型,降低入门车型的价格。这就带来一个非常有趣的现象:纯视觉方案做基础,激光雷达方案做高阶。
所以在一些基础必备的功能,例如AEB,假设一个车企有两套自研硬件方案,那么这套方案一定是视觉为主,激光雷达后期作为可有可无的补充的。否则开发完全不一致的方案,会让已经非常内卷的功能团队再次精力被分散。
而高阶辅助驾驶,在目前的降本需求下,也在被纯视觉方案侵蚀空间。大部分智能驾驶方案团队,都使用纯视觉方案做到了高速领航辅助驾驶,这种向上的压力面前也让激光雷达方案的空间进一步被压缩。
那么激光雷达剩下的空间就只有城市导航辅助驾驶了,而Tesla,早已证明没有激光雷达也可以完成。而4D毫米波雷达正虎视眈眈,会进一步侵蚀激光雷达的生存空间。
效用与价格的错配正在拷问所有的智驾团队。而现在的激光雷达上车价格,已经是厂商们用尽全力,完全没有利润的结果了。
五、激光雷达的机会
如果激光雷达一直无法进入前融合,而成本倒逼也让空间进一步被缩小,未来会在何方?
我们回想一下毫米波雷达的使用,事实上没有厂商会直接使用毫米波雷达出来的点云结果,而是大部分使用毫米波模组直接出来的物体探测结果。
例如博世毫米波雷达模组能直接给出目标的感知结果,比如物体的距离,长宽高等,虽然这些结果的置信度不高,但是有着相对稳定的可用空间,整体集成难度也相对较小。
那么激光雷达是否也可以复制毫米波雷达的发展方向?
激光雷达模组输出更加稠密的占用网格,而不是点云原始结果,在某种程度上直接给出稳定的整体世界的描述。
AEB等固定模块的参考信号,例如Mobileye 的模组可以直接给出非常稳定的AEB结果。理论上点云的距离质量会让AEB信号的开发难度会更低。
进一步降低成本,直到可被接受。
马斯克宣布过特斯拉使用的是摄像头的原始数据进行后面的开发,也省去了图像信号处理模块带来的干扰,而对于激光雷达厂商来说,更加熟悉底层,能够获取更加原始的数据,也能够获得更好的结果。
当然,这是我个人观点,并不代表未来的发展方向。
六、写在最后
这两年激光雷达从上车的火热,到目前的冷却,行业态势瞬息万变。
激光雷达最重要的两个优点,距离精度和通用障碍物识别,被纯视觉BEV算法和占据网格算法一步步侵蚀空间。
国内智能驾驶产业链强行将激光雷达催熟,现在某些车企还无法正确使用,大量点云只用于AEB系统,但是AEB的表现却很难与所有人都想颠覆的Mobileye抗衡。
幸运的是,我看到激光雷达为自动化标注带来的捷径,让之后去除激光雷达过程变得更加容易。激光雷达两年前的激进上车,或许就是为了不久之后的下车。
也许某一天,证明拥有激光雷达的车在AEB的表现普遍更好,占用网格可以更精确,激光雷达退化成类似安全气囊的高端配置以后,激光雷达的春天才真的会到来。
高阶辅助驾驶的两副拐杖,一副是高精地图,许多团队正在扔掉的路上;另一副是激光雷达,我相信离扔掉应该也不远了。
但是有了这两副拐杖,让我们更快体验到了高阶辅助驾驶的魅力,也能更好迎接低成本方案的到来。
或许,很幸运,马斯克是对的。
最后,重点推荐Patrick Liu的 Medium Blog:https://link.medium.com/6OLZCRHdcCb
本文来自微信公众号:自动驾驶下半场(ID:gh_b077050c0d7e),作者:厘米