“他们要在AM62A上做纯视觉和规控,如果做出来,那就是一个词:离谱。”


一家中国智驾创业公司,要带着这套基础方案大战CES(拉斯维加斯消费科技展),卷出中国、卷向国际。


AM62A,是德州仪器( 简称TI )在2023年推出的Arm架构的芯片。


在主机厂采购眼里,它最大的优点可能是“不足10美刀”;而在智驾工程师眼里,它绝对是个麻烦:尽管其架构设计继承了 TI 做处理器“多一分则肥,少一份则瘦”的好品质,但它的深度学习算力,却不到2 Tops。


真真是“屎上雕花”。


可以说,“低阶”卷土重来的2023年,一下子将自动驾驶之战拉回了10年前,明明那时主机厂的最爱便是TI的TDA2。而AM62A这个处理器,却是TI的应季新品。


但它其实既不新也不快。


某种程度上,AM62x是TI芯片定义者们按照它上一代,甚至上上一代同胞兄弟们微调出的低阶变种。


而它的异卵兄弟之一,便是大名鼎鼎的TDA系列。


后者使用了比AM62更高一级的Arm架构,几乎可以被视为汽车产业智驾芯片的“入门级通行证”。


“面对主机厂采购们,你说这好那好都没用。但你说比TDA既便宜性能又好,他们眉头就会舒展开,因为他们认识TDA。”


一位产品经理说,TI的智驾芯片TDAx,约等于一枚同类型产品的“通用货币”。


但显然,“价格战”让主机厂与智驾方案商都开始疯魔化:有时候,几十美刀的TDA也不能弥补他们对销量陷入迟滞的畏惧。


“没关系,从3美刀到100美刀,每隔两三刀,我都有一枚趁手的芯片。”


TI的销售露出狡黠之笑时,像一个卖烟的老烟枪。而这样密集的产品定位与定价,与其说是TI的传统,不如说是传统芯片巨头们的惯常策略——15%高端市场与高单价带来的丰厚利润,都给英伟达;而剩下85%的薄利多销,我们参战。


这家72岁的芯片老骨头历来低调又狡猾。


与直击大部分游戏青年灵魂的英伟达相比,吃尽模拟芯片红利的TI ,恪守着“闷声发大财”的半导体老一辈行事准则——没人关心TI现任老大。报道大多只有寥寥数语的财报数字与产品参数,还不如官网详细。


此外,在各种奇奇怪怪工程师喜欢扎堆的Reddit论坛,每天都飘着“英伟达赢麻了,但我绝逼不用” “英特尔要嗝屁了吗” 的胡言乱语。甚至还有人po出“8块英伟达A100”的照片公然炫富……


但搜索 TI 的相关关键词,讨论度,为0。


然而,从“智驾”这个概念开始,如果沿着汽车供应链往上摸,即便是数字芯片,网关、座舱、ADAS,还有毫米波与激光雷达…...


一切竟然都绕不过TI 。


甚至于,汽车人会觉得关于TI的一切属于老生常谈:“丰田那糟糕的ADAS,还在用TDA2呢。”


但2022年的确格外特殊。


虽然大疆车载绝不是第一个用TDAx的企业,但他们智驾方案“性价比”的出圈,却让TDA真正触达到了“英伟达er认知层”。


当然,还有一点也可以实打实佐证TDA4有出圈的态势。


下半年,在TI自己建立的工程师论坛里,关于TDA与AM62系列芯片的讨论度骤然上升。


各项数据显示,它们成了TI数字处理器里讨论度最高的产品线。


事情变得越来越有趣。市场推动下,高算力往低走,低算力往高迭代。高与低总会在一个恰当的算力点相撞。


而不少智驾工程师,大多是从骄傲的英伟达时代“下放”至车载。围绕TI的争议,也随即放大。


屎上雕花


即便是面对TDA4VH这种32Tops的中算力芯片,年轻算法工程师的态度也是略带蔑视的。这跟年轻人对丰田燃油车的态度非常像:“不就是入门款嘛。要用也不会用这种入门级。均衡却不出彩,没毛病却很无聊。”


“均衡”,便是产业对TI定义ADAS芯片的一致评价。


表面上它是说,当架构师把A核(这里通常指代Arm的A系列)、MCU、DSP以及深度学习芯片(MMA)等大小器件捏合在一起时,不会任由一家独大,每一块大小都恰到好处。


但本质则是,每个型号的功耗与性能,都被巧妙控制在“成本”的边界上。


这种设计上的均衡美学,曾让一位产业人士感叹:当你掌握了TDAx的架构,那么你几乎可以掌握全世界的SoC芯片架构。


TDA4VM的深度学习为8Tops,该图为配置。


譬如,无论是CNN还是Transformer,本质都是“矩阵运算”。它基本可以涵盖深度学习里90%以上的运算形式。


而看透AI计算本质后,讲究均衡的TI,便不会为了某一个特定神经网络去自己耗费资源猛下功夫:


“这世界上有1000种网络,TI只要做到cover 900种,就很顾全大局了”。


或者说,“均衡”的另一个含义,是“兼顾大多数”。


TI对TDA4VM深度学习加速的设定,是“一个时钟周期内做4096次乘累加(MAC,1 MAC=2ops)运算”。


而周期次数如果为1Ghz,那么便是要做4096 *2 *1 次Gflops运算,也就是8 Tops。


这便是TDA4VM真实的深度学习算力。


当然,为什么矩阵运算不能是4096的两倍,或者频率凭什么是1Ghz?


“如果要变大,GPU和A核便会被挤兑。也确实可以改动晶圆尺寸,那么成本就得增加。”


无怪乎TDAx的技术支持工程师说,PPA(功耗、性能与面积)才是设计者的终极KPI。


“所以,市面上的芯片,各种吹高算力和大算力,你其实都可以算出来。而这些门道,做芯片编译器和神经网络的人心里都非常清楚。”


因此,受算力胁迫,算法工程师们要在一个有限的框里,塞入一堆矩阵远比4096大的模型,难度不比英伟达低。


毕竟,满分命题作文也不比发散性创作好写。


譬如,在英伟达上,数据可以放进DDR内存里一层一层读取。但在 TI 的芯片上,则不得不把数据塞进片内的缓存里,不然就会变慢。


但是一个大到几十兆的256*256卷积特征图,几乎不可能塞入一个只有8K的空间里。


“那就只有切成小条了。”


据一位工程师描述,就像切方块一样,切完再一点一点送进去,算完再导出来。来来回回不胜其烦。


但事情远没有这么简单。


譬如,把卷积切开时,交接处的“缝”怎么办?这又会涉及到一堆复杂计算。此外,在DMA负责搬运数据的过程里,A核与DSP也不能闲置。


“每个模块在多条时间线上各司其职,就要思考如何切,切多大,切多少次,一切都是有讲究的。切得越多越细,bug也就越多。”


这就能解释,为何很多在TDAx上做智驾方案的工程师,都会吐槽抱怨 “TDA真太tnd难用了”“不是人能吃得了苦”“编译器稀烂”。


而真正在TDAx上智驾效果做得好的企业,不多。


这也能解释,大疆突出重围,不是智驾技术做得顶级优秀,而是在TI的便宜芯片上,做得比别人好一些。


所以,如果说英伟达是以钱为代价的话;那么TI,还是得讲究一点儿智慧。


抠的精髓


与英伟达和高通动辄几千万美金的芯片开发费相比,TI的确做到了“一个臭卖芯片的”本分。


它用一套SDK去覆盖所有SoC,也不用服务和人海战术去加持,至于“智驾做不做得出来”或“做得好不好”,TI也不是很care。


TI只在乎这颗芯片的出货量到底能有多少。


曾有产业专家信誓旦旦指出,不同产业的处理器很难做到复用,即便强大如英伟达与高通,也都不是按照汽车产业来定义的。


这话听起来略显好笑。


因为孵化TI ADAS芯片那颗最原始的蛋,就是手机。


诺基亚手机使用的Arm芯片,便是TI的OMAP系列,在21世纪第一个十年的最高全球市占率曾高达85%。只不过,在诺基亚被时代抛弃后,TI也在2012年丝毫没有犹豫斩断了这条胳膊。


然而,即便业务部门人走茶凉,研发工程师、产业锦囊和各种IP却被保留下来了。


事实上,对于一家能活70年,市值多年保持在1500亿美元以上的企业,最好的商业品质,便是把一项巨额投入换来的技术“复用”到极致。


因此,OMAP的IP研发费用,不可能只摊销于手机产业。


于是接下来,TI芯片定义者们瞄准了安防产业的需求,手伸进盛满自研IP的大缸里,搅一搅选出合适的部分,又凭借自己的认知捏成了一枚安防芯片。


很难想象,TDA1一开始的最大客户,其实是海康与大华,出货量曾按照“亿”来计算。


而正是同一款芯片,过了车规后,用在全景泊车上,则叫做Jacinto 5。这还是一家国际Tier1跟TI提出的诉求,后者顺手给他们写了套软件。


有趣的是,这家Tier1的全景泊车,名字叫做BEV(历史总是惊人地相似)


很快,这颗全景泊车芯片不仅推广至全国主机厂,还同时进了座舱和网关。


当年,比亚迪还仅有一辆电动车型F3的时候,便是用了Jacinto5做了全景泊车和前视摄像头。这么来看,它现在选择大疆给自己新车型基于TDA4做智驾,历史的Knowhow或许还在。


而新势力代表小鹏,早在2018年,还在管智驾这摊子事儿的谷俊丽团队,便是用TDA2做了低阶行泊一体。


“TI做东西,从来都是一颗芯片给到很多市场,不然根本没法摊平研发(成本)。因此,它绝不专为监控、工业还是汽车做设计,而是采用了市面上不先进但必须最主流的IP。”一位TI技术支持工程师说,TDA4仅仅是一颗很好的SoC,而不是一枚智驾芯片。


“SOC需要啥,Arm、DSP、DDR以及Capture和Display等等,业内很都清楚。或者说,我们做了一枚不错的视频处理器,哪个市场需要,就往哪儿推。”


只不过,TI在里面发挥的作用,都是隐性的。


譬如,关键部分DSP(数字信号处理器)本就是TI的最大发明之一;


而负责搬运数据的DMA,其触角覆盖芯片各个角落。仅这项技术,便则耗费了TI大量研发资源。


此外,芯片公司喜欢炫耀的安全认证体系其实也没什么大不了。


实际上,在一枚严格的车规芯片上,哪怕总线上的一个端口,都必须有配合的诊断单元与自检单元。各种“小零件”隐藏在巨量细节里,大部分不会被看到。


“TI真正值钱的东西,是这几十年存放各种IP和架构的大缸。而这口大缸的持有者,是研发和架构师。”


2016年,阿里说自己首次提出“中台”一词。然而在半导体面前,互联网玩的都是被历史遗忘的文字游戏。


某种程度上,TI的研发与芯片架构师,便以一种“技术中台”的形式而存在——无论TI每个业务单元有什么动荡,岿然不动的是这些研发工程师;与之相比,销售与FAE则像是撒向全球上空的一把盐。


或者说,前者是TI金字塔顶上的人物。就像等级森严的蔡司,数学家属于高阶层级,只需要沉浸在光学矩阵的研究里,俯视下方。


在TI,很多工程师一毕业就进入TI位于达拉斯总部的办公室,一坐就是二三十年。每个人半辈子几乎只看一条线——摄像头就做摄像头,PCIE就做PCIE。


因此,他们对TI的忠诚强烈且彻底。而TI也几乎不会解雇研发,愿意给予他们极大的自主性。


这种自主性,对应在组织架构上,便显得格外奇特——尽管规模庞大,但TI的指挥系统却相当短。明明看起来像头大象一样笨重,但组织架构,却扁平得像一条鳐鱼。


譬如,TI在国内没有研发,几乎由销售与技术支持工程师(FAE)组成。


而从最底层的普通销售,再到中国区总裁姜寒,一共就只有四级。


这便能解释,中国市场如走马灯一样的需求,为什么能迅速反馈给达拉斯研发本部。


不过,尽管TI对分布在各个国家的庞大业务线给予自主权,但绝对不会花太多时间宠爱失败者。毕竟它完全可以依赖模拟芯片而活。


2012年见势不好,TI彻底退出全球手机市场;


后来,安防市场卷入价格战,TI在利润骤降后再次当机立断选择退出;


座舱市场在高通强势进入后,TI吃完Jacinto红利也选择退避三舍。


当然,如果再回溯历史,你会发现一切皆有源头。


TI在1975年做出第一枚电脑微处理器,借此强势进入家用电脑市场,却在1982年被迫卷入价格战。就在财务出现第一次季度亏损的1983年,TI仅用三个月便砍掉了整个家庭电脑业务。


“TI 并非不打价格战。毕竟它最大的财产还囊括十几座工厂。从制造到设计,它完全可以用价格压死人。TI只是不想做利润趋于0的买卖。”


这就导致TI的决断力是敏锐且超前的。就像10年前它就在搞并购,10年后别人搞并购它却在收购工厂一样。


又年长又灵活,同时却杀伐果决。以良性的方式遵守财报约定。


当然,这种“抠搜”的复用精神,以及植根于美式工程师体系的动手文化,让TI与Mobileye一样,被国内诟病缺乏基本的服务精神。


“论坛网址一扔,叫你自己去看,基本就是这样。” 一位Tier1吐槽说他们都是爱理不理的。


但同样,软件与算法工程师真正的技术体面,在TDAx上,或许还能续上一段。


本文来自微信公众号:宇多田(ID:hellomusk),作者:宇多田