很突然、很惊艳，马斯克公布特斯拉人形机器人 - 葱头胖友圈

本文来自微信公众号：机器之心（ID：almosthuman2014），作者：Synced，题图来自：Tesla

“非常抱歉，我们遭遇了一点技术问题，希望以后这可以用 AI 来解决。”今天的活动延迟了半个多小时，伊隆·马斯克这样做了开场白。

北京时间 8 月 20 日上午，万众瞩目的“特斯拉 AI 日”开始了。在活动上，伊隆·马斯克向全世界展示了特斯拉在自研超级计算机 Dojo、FSD 软件等内容上的最新进展。

按照马斯克本人的说法，吸引最好的 AI 人才加入特斯拉似乎是本次活动的唯一目标。

当然，这次发布向世人宣告的远不止于此，有关通用机器人的计划让我们始料未及。

纯视觉自动驾驶系统和 HydraNets

首先，特斯拉最被人们关注的是自动驾驶技术。

特斯拉一直标榜自己的电动车具备高度自动化的辅助驾驶能力，7 月 10 日，FSD（Fully Self Driving，全自动辅助驾驶系统）软件迎来更新。不过当时，更新仅限于特斯拉抢先体验计划用户，这些用户可以进行 FSD Beta V9 版本测试，其最大亮点是基于摄像头和 AI 智能算法的纯视觉自动辅助驾驶技术路线，而不依赖于雷达传感器。

7 月 31 日，特斯拉正式推送 FSD 的最新版本 FSD Beta V9.1，这是首个使用“特斯拉视觉”的先进司机辅助驾驶套件。8 月 16 日，特斯拉又推送了 FSD Beta V9.2 版本。

特斯拉 AI 总监 Andrej Karpathy 博士介绍了这种基于视觉的自动驾驶系统：它通过八个摄像头的数据输入（1280×960 12-Bit HDR 36Hz）进单个神经网络中，整合成 3D 环境的感知，这被称为 Vector Space。

“AI 可以被视为生物，它是从头开始构建的，包括其合成视觉皮层。”<br label=图片备注 class=text-img-note>

当特斯拉在汽车中设计视觉皮层时，他们从头设计了神经网络，按照生物视觉方法去建模，并利用多头路线，其中包括相机校准、缓存、队列和优化以简化所有任务。

特斯拉从主干网络中获取数据，并将有用的信息输入到不同的任务中（比如目标检测、交通信号灯和车道预测），同时抛弃其他内容，避免浪费算力。

特斯拉的自动驾驶算法是从识别单张图片的普通计算机视觉算法开始的，虽然每个摄像头的单独检测效果很棒，但这显然不够。现在的纯视觉算法“HydraNets”基于不同摄像头的视觉内容进行识别的，而且训练和推断是端到端的。

该算法将多个摄像头的视觉内容转变为向量空间和道路特征。<br label=图片备注 class=text-img-note>

多摄像头网络的效果值得肯定，尽管只是数量上的增加，但却可能成为解决预测问题的关键之处。该网络生成的周围景观预测很大程度上提高了自动驾驶系统的稳健性。

红绿灯左转是对于自动驾驶的巨大挑战，当车辆在道路上行驶并通过交叉路口时，神经网络会通过 Spacial RNN 进行预测。并在虚拟环境中进行多次模拟，以进一步改善路径规划和理解。

在算法模拟的单元空间中，每一个 unit 都是一个 RNN，并随着车辆的运动更新。

Karpathy 指出，特斯拉现在的 FSD 战略是更具凝聚力的。事实证明，特斯拉的车辆可以有效地绘制实时地图。与 Super Cruise 和 Waymo 等汽车及软件领域的竞争对手的预绘制地图策略相比，这是一个巨大的差异。

自动驾驶软件总监 Ashok Elluswamy 介绍了混合规划系统，以 Autopilot 如何变道为例，当与其他汽车并排行驶时，Autopilot 不仅要考虑它们的驾驶方式，还必须考虑其他汽车的运行方式。

在狭窄的过道周围进行规划时，重要的是要考虑其他驾驶员及其行为，例如在必要时让行：

Karpathy 还提到了数据标注问题。他指出，外包给第三方公司的手动标签并不是最佳选择，本着垂直整合的精神，特斯拉选择建立自己的标注团队。

一开始，特斯拉使用的是 2D 图像标签。最终，特斯拉转向了 4D 标签，可以在向量空间中进行标注。但是这还不够，自动标注技术得到了发展。

有太多的标签需要完成标注，而让人们手动来完成是不可能的。特斯拉自动驾驶软件负责人 Ashok Elluswamy 展示了道路和道路上的其他物品是如何从一辆正在行驶的汽车中“重建”出来的。这有效地让特斯拉能够更快地标记数据，同时允许车辆即使在存在遮挡的情况下也能安全准确地导航。

甚至在对比度过高，摄像头采集的图像不够清晰时，特斯拉还使用神经网络对画面进行了增强。

Ashok 指出，这些策略最终帮助特斯拉将雷达从 FSD 和 Autopilot 套件中淘汰，并采用了纯视觉模型。雷达 + 摄像头系统与纯视觉之间的比较显示了该公司当前的战略有多精细。同时他也谈到了仿真如何帮助特斯拉开发其自动驾驶系统。尽管特斯拉专注于现实世界的数据，但它也使用仿真。

特斯拉利用一个新的仿真程序（用他们自己的话说，就是 Autopilot 扮演玩家的视频游戏）来测试边缘情况和其他可能遇到的问题。

神秘超算 Dojo：革命性架构

Dojo，这次特斯拉 AI 日的最大看点，最终也没有让人失望。

2020 年 8 月，马斯克表示，该公司正在研发一款名为“Dojo”的神经网络训练超级计算机，将主要处理从特斯拉汽车在路上获得的海量视频数据。马斯克发推称：“Dojo V1.0 还未完成，估计还需要一年的时间。不仅仅是芯片本身的研发难度，能效和冷却问题也非常的难。”

几个月后，马斯克又补充道：“Dojo 采用我们自研的芯片和为神经网络训练优化的计算架构，而非 GPU 集群。尽管可能是不准确的，但是我认为 Dojo 将会是世界上最棒的超算。”

今天，特斯拉终于揭开了 Dojo 计算机芯片的神秘面纱。它采用了创新的架构，将算力分布在复杂的网络构造中，实现了极高的算力、高带宽、低延迟的网络吞吐量。

Dojo 的设计是从芯片开始从头做起的。Dojo 的训练 CPU 属于 ASIC 芯片，专注于人工智能训练，采用 7 纳米制程，可以实现 1024GFLOPS 的 BF16 算力，在芯片周围的四向都有 4TB/s 的传输带宽。

特斯拉宣称它的效率超过了现有的 GPU 和 TPU，其主要的优势是在带宽上。

Dojo 用所有力量做一件事：使自动驾驶汽车成为可能。它是一个纯粹的机器学习机器，以现有芯片和服务器的思路看，它的规格堪称“疯狂”：首先把 50 万个训练节点集合在一起，每个区块都有 9 petaflops 的算力，每秒 36 TB 的区块外带宽。

但这只是 Dojo 的冰山一角。在应用时，120 个这样的 D1 芯片区块被整合为一个 ExaPOD，顾名思义，它有每秒超过 1 亿亿次的运算能力（10 的 18 次方），这是目前世界上最快的 AI 训练计算机。与业内其他产品相比，在同样的成本上，ExaPOD 的性能要高 4 倍，能耗比高 1.3 倍，占用空间缩小了 5 倍。