本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超,原文标题:《M1 Max 暴击,倚天补刀》,题图来自:视觉中国
落花有意随流水,流水无情恋落花。英特尔和苹果的良好关系,可以一直追溯到 2005 年,彼时这两家巨头在 Mac、一体机等桌面产品线合作较为融洽。但 2010 年以后,英特尔“挤牙膏”似的产品升级策略以及 2020 年苹果 M1 的全新登场,让他们逐渐形同陌路,甚至最终分道扬飙。
不过,前不久英特尔新任 CEO 帕特·基辛格公开表示想追回“前任”,放出豪言要造出一款比 M1 更能打的芯片,以争取和苹果再续前缘,结果话音未落就遭苹果光速打脸。10 月 19 号苹果炸场发布会上基于 ARM 架构的 M1 Max 闪耀全场,完爆各种 X86 架构的处理器,用实力告诉英特尔什么叫“慢挤牙膏一时爽,追回前任火葬厂”,更向世界证明比 M1 更强的处理器也还是出于苹果之手。
而令笔者更为欣喜的是,M1 Max 还不是如今 ARM 架构处理器最为高光的时刻。在桌面与云方面接连遭受暴击,几乎让英特尔的 X86 进入了病危状态,后续再挤牙膏就没法翻盘了。好在基辛格接手之后,英特尔已逐渐开展了 IDM2.0 的全面转型。经历过这个灰色星期三之后,英特尔会有什么回应也值得我们期待。不过这都是后话了,我们还是先来看看 M1 Max 到底有多强。
M1 Max 到底有多强
M1 Max 搭建了一个 10 核心 CPU,其中包括 8 个大核,2 个小核,MAX 相较于 M1 初代性能直接提升 70%;GPU 性能提升了 3 倍;最令人惊艳的指标是统一内存管理技术,即内存与显存共用统一管理;M1 MAX 内存带宽最高可达 400GB/s,是 M1 芯片的 6 倍,已经达到了新一代游戏主机的水平。
据笔者所知,目前唯一一个能在内存带宽上与 M1 Max 一较长短的是英伟达 Grace 处理器。通过 NVlink 技术,Grace 中 CPU 到 GPU 的内存带宽可达 900GB/s。不过老黄的 Grace 目前还在 PPT 上没下来,但是搭建 M1 Max 的 Mac Pro 已经开始接受预订并马上就要与用户见面了,因此可以说 M1 Max 在内存带宽方面几乎是现阶段地表最强。
最关键的是 M1 Max 的功耗控制还很好,几乎是在没有功耗、散热问题的性能下完成性能成倍的提升。
M1 Max 为何这么强
由于目前只有发布会跑分图的资料,而且以苹果的调性也根本不会把芯片手册拿出来,想进一步了解 M1 Max,估计还是要等大神把 Linux 移动到 Mac Pro 上去才行。
CPU 和 GPU 的通信能力加强,提升概率 100%。我们内存与显卡进行统一管理,可以大大提高 CPU 与 GPU 的通信效率,从而增强图像处理、3D 建模等任务的处理效率。CPU 和 GPU 通信速度的重要性可以用 M1 初代的例子来加以说明。我们知道苹果 M1 显存与内存加在一起只有 16GB,而 M1 前一代的 Mac Pro 内存是 128GB,光是显存都与 M1 持平 16GB,不过搭载 M1 的入门版 Mac 在进行图像处理等任务时,却要比上一代顶配的 Mac 还要强出近一倍。
而本次发布的 M1 Max 更是直接将内存带宽提升到初代 M1 的 6 倍,其性能加强的程度也就可想而知了。正如上文所说,英伟达之前发布的 Grace 处理器也采用了和苹果比较类似的思路,相信未来会被英特尔、AMD 等 X86 厂商借鉴。
译码器增强,提升概率 90%。目前处理器的流水线一般分为取指、译码、取操作数等等环节,其中译码是一个非常重要的环节。译码器方面 ARM 架构的精简指令集的确有一定优势,由于指令都是定长的,完全可以做出高效的多路译码器以提升效率。
没记错的话之前 M1 应该是四路译码,当时笔者就表示,M1在译码器这方面还有后手,未来还能更秀,这里笔者大胆预测 M1 Max 的 CPU 应该是能有 6 路指令解码器,8µop 发射宽度,6 路分配、10 路执行端口的指标。具体如何待最终揭晓。
大小核心的调度升级,提升概率 70%。由于 M1 Max 大小核的配比是 4:1,而由于大核比较费电,而小核又无法应对高性能计算,因此像 M1 Max 表现这么均衡的处理大概率会用软、硬结合的高度方案。
英特尔在刚刚发布的 Alder Lake 处理器中搭建的 Thread Director 就是这样一种软、硬结合的核心调度方案,英特尔的做法是在处理器中集成了一个专用的 MCU,用来监控当前处理器内核的运行情况,能够监测到每个线程的特征,比如它运行什么样的指令集、它的性能需求如何等等。在收集完信息之后,MCU 会将收集到的信息反馈给操作系统,再次操作系统把这些信息与线程调度信息相结合,判断是否应该将线程转移到别的核心上。
如果与操作系统结合的好话,那么一轮调度信息采集工作仅需要 30 微秒就能完成,而传统方案调度器可能需要 100 多毫秒才能判断出结论。由于 Mac OS 与 M1 Max 都是苹果自己的产品,因此这个调试方案 Thread Director 更极致,不过由于英特尔在本次发布会上没特别提到调度器方案的提升。
而对这么强的 M1 Max 笔者似乎只能在生态建设方面给苹果提出一些建议了。我们知道英伟达之所以能在 AI 及区块链方面有着如此出彩的表现,高性能计算框架 CUDA 绝对是居功至伟,正是在 CUDA 的帮助下英伟尔的 GPU 进可以 AI 训练、区块链挖矿;退可以玩大型游戏,爽得不亦乐乎。
目前苹果的 M1 Max 最大的短板在于对于游戏的支持一般,尤其是 3A 级的大作更是很少登陆 M1 系列的平台。如果未来像《悟空传》之类的游戏也能首发在 Mac 系列,那么 X86 甚至基于 X86 的游戏主机可能都要凉凉。
M1 Max 影响几何
成也萧何,败也萧何,我们知道云平台最重要的工作是对资源进行严谨的隔离,由于 M1 Max 统一内存管理技术太能打了,内存与显存之间的传输带宽太高,因此这也决定了这款处理器很难在虚拟化的云环境中使用,所以 M1 Max 短期内带来的最大冲击还应该是在于桌面市场。
但是从长期来看,英伟达收购 ARM 的计划大概率是要黄了,我要是库克,是不可能放 ARM 出去的,就算放猛玛也不放 ARM。放了 ARM 以后,新一代 ARM V9 系列的处理器可能要 GG。
笔者最大的期待是基于 M1 Max 版的 Linux 赶快迁移出来,与此同时,倚天有了,屠龙还会远吗?
本文来自微信公众号:CSDN(ID:CSDNnews),作者:马超