本文来自微信公众号:品玩 (ID:pinwancool),作者:Neil Shen,题图来自:视觉中国
Meta 公布了自研芯片的进展。名为Meta Training and Inference Accelerator,即Meta 训练和推理加速芯片,简称MTIA。它预计将于2025年发布。
Meta 宣称 MTIA 是提高效率和水平的重要工具, 定制化的 MTIA 采用 ASIC 架构,可并行执行多个任务,适用于AI加速计算,从而成为 Meta 人工智能训练和推理芯片家族中重要的组成部分。
Meta强调,虽然芯片的内存和网络等功能还需要进一步优化,但MTIA在每瓦性能方面“显著”提升了效率,可以帮助Meta更好探索人工智能前沿技术。
此外Meta还表示,MTIA将专注于人工智能推理,而不是训练。
第一代MTIA 由 Meta 在2020年创建,使用了7纳米工艺,在Meta自己设计的性能测试中,它被认为在“中低复杂度”的AI模型方面相比GPU具有优势。
除了MTIA,Meta还在开发另一种芯片,被称为Meta可扩展视频处理器(MSVP),顾名思义,MSVP主要的工作是将视频内容——不管是短视频还是直播,都尽量通过MSVP来加载整合,满足不同平台渠道对码率、分辨率和低延迟等需求,避免让基础视频需求采用软件编码形式处理,进而加速整个视频工作流程。
Meta 在几个月前成立了生成式AI团队,据说扎克伯格,CTO Andrew Bosworth 花了大量的时间和这个团队讨论Meta在人工智能领域能做些什么。上周他们刚推出了针对广告客户的内容设计工具。
Meta 在人工智能的进展过去集中在审核过滤和广告推荐算法这些领域,许多时候这些负载是使用CPU组合运行的,再加上定制的专门用于加速的AI芯片。
随着生成式AI的爆发,Meta已经采购了大量的英伟达芯片,原来的芯片方案已经被放弃。
Meta 基础设施副总裁Alexis Bjorlin在TechCrunch的采访中将自研芯片形容为“构建对堆栈所有层面的控制能力”,这和百度的AI战略思路很相似,从数据中心设计到训练框架再到数据集和算法,Meta试图在AI方面追上竞争对手,开始进行对本身AI全链条资源的整合。
自研芯片紧锣密鼓提上日程,形成对比的是现在所有人都还在依赖英伟达的芯片。
Meta目前训练大模型所使用的是名为Research SuperCluster (RSC)的超级计算机,它内置了2000个英伟达DGX A100系统,包括16000块A100 GPU。
谷歌和微软也都有自己的超级计算机,微软把它整合在了自己的Azure云上(然后又和OpenAI结合在一起,后者使用微软的资源训练大模型),谷歌的超算则有26000块H100 GPU。
超算资源直接和大模型开发训练以及推理的进度有关,但也意味着会受到英伟达产能的“卡脖子”,因此各家都在推动自研芯片进展。
Google很早就研发了名为TPU的训练芯片,AlphaGo就由其驱动。上个月有消息传出,微软在秘密研发自己的AI芯片,合作伙伴是英伟达对手AMD。
Meta 走向自研之路是顺理成章的,强化在AI领域的垂直整合能力不仅可以降低成本,定制芯片还能方便根据自家业务需求定制功能,更容易打造差异化竞争点。
如果Meta的大模型一方面能在传统的社交业务上支撑内容广告营销(这部分具体的运行模式Meta自己承认也还在探索中),另一方面将生成式AI接入元宇宙,帮助用户生成数字孪生形象和相关的代码,那么其增长潜力将会极其巨大,扎克伯格在2月份就表示要致力于提高Meta的人工智能算力,押注AI的未来看上去是必由之路,Meta 的自研芯片是向这条道路进发的最新尝试。
本文来自微信公众号:品玩 (ID:pinwancool),作者:Neil Shen