4月5日上午,一个来自MIT、普林斯顿等研究机构的华人团队发布了自己的大模型 JetMoE ,宣布用 10 万美元的训练成本,就可以训练出媲美 LLaMA2 级别的大模型——后者成本高达数十亿美元。贾扬清第一时间进行了转评赞,直指其核心在于 MoE 架构。


此前,MoE 架构始终是一个位于舆论水面下的大模型技术,人们醉心于大模型的技术突破,而以吃瓜的心态看待其背后的成本问题。但当 Stability AI CEO 及核心团队相继离职,公司被曝每月运营成本高达800万美元以上,完全入不敷出时,大家才真正的认识到:不是中国 AI 圈穷,而是全球 AI 圈都真的没钱了——大模型就像个“碎钞机”,无论硅谷公司,还是中国公司,都难以承受。


因此,MoE 作为一种可以降低运营成本、提升训练效率的架构,骤然成为全世界大模型公司的关注重点。


去年12月,Mistral AI 发布 8x7B-MoE 模型,成为全球首个开源的 MoE 大模型;今年 1 月,Minimax 宣布发布国内首个 MoE 大语言模型 abab6;在接下来的几个月,Google、APUS、达观、阶跃星辰等企业以及马斯克,都纷纷发布了自己的 MoE 模型。考虑到研发周期的问题,至少在 GPT-4 刚发布的时间(2023年3月),有远见的公司就已经确定了 MoE 的架构方向。


即便是 OpenAI ,当下对其 GPT-4 技术猜测的主流观点也认为,他们一定采用了 MoE 架构。


MoE 不太省心,但确实可以降本


MoE 架构的中文名称是混合专家架构,是神经网络的一种架构模式。它将神经网络拆分成多个专家子网络,面对一次输入,既可以指定某一位“专家”来回答,也可以要求多位“专家”回答,甚至全部参与回答,最终依据权重综合给出结果。


这使得 MoE 架构的可扩展性优秀,开发者可以在一个巨型模型上,继续增加参数量,进行横向扩展。同时因为 MoE 可以选择只启用部分专家子模型,也在保持性能的同时,降低了推理成本。另外 MoE 架构允许数据在多个专家模型之间进行分配和并行处理,因此可以提高模型的训练和推理速度。


听起来全是优点,但是 MoE 架构的训练难度很大。


一个最主要的问题是,MoE 架构很难保证每个“专家”都能得到充分训练。决定了哪些“专家”,以多大权重参与回答的核心部件是门控网络(Gate Network)。如果门控网络倾向于选择某些特定的“专家”,可能会导致其他“专家”得不到充分的训练,从而造成训练不稳定。而且在MoE架构中,不同的“专家”可能会被分配到不同数量的输入样本。如果某些“专家”被分配的样本过多或过少,可能会导致负载不平衡,影响模型的训练效率和最终性能。


但对于全球 AI 企业,尤其是中国企业而言,这已经是两年来的最好局面了——至少我们可以用软件技术解决问题,而不是看着芯片和账户干着急。


从实际情况来看,国内 MoE 架构的产品进展也较为乐观。


MiniMax 作为最早发力 MoE 架构的主儿,一直在干闷声发大财的事儿,投资人看重的有场景、有客户等几个要点,MiniMax 都具备。根据其官方为数不多的、对外透露的信息显示,金山办公、小红书、腾讯、小米、阅文集团都是其客户。尽管这类大客户很可能同时采购了多个基础模型服务,但依然显示出 MiniMax 进展好像不错。今年3月,阿里被曝参与 MiniMax 下一轮融资,领投6亿,据称红杉也承诺将参与本轮融资。某种程度上,这也代表着头部资本对 MoE 这一技术路线的认可。


而就在 4 月 1 日,APUS(麒麟合盛) 放出的信息更加露骨地说明了这一问题——其联合新旦智能训练的大模型APUS-xDAN 大模型4.0(MoE)将于近日宣布开源。


在早期放出的信息中,APUS 重点提到了两点:


● 参数规模为1360亿,国内开源模型中参数规模最大;

● 是国内首个支持在4090低端算力上训练的千亿参数开源大模型;


说白了,便于横向扩展,是事实,但可能不是主要因素,物美价廉,才是核心。


不玩 MoE,就搞小模型


这种降本的决心贯彻的有多彻底,再看看不搞 MoE 架构的厂商就知道了。


面壁智能2月份发布了自己的端侧模型 Minicam,官方称该模型以 2B 的尺寸可以超越Mistral-7B,媲美Llama2-13B。虎嗅 3 月邀请了面壁智能曾国洋参与 AI 内参会聊到该模型,曾国洋表示,现在业内普遍没有将小尺寸模型的潜力挖掘干净,面壁追求的是如何实现更合理的训练,而不是单纯的堆模型参数量。


从产品定位上来讲,当然可以说这是做端侧模型的应有之义。但从成本价角度而言,这也是除开 MoE 架构外的又一次降本尝试。CEO 李大海在面壁的发布会上重点聊过这个问题:成本是大模型的隐形竞争力。面壁 MiniCPM 在端侧的部署中,可以支持 CPU 推理,同时发布的量化版本,可以做到压缩 75%,性能基本无损。如果使用骁龙 855 芯片,成本约 600 元人民币,按照运行 5 年计算,每秒 7.5 tokens,那么 170 万 tokens 的推理成本需人民币 1 元。成本为 Mistral-Medium 的百分之一。


小模型这套路能走多远,是否因为短期的苟且,导致在 AGI 层面的发展继续落后?如果之前还存在这个疑惑,那么 AI PC、AI 手机热潮的兴起,多少给大家增加了些信心。


尽管现在 AI PC、AI 手机是噱头成分居多,真正在 C 端有决定意义的价值点较少。但这趟列车已经绑定了太多的人:高通、英特尔、三星、联想……以及一系列基础模型厂商、模型中间件厂商。某种意义上,这是“元宇宙 Plus”版的概念列车,必须找到终点,也必须驶到终点。与当年元宇宙的情况不同的是,大模型当下的技术发展曲线,仍在陡峭上升中——


至少在 GPT-5 发布前,所有的商业故事,都会如约讲下去。