1. 李开复创立的“零一万物”近期发布了两款开源大模型Yi-34B和Yi-6B,其中34B具有40万汉字的超长文本处理能力,问鼎了多项全球英文和中文能力测试排行榜第一。但很快,有研究人员在开源大模型社区Hugging Face上指出:“Yi系列”的模型架构与Meta公司推出的开源大模型LLaMA相比,只改了两个张量(tensor)的名字。
2. 这名研究人员是在Yi大模型刚刚发布的时候提出来的,只是指出了问题而已,看不出什么恶意,还表示“开源社区无疑将重新发布对张量重新命名的Yi大模型,以使其符合LLaMA的架构”。毕竟LLaMA是完全开源的架构,且开源协议允许零一万物这么做。
3. 零一万物并没有第一时间在开源社区回应。直到在中美人工智能界颇有些影响力的创业者、Lepton AI创始人贾扬清在自己朋友圈吐槽了零一智能的“套壳”,事件才真的发酵,也终于得到了零一万物的回应。零一万物回复解释:这是以前做实验的时候改的名字,发布的时候忘了改回去,并为此致歉,表示尊重开源社区的诉求,重新把tensor的名字改正。
4. 零一万物同时辩称:国际主流大模型都是基于Transformer架构,LLaMA、Chinchilla、Gopher等模型架构与GPT大同小异。意思是:我们没有抄袭,只是忘了改名字。零一万物的声明还罗列了他们一系列超越模型架构的突破性研发努力。比如最优数据配比方案、数据工程、细节参数、训练过程监测等。零一万物说:“这些科学训模的系统性工作,往往比起基本模型结构能起到巨大的作用和价值”。
5. 在这件事上,“硅基立场”有自己的基本立场:我们不必当大语言模型的“原教旨主义者”,但用“魔改”的大模型持续冲击国际国内的大模型关键指标榜单,对大语言模型真正的普及和应用,确实没什么价值。
6. 零一万物说,世界上所有的大语言模型研发者都是站在GPT巨人的肩膀上的,LLaMA也是“魔改”的GPT,意思是大家都“套壳”。从这个意义上,我们得感谢零一万物,算是第一个把这个问题公开摆在桌面上谈了,也算是揭开了盖子。
7. 中国的大语言模型研发圈私下里有很多聚会和讨论,不在场的公司和关键人物经常是被讨(奚)论(落)的对象。其中一个经常被拿出来说的话题就是:“XXX最近发布的那款大模型,其实就是LLaMA的套壳”。这个被吐槽名单实在是太长了,也不方便在这里公布(主要是不敢)。有意思的是,奚落别人套壳LLaMA的人,自己团队通常也在套LLaMA的壳。可是当着对方的面,你也不好意思问,不想双方都尴尬下不来台。
8. 既然是这样,不如把话索性挑明了:LLaMA就是通用人工智能时代的Android,就是用来“套壳”和“魔改”的,基于LLaMA架构,科学系统地训练一个性能强大的大语言模型,不是什么丢人的事。对大多数大语言模型从业者来说,这甚至是最优解。
9. 我们也不用太担心LLaMA架构在中国的“适配性”。就像Android在中国有那么多智能手机厂商推出的“分身”操作系统一个道理,LLaMA是一个基础架构,对数据配比、训练方法、参数调优、训练过程监测的综合优化,最终训练出一个符合中国法律法规和主流价值观要求的大语言模型,现实里是可行的。国内那么多“套壳”了LLaMA的大语言模型都通过了有关部门的备案,可以公开商用,就证明了这一点。
10. 说“套壳”LLaMA是大多数人的最优解,是因为中国的大语言模型太多,而大语言模型的人才储备又太少。“模型井喷”,意味着人们记不住那么多的模型和公司,想要坐在牌桌上,就得尽快推出自己的模型,至少先在VC圈和业界混个脸熟。另一方面,算力、数据、资金等各种资源的匮乏,少量顶级人才“站队”早早结束,LLaMA等开源大模型持续翻新,都意味着想快速出一个拿得出手的“原创”大语言模型,越来越难。
11. 可以预见的是,中国的大语言模型创业团队将分为两派——“魔改派”和“原创派”。其中工程能力较强的团队更适合当“魔改”派,就是用科学系统的训练,推出一个基于开源架构、在某一个或多个方面具有更强能力的大模型。而学术积累比较深厚、甚至直接脱胎顶级高校和研究机构的团队更适合当“原创派”,因为“发论文”更需要架构上的原创成果——没人说智谱的ChatGLM套壳和“魔改”LLaMA吧?因为人家真的没这么做,清华大学计算机学院的原班班底,基础研究的积累和成本在创业公司的成本之外。
12. 很难说应该支持哪一种路线。毕竟全世界都在搞“魔改”,中国的大语言模型研发者,站在前人的肩膀上做出一些新的成果,同时为全球开源社区作出“中国贡献”,是一件很值得期待的事。当然,我们确实更希望看到中国“原创派”的突破和进展,甚至做出能给全球大语言模型研发者用的基础大模型,这将是中国对全球通用人工智能发展作出的更大贡献。
13. 可以期待的是:中国的大语言模型研发者先拿LLaMA套个壳、魔个改,推出一个尽快能上牌桌的版本,然后再持续进行研发,逐步推出更“原创”的基础模型。OpenAI的GPT,还有Google的Bard,都是对Transformer的“魔改”,但它们的思路改动是相当彻底的,最终也带来了极其不同的效果,几乎是完全原创的了。据我们所知,国内一些套壳了LLaMA的大模型团队也正在另起炉灶,研发原创程度更高的、下一个版本的大模型。如果套壳和魔改只是一个尽快上牌桌的权宜之计,也没什么不好。倘使华为上来就强推鸿蒙,小米2012年就押注澎湃OS,中国智能手机攻占全球的进程不会更快,只会更慢。
14. 不过还是那个问题,无论就只想搞套壳和魔改也好,还是先搞套壳再搞自研也罢,只要用了开源架构的成果,就得公开承认,显著标出,遵守开源社区的规则。“忘了”改张量,始终不是一个交代得过去的理由。如果零一万物这次的风波,能够变成一个契机,让“套壳”和“魔改”LLaMA架构不再遮遮掩掩,可以被公开大大方方承认,应该是一件好事。
15. 此外,零一万物这次爆发的风波,也在很大程度上来自“问鼎多项排行榜第一”的高调亮相,让它成了一个容易被攻击的靶子。要知道,中国“问鼎排行榜第一”的大模型可真是太多了,“超过ChatGPT”已经成了家常便饭。一个大语言模型多厉害,全靠刷榜和口头评测,这真的是一个西洋景。
16. 这让“榜单”越来越被诟病,越来越多的人称呼它们为“开卷考试”。一名国内大厂研究院负责人跟我们说:哪怕是GPT-4的代码能力,在一些真正与现实结合的评测上,比如SWE Bench等,得分也是零,但国内的很多大模型在发布时,却从来不谈这些细节。前段时间,智源研究院副院长林咏华老师跟我们交流中也提到过:C-Eval、MMLU以及CMMLU等几个测评集,已经被各路模型过度训练,一些测评榜单完全可以靠定向的训练数据拔高分数。这就好比是高考变开卷了,还给了提前“复习”的时间——“大模型高考”用这种方式选拔最出色的大模型,还能靠谱么?
17. 这种“刷榜”真正的问题是:分散了大模型研发者关注“真正问题”的精力。在前不久OpenAI的开发者大会上,CEO Sam Altman一句“遥遥领先”也没提,也不需要提。但这场开发者大会带来的屠龙式震撼效果是显著的,人们通过创建自己的GPTs,成为AI时代的“开发者”,一下子让访问量持续下滑的ChatGPT服务器再度被挤瘫了。几乎没人再怀疑“AI究竟能为我们做什么”。它能解决的问题,刷榜和冲榜不能,永远不能。
18. 有的时候,我们觉得中国和美国AI发展的两个截然不同的场景真的令人感慨:都很热闹,只是热闹的地方不同。在美国,更多的AI开发者怕自己被OpenAI断了生路,而一些新的开发者跃跃欲试。在中国,几家明星大模型公司在各种排行榜上玩神仙打架,其它开发者作壁上观。“AI要落地”这个问题,业界都有更清晰的意识和更紧迫的愿望,但是刷榜的神仙打架,跟这个愿望是背道而驰的。
19. 这又要说到LLaMA的开源过程:最初LLaMA的开源,架构搬不走,参数也不能直接拿去用,但你可以用它自己的预训练。对大模型开发者来说,资金、数据和技术思路都很重要,如果三者都具备,你就能用三个月的时间推出一个自己的大语言模型。到了LLaMA 2,它彻底开源可商用了,架构和参数可以直接“搬走”,这其实为了中小开发者和实际的商用场景,是为了“激活”原生AI应用的。结果,一些人用彻底开源的LLaMA推出了刷榜用的“原生”大模型,总觉得哪儿有点不对劲。
20. 所以各路大模型大神们,多做做生态和开发者关系吧。也别互相嘲笑对方在套壳了。有一本书叫《法国文人相轻史》,把人们熟悉的19世纪和20世纪法国作家之间的恩怨情仇描述得活灵活现。真要是有人写一本《中国AI科学家相轻史》,精彩程度也不差。
本文来自微信公众号:硅基立场(ID:gh_1b4c629a6dbd),作者:骆轶航、王兆洋