刚刚在上海闭幕的第六届世界人工智能大会(WAIC),火爆程度可谓历届之最。在会上,AI大模型是当之无愧的焦点,而芯片和算力作为大模型的基础,也成为与会专家学者口中的高频词。

“没有大算力,做大模型就是天方夜谭。”本届WAIC期间,中国工程院院士、鹏城实验室主任高文在昇腾人工智能产业高峰论坛上演讲时直言,使用算力训练大模型,就像工业中使用电力一样,想靠省电做出什么产品来,真正懂行的人听了都不信,大模型一定要有算力作为基础。

他指出,算力已成为数字经济发展中的一个指数,美国的算力指数现在排名全球第一,比中国大概多了20%-30%的算力,GDP也比中国多20%-30%,“什么时候我们的算力超越了美国,咱们的GDP也就有望超越美国了。所以发展人工智能和数字经济,没有匹配的算力是不可能的。”



图源:观察者网

根据工信部数据,截至2022年底,我国算力总规模已达180EFLOPS,近五年平均增速超30%,算力规模排名全球第二。但这其中很大一部分是通用算力,而不是更适合大模型训练的智能算力。

中国信通院发布的《中国算力指数发展白皮书(2022)》显示,中美在全球算力规模中的份额分别为33%、34%,其中基础算力分别为26%、37%,智能算力分别为28%、45%,超级算力分别为18%、48%。

建设更多的智能算力,成为中国AI产业向前发展的当务之急。

据高文介绍,鹏城实验室已经与华为合作,建设了大规模AI计算集群“鹏城云脑Ⅱ”,该集群搭载了约4000颗华为昇腾AI芯片,相当于4000块英伟达A100 GPU的算力,目前算力规模是1000P,并且该集群实现全栈软硬件自主可控,蝉联多项全球AI性能榜单冠军。

他近期在深圳一场讲座上还曾提到,“鹏城云脑II”作为国内首个全面自主可控的E级智能算力平台,当前的性能以及人工智能算力水平达到国际领先。目前,“鹏城云脑II”有超过七成的机时对外开放服务,已支撑起诸多国产AI大模型的训练。

高文还透露,下一代鹏城云脑正在筹建中,其算力将是“鹏城云脑II”的16倍,建成后能更好支撑6G技术和人工智能大模型训练,有望成为国际首个支撑新一代智能网络通信创新研究的重大科学基础设施和国内首个支持数据密集型智慧科学研究的大科学装置。

根据高文在本届WAIC上披露的信息,“鹏城云脑III”预计2024年底到2025年初建成,算力将达到16E,也就是16000P智能算力。



图源:观察者网


官网介绍,鹏城实验室是中央批准成立的突破型、引领型、平台型一体化的网络通信领域新型科研机构。实验室聚焦宽带通信、新型网络、网络智能等国家重大战略任务以及粤港澳大湾区、中国特色社会主义先行示范区建设的长远目标与重大需求,开展领域内战略性、前瞻性、基础性重大科学问题和关键核心技术研究。

以下是高文院士演讲全文(观察者网根据现场讲话整理,未经本人确认):

各位专家、各位领导,大家下午好!

前面的领导都讲的很好,算力是非常重要的一件事,今天上午陈书记也讲到,上海要抓三件大事,人工智能领域,算力建设是非常重要的一方面,就像电力一样,原来李克强总理抓经济的时候,有一个很重要的指数就是“克强指数”,是靠电力消耗看整个经济发展顺不顺利,或者是正常不正常。

从现在开始,算力也是数字经济发展的一个指数。算力够,数字经济就能发展好,不够就发展不好。所以,算力建设尤其是智能算力建设就非常关键。我在这里,跟大家分享关于鹏城云脑的智算平台,另外是分享一下,在这个平台上做的鹏城脑海大模型。

首先算力很重要,但重要到什么程度呢?清华大学一个2022年的咨询报告提到,经过统计,算力指数和GDP是正相关的,一个国家算力越强,GDP就越强。美国现在算力指数排第一,比我们大概多了20%-30%的算力,GDP也比我们多20%-30%,什么时候我们的算力超越美国,咱们的GDP也就有望超越美国了。

正是因为算力这么重要,所以发展人工智能和数字经济,没有匹配的算力是不可能的。要有算力,就要有芯片,芯片做成机器,才能用这个机器训练模型。

为了做这件事,我们2020年在深圳做了一台机器叫鹏城云脑Ⅱ。在2020年,这台机器的算力是全世界做人工智能训练最强的,比当时微软、谷歌的机器都要强,相当于4000块英伟达A100 GPU的算力,而且这台机器是用全光网络连接的,节点之间延迟非常低。

因为有了这台机器,我们就可以做很多事,包括做科学研究、产业应用还有关键技术的研发。这台机器刚刚我说有4000块卡,其中一方面是鲲鹏CPU,另外是昇腾NPU,都是华为的。



图源:观察者网

那么这台机器的性能行不行呢?我们就参加世界TOP500的超算打榜,整个超算打榜也有其他的赛道,我们参加的是IO500的赛道,是一条考验输出和输入能力的赛道,从2020年10月份这台机器做出来以后,我们11月份就参加打榜,连续6次第一,每半年有一次打榜,全节点连续两次第一。

所以做人工智能训练这件事,别人没办法和这台机器比。这台机器不仅硬件强,接口能力和网络也非常强,同时上面的软件也配备得比较完备,包括怎么样做分布式计算,怎么样做命令调优、自研调度规划等等。

也许有的专家听到过,有人说全世界能在1000块卡上同时训练一个模型的只有几千人,能在4000块卡上训练的不超过100个人,在10000块卡上训练模型的人数更少了。在大规模的卡上一起做事,对于软件规划、资源调度挑战非常大。

我们不仅是把鹏城云脑Ⅱ用好,同时也承担了国家发改委的任务,把华为生态包括昇腾AI集群的算力,不论是100P或900P的算力结点,用网络把资源连起来,可以向外界提供。同时按照发改委的要求,希望这是异构的算力网平台,我们在华为生态以外,也选择了部分其他厂商的算力,在2022年6月这个项目验收的时候,已经聚合的智能算力达到2300P,鹏城云脑Ⅱ只是1000P,而这个系统已经聚集了2300P的智能算力。

有了鹏城云脑Ⅱ可以训练大模型了,但训练大模型还是很费算力的,即使可以训练大模型,现在的算力供给根本不够用,因此我们正在规划做鹏城云脑Ⅲ。

下面我说说大模型。

鹏城实验室正在做一个2000亿参数的大模型,也就是200B的参数,为什么做这件事呢?因为有ChatGPT和类ChatGPT大模型在不停涌现,同时现在很多公司都用这个东西做产业应用,去做服务。所以现在模型变得很重要了,但现在有钱的公司可以砸几个亿做这样的机器,甚至十几个亿和几十个亿,而大多数公司是做不了的。



图源:观察者网

这个领域需求这么大,怎么办?鹏城实验室可以做一个底座,把模型训练完开放出去,大家在这个底座上做垂直应用。按照这样的思路,我们首先有鹏城云脑Ⅱ的算力,前一阶段我们积累了很多数据,这一段时间我们通过各个渠道,包括购买,拿到数据先做清洗,清洗数据的工作很重,可能拿到100个数据,清洗完就剩几个了,因为有很多是重复和不规范的数据,这些东西拿掉后,数据量就变得很小。虽然拿了很多数据,但是真正用来做训练的数据只有1%-5%。有了这些数据,我们就可以做大模型底座。

这个大模型底座用的就是生成式预训练模型,也就是和GPT完全类似的底层。现在这个2000亿参数规模的大模型训练出来以后,我们希望把它给到合作伙伴那里,而且提供相应的指令微调和相应的人工增强学习的工具,甚至在一两个垂直领域作为垂直应用样板。因为华为在这方面很有经验,我们建议谁想做垂直应用,可以找华为获得一些咨询。

我们希望能快速把这个模型做完推向社会,让业界在这个模型上,开发中国自己的人工智能大模型应用系统。现在我们正在紧锣密鼓地往前推,应该是8月底第一次训练就完成了,9月份就会把模型开放出去。

现在训练的数据有多大呢?我们说的是喂数据,每天喂10个B,但是最重要的是喂一个T的数据,而一个T是由几百个T清洗来的,现在数据都是中文和代码数据,4000多块卡的机器每天可以吃掉10个B,100天就能吃掉1000个B,也就是一个T,因此训练2000亿参数的模型,需要4000块卡训练100天。

这就是算力的重要性,如果算力不足的话,做一个模型还是很辛苦的,而且现在这个模型才训练一个T的数据,如果训练两到三个T的话,还要加两到三个100天,没有大算力做大模型就是天方夜谭。实际上这就和电力是一样的,想靠省电做出什么产品来,真正懂行的人听了都不信,一定要有算力作为基础。



图源:观察者网

怎么样把数据做好、训练的快,我们有一套体系。

有个开源社区叫启智开源社区,这里有很多工程师在做飞轮数据工程,可以使清洗数据做得非常快,有很多自动和半自动的清洗数据。同时我们要考虑应用的时候有隐私数据,有一些数据应用者,希望到这个模型应用一下,但是不希望自己的数据被丢掉或者是被看到,我们也提供了隐私数据保护的模块。

我们希望鹏城脑海大模型训练出来以后,可以快速向社会赋能,可以让大家做数字政府、一带一路、智能制造、智慧金融、智慧医疗等各种各样的应用。而且我们还有完整的教育计划、人才计划,希望通过高校和合作伙伴培养更多AI人才,能让中国的大模型应用快速启动。

总结一下,鹏城实验室在鹏城云脑Ⅱ硬件平台和鹏城脑海大模型这两件事上,都在和华为合作往前推进,希望可以对中国人工智能大模型的应用贡献一点力量。作为一个基石,希望大家多关心、多参与。