本文来自微信公众号:硅谷101 (ID:TheValley101),采访:泓君,文字:何源清,题图来自:《机器人总动员》


OpenAI,是一个人工智能研究的实验室,它是由非营利组织Open AI inc的母公司与一个盈利的子公司OpenAI LP组成。它的目标是实现通用人工智能,在实现这个目标的过程中,搞出了几个模型,一个是我们之前的播客讨论过的GPT-3,还有一个是最近带火“文字生成图片”的Dall·E·2。如果说Google搜索引擎开启了上一个周期的印钞机模式,下一代的巨头是不是像OpenAI和Stability这样的做AI底层模型的公司呢?


这轮由生成式AI主导的人工智能跟上一轮不太一样的地方是,上一轮AI很多靠to B的大公司获取收入,而AIGC的出现,不必像自动驾驶那样做到万无一失才可以应用,成立18个月的Jasper.AI就可以有9000万美元的收入。


AIGC是指Artificial Intelligence Generated Content,简单来说,就是用AI生成内容,比如AI生成图片、生成文字、生成代码、生成视频。本期节目,《硅谷101》邀请到了中国知名加速器AIGC负责人晋英杰Jack和大厂AIGC战略胡家康,来聊聊他们对于中国和美国AIGC创业格局现状的看法跟未来展望。


以下是部分访谈精选:


文生图火了,15倍超募‍


《硅谷101》:AIGC方向特别火,有两家创业公司,它是连续两天都有新闻曝光,说他们拿了1亿美元的融资。一个是 Stable Diffusion 背后的母公司 Stability,它是拿了大概是 1.01 亿美元,它的估值现在是 10 亿美元。这家公司的创建时间也不太久。另外一个公司是叫做 Jasper.AI,它也是做 AIGC 这种文字内容生成的。他刚刚拿了 1.05 亿美元的融资,现在的估值是 15 亿美元。我们先讨论一下为什么说 AIGC 在这个时间点它这么火?


晋英杰:最近正好在学习 Stable Diffusion,创始人是 Emad Mostaque,是一个巴基斯坦裔,之前在伦敦求学,以前是一个对冲基金的经理。他预测未来 AI 是一个需要 Super Data(超级数据), Super Talent (超级人才)和超强的算力支撑的一个属于企业的一种资产。


就像Open AI、谷歌,它们会拥有这样的能力,所以他希望把这件事情做成一个开源的,让世界有平等 AI 能力的机构,有点像一个去中心化的 Foundation Model(基础模型)


去年年底DALL·E·2刚出现的时候 ,很多非 AI 背景的人开始关注到 AI 作画,但是AI 作画真正出圈或者疯狂火起来的时候,是在今年。 Stability 的 Stable Diffusion 推出来之后的一个月, AI 作画遍地开花。包括在 Photoshop 上出现的 AI 生成的功能。因为 Stable Diffusion,它是从模型的权重上就完全开源,所有人都可以自己做部署、二次开发。而今天我们看到很多大模型 Foundation Model(基础模型)是没有这样开源的。


开始的时候就像模型的推理时间,只能在 Nvidia GPU 上去做推理,可能需要 5 秒钟,但是现在不同的社区的成员的努力下,在 Stable Diffusion 里边可以把它压缩到 1.8 秒。也可以在 Apple 的 M1、M2,包括 Intel 的 CPU 上都可以去做推理。随着用户量的增加,他们开始做一些大企业的服务,包括获取更多这种数据。


这个增长速度是非常可怕的。这一轮他们据我了解获得了 15 倍的一个 Oversubscribe(超额订阅),对外估值讲的是 10 亿美元,但有人开到了 40 亿美元的 Offer,还没有进去。


《硅谷101》:为什么只融 1 亿呢?我不知道它们的模型是不是自己研究的,因为像这种大模型,它背后靠的是堆算力,是需要很大的成本去铺算力资源的。因为我今天还在跟人聊,有人会觉得这是一个资金密集型行业,那它为什么只拿 1 亿美元呢?


晋英杰:好问题。他们整个团队是相当扁平的,团队百人的人数里边也只有一个PhD ,他们的 Stable Diffusion Model 是跟慕尼黑大学的一个实验室做出来的,包括今天也跟 Midjourney 这款非常火的文生图的产品开发者一块研究。因为它是开源的,所以它会跟大量的机构去合作,去堆这样的模型。


Emad 他自己是放了很多钱进去的。Stability 背后是有 4000 张 A100 的算力,他们算力是非常够的。而从学术研究的角度,他们会跟一些机构去合作,推一些开源的模型,所以这个阶段可能还不需要那么多的钱。但是我猜明年估值应该还能翻 10 倍,那个时候可能会融再 10 倍的钱了。


《硅谷101》:MidJourney的火爆,除了 Stable Diffusion,跟DALL·E·2 整个 API 接口的全面开放是不是也有关系呢?


胡家康:对,我觉得是很有关系的。包括刚才晋英杰Jack也说过,大概是 Stable Diffusion 在七八月火的时候,9月份我们可以看到国内市场是已经出现了一大批创业公司,这些创业公司做的文字生成图片的应用基本上都是基于 Stable Diffusion 做的。所以看到它的开放能够驱动整个应用层的生态繁荣的增长,并且会驱动很多创新的应用出现。


比如 DALL·E·2 推出的那一段时间,我们看到的文生图的一些创意应用还比较少,但是在八九月份以来,我们看到了文生图可以用在很多不同的场景,这也激发了非常多的想象力。而且我相信从第四季度开始,我们会看到更多创新的应用形态出来。


为什么长不出中国的OpenAI‍‍‍


晋英杰:从你们角度,为什么你们没有去做一个千亿的模型,你们去怎么看这一点投入和产出?


胡家康:清华有一个团队叫面壁智能,出过一个大模型参数的榜单:显示了随着不同时间段、不同公司发了哪些大模型,他们的参数规模是怎样的,其基于他们数据去做分析,可以看到几个很明显的趋势:


第一,一个确实是大模型的参数达到了 5000 多亿参数量级之后,大家都没有再往上突了。今年 22 年的时候,新发的一些大模型,要么就是在千亿左右参数的规模,要么就是可能针对某个细分场景做了一些的优化,要么更强调跨模态,比如游戏、强化学习、图等等。为什么会有这个现象?我个人理解,去提高参数的边际收益其实已经相对没有那么大了,因为你想一下,从千亿参数提到万亿参数,你所需要的算力规模的量其实是会比 10 倍量要需求更高的是。不是你对 10 倍的机器就能够训出 10 倍参数的模型,效果的提升其实是没有相应的那么显著了,这是生成类任务。


第二,像 NLP 还有一类典型的任务是理解类任务,比如去做文本的分类,信息的抽取等等的。这类任务我们看到从百亿到千亿去跨越的时候,其实它的边际效果的提升已经不太多了。所以我们真正去做产业应用的时候,到底是不是必须要用一个非常大参数的模型,目前其实是打一个问号的。


从下半年开始,一些新的机构加入这些战场了,也可以说明这个领域确实是两个特性:一是我们肯定是不需要太多家的基础设施;第二,它是一个资金密集型的特性,并且它有比较强的规模效应,所以你在已经那么卷的阶段,你再去新切入市场,其实价值已经相应没那么大了。


《硅谷101》:根据你刚刚的榜单,中国大模型参数训练最多的是哪一家?


胡家康:根据公开资料的披露,目前中国厂商推出的大模型参数量最大的是阿里的 M6 大模型,达到了万亿级别,但是它的万亿级别背后对应的其实是用了一种稀疏化的模型的方式,很容易把参数堆上去,你可以理解为它的数字会比 GPT-3 的千亿模型有虚高的成分存在。


其次就是一批千亿模型,包括智源、清华的几个实验室、百度文心、华为的盘古大模型,也达到了千亿的规模。去做生成类任务,其实千亿是一个门槛。


《硅谷101》:在中国做到千亿模型,它大概花的比如服务器、显卡的这些算力成本,大概是在一个什么样的量级?


胡家康:可能我们公司的数据不太好说,但是肯定是起码得上千张卡的规模。


《硅谷101》:智源的模型跟百度的模型,他们的效果最后怎么样?


胡家康:这一类做文本生成的大模型,在中文领域的效果都是远远不及 GPT-3 的。背后可能有很多原因:


第一,本身对中文的理解和对英文的理解、生成,是两个体系,中文的难度是更大;


第二,不管是 OpenAI还是Stability,他们都有一种更加创新与灵活的组织形式,其实是聚集了一种开放、利益互享的方式,聚集了一批顶尖的科学家一起去做贡献,但是国内目前这个模式可能还没有一个很成功的案例出来。对方相当于是以那种很小的杠杆可以撬动巨大的力量,但是国内可能还是依靠于各个大厂大型公司,自己的科研人员去做这个事情,再对比下来,难度还是有一点大的。


第三,还是在资源的投入上有区别。虽然国内的公司也投入了很大的资源在做这个事情,但是相比海外,比如 Stability 4000 张 A100 这样一个量级的投入,作为一个国内的大型公司,它很难去把这个故事给讲圆的。


第四, GPT-3 在 2020 年推出之后,较快地形成了一个创业生态,一大堆产品去用它的 API 去得到用户的反馈来优化模型。这个事情在国内其实目前以文本生成角度来说,还没有形成一个可以和国外相媲美的应用生态。所以对于做技术的人来说,反馈和优化的空间也会相对的少一些,所以在这种技术迭代的加速度上,会比国外相对的落后一些。现在有很多的创业者进来,各类科技公司去提供很好的基础设施,在这种正循环的促进下,有希望在明年看到国内能够做起来类似海外的这样一个应用生态。


《硅谷101》:Jack 你要不要给大家介绍一下为什么同样大家都是一个千亿级参数的训练量,Open AI 它能把这事给做成了。为什么它能够吸引到整个行业比较顶级的科学家?


晋英杰:目前我看到了一个信息, OpenAI 能否在中国发展出来,或者是一家 AGI(通用人工智能)公司能否在中国发展出来,影响这件事情的要素在我看来会有三个:


第一个是人才的密度、高度;


第二个是资本的 goodwill(加持)


第三个是背后政策的支持。


从 2020 年开始,我开始寻找中国有能力做 OpenAI 的人。先去拜访了一些老师,包括藤校的教授,大厂的大模型的一把手等等。但是会发现中国 AI 地位比较高的老师,也可能是我认知浅薄,感觉他们都有一点 怀疑的, OpenAI 300个人大部分都不是CS(计算机科学)的博士。中国在各个领域学术人才的交叉的密度可能还不太够, Openness(开放程度)还不太够。


比如像 OpenAI 的创始人Sam Altman,还有他合伙人Ilya Sutskever,他们都是 30 多岁,顶尖聪明的年轻人。在中国有这样视野的年轻人,至少我遇到的还是蛮少的,可能人才上还是要比美国落后 3-5 年。


另外一方面,从开放性 上,刚才我们提到 5000 亿和 1000 亿,为什么没有人再去堆 1 万亿了?刚才家康提到特别好的一点,你成本是非线性的,每个 GPU 之间的一个通讯成本会大幅度增加。怎么去解这一点?或者从第一性原理上,它应该是什么样的?我们人脑有 860 亿个神经元,有 1.7 万亿左右的连结。1.7 万亿对应我们模型的一个参数量,也就是 GPT-3 做了一个参数量是人脑 1/10 倍的模型。


如果我们真的想对标人脑的这种链接能力,没准我们还真的需要一个 1.7 万亿参数的模型,你不光是需要从数据、算法层面去做革新,你还需要从硬件方面去做革新。怎么让 GPU 之间打破这样冯诺伊曼架构的墙壁,需要脑架构,或者认知科学,或者脑神经科学相关的一些科学家跟模型的科学家老师联合跨组,在大厂里面直接是跨部门的一种合作了。这方面看到的还是相对少一些的。


在 OpenAI 里边就 300 个人,来自各种各样的一些领域,化学的、生命科学的、物理学的、数学的,有顶尖的 CEO 和科学家去带领着,都很年轻,里边分成很多组,这些组不单单是都去冲 AIGC 的,对于他们这件事情来说,风险是其实极高的,它落地的收益又是相对少的。


做 OpenAI 这家公司,美国有一部分资本是有耐心的,微软给了他们资金。国内很少有机构愿意去赌,一个团队两年的时间,什么商业化的东西都没做出来,就做了一篇论文。但是这家机构就是为了 AGI(通用人工智能)一路走到黑。Deepmind 和 OpenAI都是这样的一个气质。国内就会比如我要求你半年给我产生点东西,有一个什么模型之后,我就立刻需要落地的一个营收回报来证明这件事情有价值。


《硅谷101》:马斯克当时说:你应该担心人工智能的安全问题,因为它比朝鲜问题还要危险。他是怕人工智能作恶的这样的一个初心。最开始 OpenAI,它在解决一个什么问题?它想做通用人工智能。


所谓的通用人工智能就是人工智能在所有的领域都可以做得比人好,或者至少跟人能达到一样的治理水准。关于这样的一个愿景,在业界跟学界,包括一直到今天是有非常多的争议的。就像我知道有很多的教授,到现在都觉得通用人工智能的这种提法是有问题的,甚至有很多人就直接觉得马斯克要做这件事情,是因为他不懂AI,包括扎克伯格也是这样怼过的。所以马斯克懂不懂 AI 我们不知道。我们可能会专门花一期的时间去讨论这件事情。


生成式AI:可生万物


《硅谷101》:AIGC有很多 To B 的应用,To C 也很有想象力,很有想象力。还有一个特别小众的领域的应用,之前的一位嘉宾Howie提到,有一个考古学的教授发现AIGC在考古学里面太有用了。因为考古的场景,其实是一个不太清晰的发掘现场。但是他其实很需要根据现场去还原成一个清晰的、有过往想象力的东西,他发现用 Dall·E·2 的模型,就能更好地去帮他们看考古当时的场景是怎么样的,我还挺没有想到的。


晋英杰:有意思,不只是如此,Sam Altman 就聊到 AI 有可能的三个很关键的任务:


第一个是做科学家的工具,比如像AlphaFold;


第二个是解决每一个人日常的一些需求,比如 AI coding,做编程;


第三个就是 AI 自己演化成一个科学家。


艺术在我们看来是非常难的一件事情,但是 AI 做得很好;做一个科学家也是很难的事情,有可能 AI 也可以做好。我们今天去解决一些复杂的问题,比如阿尔兹海默综合征,我们如果有足够的数据的情况下,我会把它拆成一个个的子问题,在不同的学科里边寻找答案。每个科学家都会有一个自己的实验记录本,记录我可能为什么这里用的公式,那里边用了这样的一个物理学的原理,直到我们解开这样一个科学的谜题。


《硅谷101》:刚刚你们提到的, AI 可以去赋能科学家这件事情,它到底是 AI 还是AIGC?因为比如AI,它可以参与到制药,它可以去探索蛋白质的结构,是就 AlphaFold 做的那些事情,它是 AI 做的,它跟 AIGC 有没有关系?


晋英杰:我们今天话题虽然是 AIGC,但是红杉那篇文章的标题是 Generative AI: A Creative New World。它不单单是生成内容,后边的东西可以是万物。取决于你把什么样的模态放进去,你今天放代码,我就生代码;你今天放蛋白质三维结构,我就生蛋白质;你要是放科学推理,我就给你直接变成科学家。还是挺有意思的,我们可以往这一块去讨论。


《硅谷101》:所以 AI 不仅仅可以生成文字、图片、视频,它也可以生成代码或者万物,就看我们想要它生成什么。


《硅谷101》:跟生成式AI相对应的是什么?


胡家康:我觉得相对应的就是理解式AI,因为我们一般会把生成和理解做一个对应。有点类似人的成长过程:一个小朋友刚诞生的时候,他就只能去看到这个世界万物是什么样的。他知道树叶是树叶,妈妈是妈妈,但是他无法表达,更无法创新。但是生成式AI,它随着逐步的发展,智能化程度不断提高,它就有点像人类到了十几岁的状态,能够去做演讲,能够去作画,甚至能够去产生更多的思考和创作。


《硅谷101》:从你们个人的角度,你们相信通用人工智能可以实现吗?


晋英杰:从我的角度,我还挺喜欢 John Carmack 说的那句话。John Carmack 就是之前 Oculus 的首席科学家,他是在领域里边很少的又懂游戏,又懂 AI,又懂 VR 又懂图形学的人。他带着他的儿子在 2020 年去做了自己的一家 AI 公司,是今年爆出来的新闻,但是他从 2020 年就走了,去干 AGI 了。那时候也有一波报道的,可能今天公司才成立,或者是正式对外招人之类的。


他最近说了一句话,他说:“今天通往 AGI 的路径,可能已经存在于我们现在已有的人类信息的各种各样的教科书和知识库里面了,只不过我们还没有以正确的方式把它们组合起来。”


本文来自微信公众号:硅谷101 (ID:TheValley101),采访:泓君,文字:何源清