本文来自微信公众号:深思圈 (ID:gh_352a572cf923),作者:深思圈,题图来自:视觉中国


就在前几天,Index Ventures在其官网发布了《The AI Platform Shift》系列文章,总共有四篇。这四篇文章是Index投研团队共同产出的关于AI方向未来趋势的洞察,分别从AI对软件价值链、新的AI原生应用类型、基础模型的发展和机器学习发展等四个角度来论述。整个系列观点十分清晰,并且结合过往的技术发展路线,推测未来AI的发展应用路径,特别适合当下发展早期,充满不确定性的时候。本文是对这四篇文章的编译和总结,希望可以给大家带来更多思考和帮助。


同时推荐结合红杉之前的《红杉观点|生成式AI:一个创造性的新世界》文章一块看。



AI将改变软件价值链


正如我们看到SaaS随着云计算的兴起而出现一样,基于AI原生的产品也将带来新的商业模式。


15年前,云计算的兴起带动了软件平台的转变,迎来了软件即服务(SaaS)的时代。现在,企业不再需要配置服务器和数据库,而是将这些工作外包给同时为数千个客户服务的专业团队。如今,开发新产品的公司可以专注在为特定的用户工作流构建令人难以置信的交互体验,而不必担心底层各类数据库和服务的技术细节。


软件即服务(SaaS)使得公司可以直接通过购买来使用任何不是其核心业务的软件,而不再需要自己去花费大量金钱开发。这通常使得软件产品更便宜、更安全、更弹性,同时迭代和改进速度更快。我们已经看到软件价值链在过去十年中发生了巨大的变化,这也带来了技术生态系统的巨大变革。


Index Venture认为我们正处于新平台转变的早期阶段,这一次是由AI驱动的。这种平台转移基于两件事:第一,我们相信在十年内,AI将成为每一个应用软件的核心组件。第二,这一波浪潮将由广泛采用的基础模型(foundation models)来推动。


正如云计算的兴起打破了软件价值链,并带来了新商业模式的出现,我们相信,随着更多AI技术的落地,我们将看到类似的现象。我们并不确切地知道这些新的商业模式将会是什么,但是我们对软件价值链如何变化有一些想法,并且开始看到了新模式出现的早期迹象。


例如,与十年前云服务商的崛起类似,我们看到了一类新公司的出现,他们将专注于根据最前沿的研究来推出最新的基础模型。我们认为这类公司将屈指可数,因为它成本高昂,需要深度的知识来训练和管理大型模型,而且像云服务商一样,随着时间的推移,产品在某种程度上应该是商品化的,它们的价值来自于巨大的规模效应。这些公司中的大多数会像云服务商一样,采用某种按量付费的商业模式。


在应用层,我们相信,随着时间的推移,商业模式将转变为通过AI来解锁更多针对客户的价值。我们设想的世界不是简单地为使用SaaS付费,而是客户能够根据产品内的定制或个性化程度付费,例如针对行业、组织甚至个人进行微调的模型。考虑到这一点,我们(Index Venture)投资了像Gong和DeepScribe这样的公司,随着时间的推移,它们的商业模式受益于越来越多为用户或客户定制化的产品。


我们最初在2020年投资了Gong,他们的产品可以记录销售电话,并允许公司管理者来以此分析业绩,发现客户反馈的趋势,并帮助培训和指导销售代表。当一个组织广泛采用该产品时,Gong沉淀了他们与客户对话产生的大量数据集。这反过来又帮助Gong更好地定制他们的产品,以高度个性化的方式服务于特定企业从而改善用户体验。


DeepScribe的产品可以记录医患对话,并使用AI为电子健康记录生成结构化的医生报告。这是另一个例子,通过持续使用来增加产品对特定用户(例如,具有特定风格的医生)或一组用户(例如,特定专业的医生或遵循一致标准的特定医院集团内的医生)的价值。


在这两种情况下,随着产品地持续使用,客户将更多自己的数据放入产品中,AI能够以高度定制化的方式进行改进。我们认为这是AI原生(AI-native)的公司建立护城河并随着时间推移而持续获得增长价值的一条途径。


这也为新型的托管基础设施(managed infrastructure)公司创造了机会,帮助软件公司在基础模型提供商之上提供Hyper-personalization。大规模的微调(fine-tuning)非常复杂,围绕生成和管理大量数据和模型会面临许多亟待解决的问题。我们看到新一代基础设施提供商正在崛起,并在努力抓住价值链中的这一环节,类似于近几十年来数据库提供商的崛起。


我们投资组合中的公司,如Scale AI (Index于2018年投资)和Humanloop(Index于2020年投资),都是致力于让开发团队不需要大量特定的机器学习专业知识,就可以更容易地在产品中部署模型。他们的产品允许用户使用人工标签和实时用户反馈来比较和微调模型的性能。


每个软件应用都将包含AI


AI-native的应用通常会战胜AI-retrofit的应用。


在过去的20年里,我们看到了SaaS产品的激增,我们在日常工作的每个部分都可能使用到这些产品。当前这一代应用程序的构建是为了支持端到端工作流和不同人员的协作。它们经过精心构造来处理用户将遇到的许多边缘情况,并且通常包含了众多的集成服务和插件,来巩固自身作为生态系统中心的地位。许多SaaS软件从根本上说就是一个基于数据库的UI,用于跟踪项目、文档和操作的状态。对于这些产品,我们逐渐看到AI将被用于特定的任务——无论是文档处理、音频转录还是编程。


在Index,我们与专注于正面应对AI挑战的团队合作,通过建立一流的团队来解决高度重复的任务,比如在驾驶和仓储领域。2018年,我们投资了Aurora,这是一家由Chris Urmson(Waymo的CTO)、Drew Bagnell(Uber的自动驾驶架构师)和Sterling Anderson(特斯拉的自动驾驶总监)创办的自动驾驶卡车公司。我们相信,他们深厚的专业领域知识和对软件的专注,将为他们提供最快的迭代速度和最通用的解决方案,使他们的自动驾驶技术能够应用在卡车和乘用车上。


2020年,我们投资了Covariant,该公司为机器人构建了一个AI大脑。他们商业化的重点是工业仓储方向,该公司由机器人AI领域的两位行业领袖彼得·阿贝尔(Pieter Abbeel)和彼得·陈(Peter Chen)创立。Covariant专注于构建通用的AI机器人大脑,现在他们能够以最少的AI训练来满足特定的客户硬件要求。我们一直支持AI优先的软件,这些软件可以定制化到不同的环境。


生成模型的最新发展(例如ChatGPT和Stable Diffusion)已经将我们推向了一个捕捉世界想象力的AI超级引擎。当我们展望下一代SaaS应用程序时,我们看到AI发挥着越来越大的作用。让我们特别兴奋的是:


  1. 利用AI实现头脑风暴、讲故事和开放式创意工作流程的产品。我们已经在艺术和文案领域看到了这一点,这些都是很好的用例,因为风险很低,同时当下工作流程高度手动化。


  2. AI应用于专业知识工作,如工程、法律和医学。在这些情况下,人们仍旧需要关注输出是否正确。这是当今流程高度手动化的另一个例子,因此ROI很容易测量。


  3. 将更多的AI工具嵌入到企业和生产消费者的工作流程中,例如我们在2020年投资了Hebbia,这是一个面向知识工作者的AI企业级搜索平台。这些产品将帮助用户更有效地沟通,吸收更多信息,更快速地搜索和处理数据,它们将提高整个社会的总体生产力。当然做这种类型的产品会比前面两种更加困难一些,因为企业需要来确保他们可以提供一致的用户体验。随着模型变得更容易控制和理解,我们将看到更多创业者可以构建出更可控制的产品,并能被大型企业采用。


对于以上这些类型的创业公司,我们认为其中的赢家将是那些可以开发出易于理解的产品,使模型界面易于学习,而不需要了解它们是如何工作的,能够清晰地集成到目前存在的流程和工作关系的结构中,并产生更精确和可控的输出。这些产品将以符合人体工程学的方式给用户颗粒度的控制和控制模型的选择,这个感觉像是一个专门为用户打造的模型,而不是用户去适应现有的模型。


让我们对AI原生应用世界感到兴奋的是,随着技术的发展,这提供了一个从零开始设计交互界面的机会。展望下一代产品,它们将从与用户的交互中学习,用户将拥有复杂的工具来指导模型输出,使AI成为我们需要分析数据、生成内容或解决重复任务时候的多模态助手。


基础模型最终将成为所有AI软件的根基


ML领域最新被人熟知的一个名词是基础模型(foundation model)这是指在大量数据集上“预训练”后,但没有特定最终用途的大型人工神经网络。OpenAI的GPT-3是一个很受欢迎的基础模型,该模型经过训练,用于在给定之前的文本的情况下预测文件中的下一段文本。但是基础模型可以通过在较小的手工标记数据集上进行“微调”,来执行特定的任务,比如回答客户的问题。


基础模型可以带来接近人类表现的能力水平,大多数AI模型都是根据特定任务的数据进行训练的。比如机器人手臂被训练来捡东西,自动驾驶汽车经过训练来实现自动驾驶。但是基础模型消耗了来自整个互联网的大量数据,它的某些部分是过分的和令人讨厌的,但它编码了人类几千年来学到的很多东西。我们的一个理论是,几乎任何AI应用都可以从基础模型的基本使用中受益。


一些人工任务看起来很有限,比如开车、在仓库装箱子或回答客户的问题,但是我们经常会在其中运用到从生活其他方面获得的理解。然而接受单一任务训练的机器没有这种广度,这就是为什么机器人看到传送带上的猫会不知道该怎么办,这也是为什么自动驾驶汽车遇到不合逻辑的交通标志时就会停下来。人类可以根据我们对动物和建筑的了解,把这些东西放在特定环境中思考并继续下去,这是人类的超能力。


我们相信,随着时间的推移,工程师们将越来越多地从预先训练好的基础模型开始,然后在垂直的任务上对它们进行微调。基础模型不会让孤立的AI模型变得“人性化”,但它们的使用将有助于模型理解最不寻常的环境,并帮助它们在这些环境中找到方向。可以基于司机的行为来理解他们的情绪,这将有助于自动驾驶汽车行驶;可以理解一只偷偷跑进仓库的猫不应该在传送带上,这将有助于机器人处理混乱情形。对于几乎所有的AI模型来说,最困难的情况就是这种以前从未见过的“长尾”事件。


Cohere的联合创始人Aidan Gomez作为联合作者撰写了一篇开创性的论文,这里面的核心内容就是如今许多基础模型的底层“transformer”架构。我们在2021年领投了该公司的A轮融资,这里的投资逻辑是,就像十年前的云巨头一样,在这一领域也会出现少数服务商,他们抽象了开发、管理和托管这些模型背后令人望而却步的复杂性。


在基础模型像我们人类一样真正理解事物的意义之前,我们还有很长的路要走。但它们正在以惊人的速度进步,在不久的将来,它们将开始接近我们用来完成任务的知识能力。


机器学习的采用将类似于数据库的采用


就像数据库一样,每个工程师都需要知道如何使用模型,但很少有人需要从头开始构建模型。


过去50年应用软件的基础是数据库,但未来50年的基础将是机器学习模型。因此,对机器学习和模型如何工作的基本理解将成为每个工程师技能的重要组成部分,而不再是少数专家的领域。当然机器学习工程师总是会有一席之地的,但是,就像那些构建数据库引擎的人一样,他们的数量将会很少,而且他们将在少数大型供应商工作。


事实上,过去十年AI/ML的进展与20世纪末数据库世界发生的事情惊人地相似。早期数据库的进步有几个特定的阶段,每个阶段大约持续了十年:


  1. 起步阶段(20世纪60年代):第一个数据库出现。在当时是一个强大的新概念,但很难使用。即使是访问简单的数据也相当复杂,高效检索的所有责任都落在了开发人员身上。


  2. 算力不够便宜的阶段(20世纪70年代):1970年,Edgar Codd发布了一系列论文,概述了数据库的关系模型,提供了行和列的思维模型。这种模型的美妙之处在于它的灵活性,它提供了强大、简单的抽象逻辑,可以对其进行扩展(通过自定义模式)来适应各种用例。尽管这是数据库历史上一个神奇的时刻,但它最初遭到了很多质疑,这些系统更容易使用和推理,但它们需要更多的计算能力。


  3. 易用性和商业化爆炸阶段(20世纪80年代):关系型数据库蓬勃发展的十年。随着计算资源变得越来越便宜,关系数据库的成本效益大大提高,它们的易用性成为了强大的动力引擎。尤其重要的是关系数据库使用查询优化将性能管理的大部分工作从开发人员转移到数据库中,这使得使用这些系统所需的专业知识远远少于之前的网络和分层数据库。SQL(1976年发明,但在80年代中期成为标准)成为数据库的通用语言,像甲骨文这样的大公司成为了商业巨头。


  4. 无处不在(1990年到今天):快进40年,世界上几乎每个软件应用程序都使用数据库(无论是关系数据库还是其他数据库)。作为一名程序员,了解它们的工作原理是首先要学习的内容之一,而相关的开发人员必须至少对它们的工作原理有一个基本的了解,才能有效地工作。


    此外,没有公司会考虑建立自己的数据库——这样做根本不划算。相反,他们使用现成的产品,然后在上面构建特定用例的数据模型(模式)。其中一些产品是免费和开源的(Postgres),还有一些则来自价值数十亿美元的商业组织。这种情况一直存在(早期的数据库是由IBM这样的人创建的),但我们认为仍然值得重申。


有趣的是,这种演进过程与我们所看到的机器学习和AI的商业化密切相关:


  1. 只有大公司的阶段(2017年之前):首先,训练一个机器学习模型来做任何有用的事情是一项高度专业化和非常复杂的工作。你必须找到相关的数据,同时找到足够的计算量来对这些数据进行训练。你必须选择一个架构并深刻理解如何进行超参数调优来优化训练的输出。所有这些都非常昂贵,而且坦白说非常困难。即使你没有使用任何深度学习技术,这也是正确的。


  2. 早期Transformer阶段(2017~2020年):与数据库一样,一切也从一篇论文开始。这是一篇名为《Attention Is All You Need》的论文,介绍了一种名为transformer的算法架构。紧接着是一系列预先训练好的基础模型(BERT、XLNET、GPT-2),它们利用这种架构来实现SOTA结果,特别是在语言方面。这些模型随后是开源的,类似于如何向关系数据库添加模式以使其适合用例,用户可以根据自己的数据对这些基本模型进行微调。


  3. 亿级参数和创业公司阶段(2020~今天):当前阶段始于OpenAI推出GPT-3。它证明了transformer模型可以扩展到数十亿个参数,而不存在性能渐近线,并且一个非常大的预训练基础模型可以在许多不同的任务中表现良好。通用性与OpenAI通过API提供GPT-3这一事实相结合,带来了Jasper和Copy等公司的绝对爆炸式增长。AI是在这些模型上建造的,正如查询优化器(query optimizers)将性能复杂性从软件开发人员转移到数据库服务商,AI的这个阶段正在做的是将训练的复杂性从最终用户转移到模型服务商。


  4. 无处不在阶段(未来):在我们知道之前,说一个产品“使用AI”似乎就像说一个产品“使用数据库”一样愚蠢和明显。现在,一般的开发人员可能不知道查询计划器(query planner)是如何工作的,但是他们肯定会使用数据库。类似地,我们不期望一般的开发人员在五年内了解transformer是如何工作的,但我们保证他们会知道如何使用模型。像Cohere和Twelve Labs这样的公司已经分别为文本和视频创建了这些基本的开发模块,允许用户像使用数据库一样简单地使用这些模型。


作为这些模型越来越普遍的证明,无数公司将AI作为核心组件,但并没有将其作为关键的差异化因素进行宣传。例如,我们之前投资的Gong在他们的产品中广泛使用语音到文本这一技术,但网站的首页没有提到ML或AI。模型本身是一个实现细节——它很重要,但没有区别。区别在于Gong围绕语音到文本模型构建了出色的产品体验,就像Salesforce和其他竞品的区别在于围绕数据库构建了出色的产品体验,而不是数据库本身,正是这种体验让他们成为了数十亿美元的企业。


参考材料

[1]https://www.indexventures.com/perspectives/the-ai-platform-shift/

[2]https://techcrunch.com/2022/11/17/index-ventures-thinks-new-startups-will-emerge-in-the-downturn-and-is-putting-300m-behind-that-bet/


本文来自微信公众号:深思圈 (ID:gh_352a572cf923),作者:深思圈