图片来源:彭博社

要点总结

与苹果的合作:OpenAI与苹果接近达成协议,计划将 OpenAI 的技术集成到未来的 iPhone 操作系统中,同时苹果预计发布Siri AI

OpenAI 的新产品:OpenAI 正在开发 AI 语音助手,该技术不仅能够通过文本,还能通过声音与人类交流,并具备识别物体和图像的能力。

GPT-5 的预期发布:OpenAI 正在积极开发 GPT-5,期望它能在性能上显著超越现有的 GPT-4。这一新模型的发布可能会在今年年底前。

据知情人士透露,苹果公司已接近与 OpenAI 达成协议,在 iPhone 上使用这家初创公司的技术。

双方正在敲定在苹果下一代 iPhone 操作系统 iOS 18 中使用 ChatGPT 功能的协议条款。苹果还与谷歌就授权该公司的 Gemini 聊天机器人进行了谈判。这些讨论尚未达成协议,但仍在进行中。

与此同时,苹果预计将在下个月的年度开发者大会上宣布对其 Siri 语音助手进行升级,使用大型语言模型来生成对用户查询更复杂的响应。

苹果的 Siri AI 或与 OpenAI 有关。据报道,OpenAI 正在开发 AI 语音助手,该技术能够使用声音和文本与人交谈,同时识别物体和图像。据两位见过这项新人工智能的人士透露,ChatGPT 的开发者已经向一些客户展示了这些能力,其中包括比其现有产品更好的逻辑推理能力。

这项技术是 OpenAI 首席执行官 Sam Altman 最终开发高度响应的人工智能的又一步,类似于 Spike Jonze 电影《她》中的虚拟助手,并使现有的语音助手如苹果的 Siri 更加有用。据其中一位人士透露,该公司最早可能在周一的活动中公开预览升级版人工智能,这将帮助其在本周晚些时候来自竞争对手谷歌的一系列人工智能公告之前取得领先。

OpenAI 认为具有视觉和音频能力的助手可能与智能手机一样具有变革性。理论上,助手可以做今天不可能做到的一系列事情,例如作为学生在写论文或解决数学问题时的导师,或者在人们询问时提供有关他们周围环境的信息,如翻译标志或解释如何解决汽车问题。

今天,大语言模型无法在个人设备上运行,但客户可以在短期内使用基于云的版本来改进 OpenAI 软件已经支持的功能,例如自动客户服务代理。据一位知情人士透露,新软件的音频功能可以帮助这些代理更好地理解呼叫者声音的语调或他们是否在提出请求时带有讽刺意味。

OpenAI 已经有软件可以转录音频并将文本转换为语音,但这些功能是通过单独的对话式人工智能模型提供的,而新模型将这些功能结合在一起。这使得新的多模态模型对图像和音频有更好的理解,并且比能力较弱的模型使用起来更快。

由于是 OpenAI的 主要财务支持者,微软可以随意使用 OpenAI 的技术,它可以用 OpenAI 的新人工智能来改进自己的语音助手,或者尝试使其足够紧凑,以便在小设备上运行,包括可以捕捉客户周围环境的前置摄像头可穿戴设备。

据一位使用过它的人士透露,目前尚不清楚 OpenAI 何时会将新功能提供给付费客户,但最终计划将其作为免费版本的聊天机器人 ChatGPT 的一部分。这位人士表示,OpenAI 旨在使新的人工智能模型比其今天销售的最先进的模型 GPT-4 Turbo 运行成本更低。新模型在回答某些类型的问题时也优于 GPT-4 Turbo。然而,新模型仍然会犯错误,即所谓的幻觉。

01 GPT-5 发布

与此同时,谷歌高管长期以来一直梦想使用人工智能开发强大的助手。12 月,谷歌展示了一个它开发的对话式人工智能 Gemini,它能够实时响应人的语音命令并识别人正在查看的图像。然而,该公司解释说,这些能力需要研究人员用图像和文本指令提示模型,而不是视频中演示的简单对话。与此同时,Gemini 增加了可以分析音频的功能,除了图像和文本,但它并不理解许多传统的语音命令,也不像传统的语音助手如 Siri 和 Google Assistant 那样与用户交谈。

OpenAI 也在试图领先于 Meta Platforms,后者在 4 月发布了一个开源人工智能 Llama 3,其性能超过了今天大多数可用的对话式人工智能模型,并获得了人工智能应用程序开发者的热烈评价。

即将推出的具有音频和视觉能力的 OpenAI 模型是正在开发的众多产品之一。该公司一直致力于推出一个网络搜索引擎,旨在与谷歌竞争。OpenAI 还在开发一种自动化软件,称为计算机使用代理,可以加速软件开发和其他基于计算机的任务,并且该公司已经展示 Sora,它尚未公开可用,但在好莱坞引起了轰动。

更重要的是,OpenAI 一直在开发 GPT-5,它希望这将代表对 GPT-4 的重大改进——一个它一年多前发布的模型。据与 OpenAI 领导人讨论过的人士透露,它可以在年底前完成 GPT-5 并公开发布。

OpenAI 在产品开发和人工智能模型开发方面的闪电战意味着之前宣布的一些项目没有得到太多关注。例如,尽管这家初创公司承诺开发者在今年第一季度他们将能够通过为其商店构建定制聊天机器人来赚钱,但 OpenAI 尚未推出让他们这样做的方法。

另一方面,改进视觉和音频能力可能有助于 OpenAI 将其对话式人工智能运行在数百万或数十亿台苹果设备上。

Altman 还在与 iPhone 开发者 Jony Ive 合作开发一个独立的 AI 消费设备,这可能从包括 Emerson Collective 和 Thrive Capital 在内的投资者那里筹集高达 10 亿美元的资金。通过这样做,Altman 将加入所有大型科技公司和初创公司的行列,竞相发布能够吸引消费者想象力和钱包的人工智能驱动的设备和可穿戴设备。

然而,最先进的人工智能模型的大尺寸意味着它们目前需要在云端运行,并且需要互联网连接才能工作。具有视觉和音频能力的复杂对话式人工智能可能需要几个月甚至几年的时间才能变得足够小,以便在设备上运行。

02 分层定价

今年可能产生数十亿美元收入的 OpenAI 还计划推出一种新的定价模式,根据与高管交谈的人士透露,如果客户预付以保留代币(大型语言模型处理或生成的单词),则可以享受高达 50% 的折扣。

目前,这家初创公司主要提供按需定价,对开发者每百万代币生成的费用从几美分到 120 美元不等。一些较大的客户会获得批量折扣。

预付折扣在云计算中很常见——微软 Azure、谷歌云和亚马逊网络服务的客户可以通过提前预订服务器容量来降低成本。

通过更灵活的定价,OpenAI 可以更好地与竞争对手模型开发商以及旨在帮助开发者以更便宜的方式运行开源模型的初创公司竞争,这些初创公司被称为人工智能服务器转售商或推理提供商。他们对成本效率的关注有时会促使这些初创公司以越来越低的价格提供相同的 LLM,甚至在某些情况下低于成本。

OpenAI 已经为开发者引入了一种降低成本的方法,即批量 API,这是一个它在 4 月推出的应用程序编程接口,如果开发者批量上传模型查询并愿意等待长达 24 小时的响应,则可以提供更便宜的价格。对于他们来说,人工智能服务器转售商如 Together AI 和 Anyscale 表示,在他们的软件上运行开源模型比使用 OpenAI 的模型便宜多达六倍