2023，生成式AI狂奔的一年 - 葱头胖友圈

2023 年是 AI 发展的关键一年，ChatGPT 以及 GPT-4 的发布引发了全社会对于大模型以及生成式 AI 的关注。

科技巨头微软、亚马逊、谷歌、Meta 等纷纷发力 AI；文本生成、文生图以及文生视频 AI 工具进展迅速；国内的“百模大战”；各国对于 AI 的监管逐渐加强；科学家们还在研究“涌现”的原理；还有年底的 OpenAI Drama 事件……

科技博客 Everypixel Journal 整理了 2023 年 AI 行业的产品以及商业进展，他们还梳理总结了由风投公司 Air Street Capital 发布的《2023 人工智能现状报告》，Founder Park 一并进行了编译。

一、2023 的 AI：有突破、有落地、有争议

本章节内容源自 Everypixel Journal 概括的 Air Street Capital 团队的年度 AI 报告。

研究：技术突破及其能力

GPT-4：OpenAI 最新模型 GPT-4 脱颖而出，成为功能最强大的 AI 模型，其显著优于 GPT-3.5，并在编码能力方面表现出色。

自动驾驶：Wayve 的 LINGO-1 为驾驶增加了视觉-语言-动作维度，有可能提高自动驾驶系统的透明度和推理能力。

文本到视频生成：VideoLDM 和 MAGVIT 引领文本到视频生成的竞赛，各自使用不同的方法——diffusion 和 transformer。

图像生成：诸如 InstructPix2Pix 和 Genmo AI 的“Chat”之类的助手通过文本指令实现更受控和直观的图像生成和编辑。

3D 渲染：3D 高斯散射——NeRF 领域的新竞争者，通过计算来自数百万个高斯分布的贡献，带来高质量的实时渲染。

小型模型与大型模型：微软的研究表明，经过专门数据集训练的小型语言模型（SLM）可以与大型模型相媲美。TinyStories 数据集代表了这一方向的新方法：在 GPT-3.5 和 GPT-4 的帮助下，研究人员生成了一个非常简单的短篇故事的合成数据集，其中包含英语语法和一般推理规则。在这些 TinyStories 上训练 SLM 后发现，用于评估的 GPT-4 更喜欢由 28M SLM 生成的故事，而不是由 GPT-XL 1.5B 生成的故事。

AI 在医学中的作用日益增强：像 Med-PaLM 2 这样的模型展示了 AI 在医学中的重要性日益增强，甚至在特定任务中超过了人类专家。谷歌的 Med-PaLM 2 通过 LLM 改进、医学领域微调和提示策略实现了新的最先进的结果。多模态数据集 MultiMedBench 的集成使 Med-PaLM 能够将其功能扩展到基于文本的医学问答之外，展示了其适应新医学概念和任务的能力。此外，最新的计算机视觉技术在疾病诊断中显示出有效性。

RLHF：人类反馈强化学习仍然是一种主要的训练方法。这种方法在增强 LLM 安全性和性能方面发挥了重要作用，OpenAI 的 ChatGPT 就是一个例子。然而，研究人员正在探索减少对人类监督需求的替代方法，以解决与成本和潜在偏差相关的担忧。这些替代方法包括从自己的输出中学习的自我改进模型以及减少对 RLHF 依赖的创新方法，例如使用精心设计的提示和响应来微调模型。

水印标识：随着人工智能的内容生成能力的进步，对人工智能生成输出进行水印或标记的需求不断增长。例如，马里兰大学的研究人员正在努力将微妙的水印插入语言模型生成的文本中，而谷歌 DeepMind 的 SynthID 将数字水印嵌入图像像素中，以区分人工智能生成的图像。

数据限制：人们担心耗尽人类生成的数据，有预测表明到 2030 年至 2050 年可能会出现短缺。然而，语音识别系统和光学字符识别模型可能会扩大数据可用性。

LLaMa-2：虽然商业模型主导着该领域，但正在进行的努力集中于通过开源方法来生产高性能模型，Meta 的 LLaMa 系列就是一个例子。

不披露：经济利益和安全问题不断增加，导致围绕前沿研究形成了一种不透明的文化。OpenAI 和 Google 已转向不披露有关其顶级模型（如 GPT-4 和 PaLM-2）的详细信息。

行业：AI 的商业应用和业务影响

NVIDIA 的主导地位：NVIDIA 实现创纪录的 2023 年第二季度数据中心收入 103.2 亿美元，并进入 1 万亿美元市值俱乐部。

生成式 AI 的主导地位：最突出的趋势是生成式 AI（GAI）的兴起。此外，生成式 AI 在稳定 2023 年的 AI 投资方面发挥了至关重要的作用。如果没有生成式 AI，AI 投资将大幅减少。

受益于 AI 的主要行业：企业软件、金融科技、医疗保健。

公开市场动态：公开估值显示出复苏迹象。苹果、微软、NVIDIA、Alphabet、Meta、特斯拉和亚马逊等集成 AI 的巨头在提振股市指数方面发挥着至关重要的作用。

私人市场趋势：美国在全球私人 AI 领域占据主导地位，2023 年的资本投资占 70%。相比之下，欧洲 AI 企业的资本支持大幅下降。

主要并购：并购市场仍然活跃，出现了 MosaicML + Databricks（13 亿美元）、Casetext + Thomson Reuters（6.5 亿美元）和 InstaDeep + BioNTech（5 亿欧元）等重大收购。

企业投资动态：2023 年所有企业风险投资的 24% 投向了 AI 公司。

资金动态：生成式 AI 公司主导大型融资轮次，通常用于获取云计算能力以进行大规模 AI 系统训练。2023 年，生成式 AI 公司明显获得比其他初创公司更大的种子轮和 A 轮融资。

政治：AI监管、经济影响和不断演变的地缘政治

英国和印度的轻触式监管：英国和印度采用支持创新的方法，投资于模型安全并确保早期获得先进的 AI 模型。

欧盟和中国的严格立法：欧盟和中国已采取严格措施朝着人工智能特定立法迈进，尤其是在基础模型方面。

美国的混合监管：美国尚未通过联邦 AI 法律，各个州颁布了自己的法规。批评者认为这些法律过于严格或过于宽松。

监管和透明度：即将到来的 2024 年美国总统选举引发了人们对 AI 在政治中的作用的担忧，促使美国联邦选举委员会呼吁公众对政治广告中的 AI 法规发表评论。谷歌对 AI 生成的选举广告免责声明的政策就是一个透明度努力的例子。

AI 和偏见：AI 偏见指控，特别是来自美国保守派团体，表明文化冲突正在蔓延到 AI 领域。OpenAI 正在通过审核和用户微调来解决这些问题。

不断演变的地缘政治：对于 AI 计算必不可少的半导体行业已成为中美地缘政治紧张局势的焦点，对全球 AI 能力具有更广泛的影响。

就业市场影响：研究表明，人工智能的进步可能会导致法律、医学和金融等行业的职位大量流失。然而，人工智能也可能使专业知识民主化，并在基于技能的工作中实现公平竞争。

McKinsey 近日公布了一幅内容丰富的图表，全面概括了 2023 年人工智能（AI）治理领域内最关键的政策和监管动向。该图表以直观的视觉形式展示了 2023 年对 AI 法律框架塑造做出的显著贡献。

安全性：识别和减轻高度智能未来 AI 系统带来的灾难性风险

呼吁解决安全问题：对高性能 AI 系统的担忧促使未来生命研究所发出公开信，呼吁暂停比 GPT-4 更强大的 AI 开发，以解决安全问题。然而，对于具体风险或其可能变得相关的时间范围尚未达成共识。

缓解工作：AI 实验室正在实施自己的缓解策略，包括用于评估危险能力的工具包和具有安全承诺的负责任的扩展政策。此外，基于 API 的模型（例如来自 OpenAI 的模型）具有检测和响应滥用的基础设施，以遵守使用政策。

开源与闭源 AI：关于开源或闭源 AI 模型是否更安全的争论仍在继续。开源模型促进研究，但存在滥用风险，而闭源 API 提供更多控制，但缺乏透明度。

使用人类偏好预训练语言模型：研究人员建议将人类反馈直接纳入 LLM 的预训练，而不是传统的三个阶段训练。这种方法已在较小的模型上得到证明，并被谷歌部分采用在他们的 PaLM-2 上，已被证明可以减少有害内容的生成。

宪法 AI 和自我对齐：一种新方法依赖于一套指导原则和最少的反馈。模型生成自己的批评和修改，这些批评和修改用于进一步的微调。这可能比 RLHF 更好的解决方案，因为它通过明确遵守设定的约束来避免奖励黑客攻击。

越狱和模型安全性：解决与绕过安全协议的提示制作相关的问题仍然是一个挑战。

二、AI 产品的进展

在今年的 AI 进展方面，重点在于改善现有技术，而非引入类似于去年的 ChatGPT 或图像生成器那样的革命性创新。虽然没有令人震撼的效果，且真正的通用人工智能（AGI）尚未实现，但今年标志着从之前的重大突破向更强大的未来过渡的中间阶段。为了展示这种发展趋势，我们制作了一个视觉时间线，强调了今年在 AI 领域最为显著的进展：

图像生成

Adobe Firefly: Adobe 的 Firefly 和 Generative Fill 推动了多样化视觉内容的创作，如插画、艺术构思和照片编辑。集成到 Photoshop 中的 Adobe Firefly 使 AI 技术普及化，让更多用户能够轻松使用。其发布的文本效果功能也是一个重要进展，它允许用户给文字和短语添加风格或纹理。

Midjourney: Midjourney 的 V.5 模型在图像生成领域达成了重要里程碑，展现了更高的效率、连贯性和分辨率。它的最新 alpha 版本，Midjourney V.6，进一步增强了功能，比如更精准地响应用户输入（prompt）、提高了模型的知识水平和简易的文本绘制能力。

DALL·E 3: 基于 ChatGPT 的 DALL·E 3 简化了图像生成过程，避免了复杂的用户输入（prompt）设置。此外，ChatGPT 还推出了一项功能，帮助用户优化输入内容，并根据反馈调整图像。

Shutterstock.AI: 知名库存图片平台 Shutterstock.AI 加入了 AI 功能，使用户能将输入内容转换成可授权的图像。Shutterstock 在推动伦理 AI 方面迈出了重要一步，对贡献的艺术家给予认可和奖励。

文本到图像算法的演变，2007 对比 2023

视频生成

Stability AI：Stability AI 推出了 Stable Video Diffusion，这是一个具有里程碑意义的视频生成（generative video）模型，可在 GitHub 上开源访问。类似于 AI 图像生成的趋势，Stable Video Diffusion 模型很可能在 AI 生成视频领域发挥核心作用。

HeyGen： 这家 AI 创业公司推出了一款用于语音克隆的工具，能够调整视频中的唇部运动并进行语言翻译。

Runway Gen-2：Runway 发布了 Gen-2 模型，使用户仅需通过文本提示、图片或其他视频即可轻松生成完整视频。下面的例子就是一种展示。

Pika 和 Pika 1.0： 在首次发布时，Pika 吸引了超过五十万用户，每周生成数百万视频。在 Pika 1.0 中，升级后的 AI 模型使用户能够以多种风格（包括 3D 动画、动漫、卡通和电影）创作和编辑视频。

Meta 的像素编解码头像（PiCA）：Meta 的 Pixel Codec Avatars（PiCA）模型为视频中的 3D 人脸提供了更加逼真的远程传输体验。

文本生成

Bard 和 Gemini: 谷歌的 Bard 为聊天机器人注入了仿人类的情感和情绪。Bard 聊天机器人采用多模态数据集训练，而谷歌的 Gemini 以“最有能力”的 AI 模型身份崭露头角，成为与 OpenAI 的 ChatGPT 齐名的竞争者。

Grok: 埃隆·马斯克的创业公司 xAI 展现了其对 AI 发展的承诺，并有可能与 OpenAI 竞争。他们推出了“Grok”——一款具备幽默感、反叛特质，并能通过平台获取实时信息的聊天机器人。xAI 承诺，Grok 能回答其他 AI 系统所回避的敏感问题。

OverflowAI: Stack Overflow 的 OverflowAI 通过提高知识整理效率，使得用户能在 Visual Studio Code 和 Slack 中快速找到 AI 推荐的相关答案。

Llama 2: Meta 推出了 Llama 2，这是其开源大语言模型（LLM）的升级版，性能更优。Meta 还对这一模型进行了针对对话场景的优化，使其在大多数标准测试中超越了其他开源模型。

GPT-4: OpenAI 的 GPT-4 现在能够处理图像输入，生成标题、分类，实现听取和对话互动，还支持实时网络浏览。OpenAI 还进一步扩展了插件支持，促进了一个丰富多彩的开源竞争环境。GPT-4 标志着 OpenAI 向通用人工智能（AGI）迈进的新篇章。

Mistral 7B: Mistral AI，估值大约 20 亿美元的今年，推出了 Mistral 7B，一个具有挑战性的大语言模型，旨在与 GPT-4 和 Claude 2 竞争。Mistral AI 采用开放技术策略，允许用户免费下载该模型，以促进技术共享和创新。

Mixtral 8x7B: Mistral AI 同样推出了 Mixtral 8x7B，这是一个高质量的稀疏混合专家模型（SMoE），具备开放的权重参数，拥有总计 46.7B 参数，这标志着模型在提高真实性和减少偏见方面开放性的一大步。

国产大模型介绍（部分）：

文心大模型发布文心一言 4.0 版本；

阿里云发布通义千问，开源 Qwen-7B；

百川智能发布 Baichuan2-192k，开源；

月之暗面发布超长文本支持的 Kimi Chat；

零一万物发布开源大模型 Yi-34B；

清华开源 ChatGLM3。

国内大模型全景图，图片来源：SuperCLUE

其他进展：这一部分进展有限，但预示着 AI 领域还有更多激动人心的发展。

任何物体分割模型（SAM）：Meta AI 推出了 SAM，这是一个强大的分割模型，能够在无需额外训练的情况下提取图像中的物体，展示了其出色的适应性。SAM 在大型数据集上的训练证明了它在物体分割方面的高效能力。

直接偏好优化（DPO）：DPO 的出现标志着一种稳定且高效的方法，用于微调大规模无监督的大语言模型（LLM）和教授文本到图像模型。DPO 能够在不依赖复杂的基于人类反馈的强化学习（RLHF）的情况下实现精确控制。

Zephyr 直接蒸馏 LM 对齐：Zephyr-7B 是直接偏好优化（dDPO）的成果，它为带有 70 亿参数的聊天模型树立了新的标准，通过减少训练量提高了意图识别的准确性。

自主 AI 智能体： 自主 AI 智能体的兴起标志着向高级自主 AI 系统的重大转变。这些 AI 智能体被视为通用人工智能的雏形，它们能够根据用户的目标自动生成任务和指令，并自主完成直至达成目标。

EvoDiff：微软的 EvoDiff 是一个开源 AI 框架，专注于快速且成本效益的蛋白质生成，有望在治疗和工业应用领域带来突破。

Stable Audio：Stability AI 发布一款可以根据简单文本提示生成短而高质量音频片段的工具。

GPT 商店，版权屏障，ChatGPT 机器人构造器：OpenAI 推出 GPT 商店来销售定制化的 GPT 机器人，版权屏障用于承担版权侵权索赔的法律费用，以及一个无需编程的平台，用于创建定制化的 ChatGPT 版本。

Stability AI 开源其大语言模型（LLM）: Stability AI 已开源其模型，包括 StableLM-Alpha 和 Stable Vicuna。这些模型在文本和代码生成方面表现卓越。特别是 Stable Vicuna，它是首个采用人类反馈强化学习（RLHF）训练的开源聊天机器人。另外，Stability AI 还推出了 SDXL Turbo，这是一款能实时将文本转换为图像的生成模型。

三、企业并购与合作

在 2023 年这个充满活力的年份，行业领袖之间形成了一系列影响深远的合作关系，这些合作正在塑造未来的发展方向。以下是今年在 AI 领域具有里程碑意义的几个重要合作和联合：

Stability AI 和 Init ML

Stability AI 通过收购了 Init ML，这是受欢迎的编辑应用 ClipDrop 背后的关键团队，其目的是将 Stability AI 的先进技术融入到 ClipDrop 的生态系统中。这次合作已催生了 SDXL Turbo 的开发。

Runway 和 Getty Images

Runway 与 Getty Images 建立了战略合作伙伴关系，共同推出了一款新的视频生成模型 RGM （Runway 和 Getty Images 联合模型）。这一模型结合了 Runway 的 AI 技术和 Getty Images 庞大的授权创意内容库。这一合作旨在彻底改变内容创作的流程，帮助企业制作符合品牌特色的高质量定制视频。

Snowflake 和 Neeva

作为数据仓库平台的重要玩家，Snowflake 收购了 Neeva，这是一家以利用生成式 AI 改善搜索体验而知名的初创公司。Neeva 最近结束了其基于订阅的、无广告的搜索引擎服务。Neeva 的创始人也承认了让用户尝试新搜索引擎的难度。

Shutterstock 和 OpenAI

Shutterstock 和 OpenAI 确定了为期六年的深化合作关系。OpenAI 获得了 Shutterstock 高质量数据的使用权，以此来丰富其模型训练的数据集，包括多种图像、视频和音乐资源。Shutterstock 则继续利用 OpenAI 的技术，推出了 Shutterstock 的 AI 图像生成工具。

四、AI 引起的一些争议

2023 年，人工智能领域的辩论和讨论异常活跃，涉及到许多不确定性和该领域不断变化的规则。随着行业自身的发展，这样的辩论变得在所难免，预示着未来将有更多引发深思的对话和挑战。以下是今年最为引人注目的几场辩论：

对 ChatGPT 的企业限制

主要的金融机构，包括摩根大通、花旗集团、美国银行、德意志银行、高盛和富国银行等，已经限制了 ChatGPT 的使用，原因是出于对安全和隐私的担忧。这反映出一个更广泛的趋势：众多公司开始向员工发出警告，提醒他们在企业环境中使用人工智能应用时要考虑到相关的法律问题。

OpenAI 对低薪工人的使用

《时代》杂志的调查揭露了 OpenAI 与 Sama 的合作，在肯尼亚雇佣低薪工人来筛选 ChatGPT 的敏感内容。这一事件引发了人们对工人待遇以及内容审核对心理健康影响的伦理关切。

OpenAI 的领导层变动

Sam Altman 的暂时离职和迅速回归上个月成为热门新闻。Sam Altman 由于与董事会的沟通问题而辞去 OpenAI 的领导职务，接着发生了一系列领导层变动。临时 CEO Mira Murati 和大部分员工都支持 Altman 重返领导岗位。这一意外事件引起了广泛关注，也让人们对这次领导层变动的真正原因及其对未来的影响产生了疑问。

Adobe 和 Figma

Adobe 计划以 200 亿美元收购 Figma 的消息引起了监管机构的关注，欧盟委员会和英国竞争与市场管理局因可能存在反垄断问题而开始调查。这项拟议的交易不仅仅是设计层面的问题，Adobe 在客户数据平台方面的主导地位也让许多首席信息官（CIOs）担忧它可能对云计算软件的消费产生重大影响。但由于在欧洲和英国难以获得反垄断审批，Adobe 最终放弃了这项交易，并向 Figma 支付了 10 亿美元的终止费。

摄影师在世界摄影大赛中以 AI 作品引起争议

摄影师 Boris Eldagsen 在索尼世界摄影大奖中引发轰动，他提交了由 AI 创作的艺术作品。Eldagsen 拒绝接受奖项，这激发了一场关于 AI 生成图像是否适合参加传统摄影竞赛的讨论，这也挑战了人们对于摄影作品真实性和创造性的传统观念。

五、预测：未来一年可能发生什么？

好莱坞级别的作品会使用生成式 AI 制作视觉效果。
一家生成式 AI 媒体公司因其在 2024 年美国选举期间的滥用而受到调查。
自我改进的 AI 代理在复杂的环境中击败 SOTA。
科技 IPO 市场回温，我们看到至少有一家专注于 AI 的公司上市。
生成式 AI 扩展热潮见证了一个团队花费超过 10 亿美元来训练一个大型模型。
美国联邦贸易委员会或英国竞争与市场管理局以竞争为由调查微软/OpenAI 交易。
全球 AI 治理方面取得的进展有限，仅限于高层的自愿承诺。
金融机构推出 GPU 债务基金，以取代用于计算资金的 VC 股权美元。

一首由 AI 生成的歌曲进入 Billboard 百强单曲榜前 10 名或 Spotify 热门歌曲 2024。
随着推理工作负载和成本大幅增长，一家大型 AI 公司收购了一家专注于推理的 AI 芯片公司。

Everypixel Journal 的年度报告来自 X 用户 @ 宝玉翻译的版本。

本文来自微信公众号：Founder Park（ID：Founder-Park），作者：Founder Park