侵权、抢功争议不断，Stability AI陷入漩涡

本文来自微信公众号：硅星人（ID：guixingren123），作者：光谱、杜晨，编辑：VickyXiao，头图来自：视觉中国

无数创业产品和业余项目出现，谷歌、字节等巨头公司也都纷纷入局——最近 AI 创作这条赛道有多拥挤，已经无需多言。

所有参赛选手当中，最火的一家莫过于 Stable Diffusion。该项目背后的公司之一 Stability AI，也成为了行业的当红炸子鸡。号称“要让10亿人用上开源大模型”的它，前不久刚刚完成了1亿美元融资，估值达到10亿美元跻身独角兽行列，

然而就在上周，Stable Diffusion 项目，以及这家风头正劲的公司，突然接连卷入两场争议：

不仅被艺术创作者“群起而攻之”，还被合作伙伴“反水”，被质疑“抢功”……

偷风格，算偷吗？

上周，美国媒体 CNN 采访了多位艺术家。这些受访者愤怒地表示：无法接受 Stable Diffusion 用他们的作品，却砸他们的饭碗。

这些艺术家的作品，或者更准确来说，他们在作品中所体现的风格，都被 Stable Diffusion 用于训练模型了。

受访者之一是在艺术节有一定知名度的油画家 Erin Hanson。她的油画作品用色风格非常独特，采用了更加多样化、具有视觉冲击力的色彩，且饱和度极高，已经在艺术圈内形成了个人特色。

前段时间 Stable Diffusion 爆红之后，Hanson 注意到有人用这个模型生成的一些图片结果，竟然有自己作品的味道。

经过进一步调查，她更加惊讶了：用户甚至可以在生成图片的时候，直接输入“Erin Hanson 风格”作为文字提示的一部分。Stable Diffusion 生成的结果，和 Hanson 已经发表的作品几乎一模一样……

如果不注意画中 Hanson 的签名水印的话，你可能完全会以为两张都是 Hanson 的亲笔创作：

图片来源：Erin Hanson（左）、Rachel Metz via Stable Diffusion（右）

但其实左边有签名水印的才是 Hanson 的正版作品 "Crystalline Maples"；右边则是 CNN 记者通过 Stable Diffusion 生成的结果，使用的文字提示包括：水晶油画，光和影，背光的树，强烈轮廓，彩色玻璃，现代印象派，Erin Hanson 风格等。

“如果我把它挂在我的墙上，应该毫不违和吧？”Hanson 对 Stable Diffusion 的“创作能力”表示相当惊讶。

但在仔细研究了 Stable Diffusion 工作机制之后，她才明白过来：这个 AI 模型根本没有自己的创作能力。

因为它的风格，属实是“抄”来的。

Stable Diffusion 是一个具备文字转图片/视频能力的生成模型，可以用几秒钟时间就生成高分辨率、具备真实性和/或“艺术性”的视觉结果。在训练方面，这个模型的初代版本采用了大约4000台A100显卡集群，用了一个月的时间。

而它的训练数据，则来自于德国AI非营利机构 LAION（全称大规模人工智能开放网络）。初代版本所采用的的训练数据集，包括了近60亿条图片-文字平行数据。

很多和 Henson 一样感到愤怒的艺术家们发现，原来是自己的作品，以及对应的文字平行数据（比如姓名），被收录到了 LAION 相关数据集里——才导致了自己的作品和风格，被这个爆红的 AI 创作模型所“剽窃”。

从网上大规模搜集资料作为 AI 模型的训练数据，早已不是什么新鲜事。事实上，今天我们正在使用的很多基于 AI 的技术和产品，包括并不限于搜索引擎、短视频推荐算法、翻译、图像识别等，背后的模型在训练阶段都重度使用了一些知名数据集。

这些数据集的内容，绝大多数是没有版权/使用目的限制的，无论最终是商业还是非商业目的，任何人都可以使用，只需要遵守相应的来源引用和使用规范即可。

一些比较常用的图片数据集举例图片来源：Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples

不过，随着AI技术越来越先进，应用领域越来越多样，新的使用场景（比如今天讨论的AI文字生成图片）就对更大规模的训练数据集，更多来自公开网域的各种形式（文字、图片、音频、视频等）的信息和资料，产生了巨大的需求。

当数据集从几万，几十万张图片，“扩容”到几亿甚至几十亿张的规模时，这一过程当中，难免存在一些权利方面的漏洞。

而今天这些出离愤怒的艺术家们，就成为了权利漏洞，以及利用这些漏洞进行商业化获益行为的受害者。

他们的愤怒并非没有理由。

毕竟 AIGC（AI生成内容）这一或将导致艺术家们失业的新技术领域，已经成为现如今科技创业的大热门，无数创业者、投资人疯狂涌入。结果夺走他们工作的这个玩意儿，居然正是用他们的创作风格所训练出来的。

本来艺术家们已经是一个普遍比较拮据的群体了。现在这些 AI 端了人家的碗，还要砸人家的锅——你说他们能不生气么……

在艺术家和版权人士的呼吁和努力之下，现在已经有人开发出了一些工具，帮助权利人在大型数据集当中搜索自己主张权利的作品。

比如 LAION 自己做了一个网页工具可以把文字转换为 CLIP embedding，用于搜索描述相同或者相似的内容。

再比如还有一个取名很巧妙的网站，叫做“Have I Been Trained”，帮助创作者搜索 LAION 数据集，查看自己的作品是否被用于训练了。

“Have I Been Trained” 的背后是一对居住在德国的艺术家和开发者，他们表示：在帮助艺术家确认自己的作品是否被大规模数据集收录之余，他们很快还将发布一套新的工具，允许艺术家能够自主选择作品是否被数据集所收录。为此，这两位开发者已经和多家从事大规模 AI 模型研发的机构和公司进行了接洽。

对于“艺术家应该掌握作品是否被收录控制权”这件事，Stability.AI 和 LAION 也表示同意。

然而即便如此，Stable Diffusion 也只是众多 AIGC 类模型的其中一个而已。还有更多模型/产品/项目处于未开源状态，艺术家和权利人想要正当维护自己的权益，所面临的挑战和阻碍，只会随着时间变得更多和更艰难。

直到这一问题在全行业通过规范或制度解决之前，Stable Diffusion，以及包括 DALL·E 2、Midjourney 等在内的主流模型，仍将作为“AI侵权”指控的对象长期存在。

多方心血，一家独占？

由于 Stability AI 这家公司在过去一直正面和侧面将自己宣传为 Stable Diffusion 项目幕后的功臣，像侵权这样的锅，也被该公司背上了。

然而侵权只是 Stability AI 当前面临的诸多烦恼之一。就在前不久该公司完成1亿美元融资，正式晋升为独角兽之际，它突然发现：

正因为揽了太多的功劳，过去一起做项目的好伙伴，对自己意见很大……

故事要先从上周四说起：一家名叫 Runway ML 的公司，在 Twitter 账号上表示发布了 Stable Diffusion 1.5 版本。

网友一下子懵了：

等一下，你们这是正式版吗？为啥 Stability AI 没有任何公开宣布或者支持呢？

你们这个是 Stability AI 做的么？

紧接着就在发布当天，发布网站 Hugging Face 透露，收到了来自 Stability AI 的删除请求：

Stability AI 表示这个版本属于其“知识产权泄露”，并要求 Hugging Face 下架这一发布……

就连 Hugging Face 自己也懵了，因为这样的请求过去几乎从没有过。它在这个删除请求下面加了一行字：为了保证过程透明公开，请这个repo的所有者（Runway）和Stability AI 提供更多资料……

这究竟是怎么一回事呢？

首先我们需要再回顾一下 Stable Diffusion 的来历：

需要明确的是，Stable Diffusion 的技术本身，其实来自于慕尼黑大学机器视觉学习组，和 Runway 公司。

今年的 CVPR22 大会上，这些研究者共同发表了一篇论文，研究的是潜伏扩散模型，论文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是这篇论文里的研究，在后来成为了 Stable Diffusion 模型的理论技术基础。

从论文署名可以看到，除了 Esser 是 Runway 旗下研究部门的首席研究科学家之外，其他作者的隶属单位均为慕尼黑大学——也就是说，至少在论文发表的时候所有作者当中，没有一人属于 Stability AI。

可要是这样的话，Stability AI 又是怎么跟这事儿攀上关系的呢？

Runway 公司的 CEO Cristóbal Valenzuela 透露了真相：

（1）基础版本的技术，或者说论文，是慕尼黑大学和 Runway 一起搞的；

（2）Stable Diffusion，也就是对基础版本进行重新训练后得到发布的正式版本，仍然是 Esser 和 Rombach（论文的两位主要作者）二人主要开发的；

（3）这个模型早在去年就正式开源了；

（4）Stability AI 在整个过程中做出的贡献仅限于：为正式版本的训练提供算力。

而结合行业流传的比较靠谱的消息，以及 Stability AI 创始人兼 CEO Emad Mostaque 的表述，我们了解的情况是：

所谓的算力，就是 Mostaque 个人出钱买了四千张A100显卡……

以及，对于 Stable Diffusion 重新训练所依赖的数据集 LAION-5B，Stability AI 也是这一其组织创建工作的出资人之一。

不管怎么样，总的来说，包括 Runway、Stability AI、慕尼黑大学等在内的几家参与方，大家在 Stable Diffusion 的发布工作中的贡献都是平等的。最一开始并不存在，也不应该存在一家独大的情况……

但是比较遗憾的是，在后续围绕整个 Stable Diffusion 项目的营销、宣传，以及运营工作当中，Stability AI 以及创始人 Mostaque，或多或少地突出甚至夸大了自己一方的贡献和价值——对行业内外的用户，以及媒体和公众，都造成了不实的印象。

事实上，Stability AI 这家公司，自己也在开源的 Stable Diffusion 基础之上，开发了一个自己的网页端应用 DreamStudio Lite——从这一维度，和其它也做了类似事情的公司和团队相比，Stability AI 跟它们并无实质区别。

在 Valenzuila 站出来“硬刚” Stability AI 之后，底下的留言也基本一边倒向了 Runway 这边……

网友纷纷表扬这位 CEO是“gigachad”（超级猛男）。

很快，Stability AI 也撤回了删除请求。

但该公司并没有“示弱”。公司新任首席信息官 Dan Jeffries 暗戳戳地写了一篇文章，指责被合作伙伴“抢跑” 1.5 版本的做法非常不负责任。同时他又扔出了一套十分夸张的说法，大意是：

我们不发1.5版本，是因为我们收到了监管部门和公众的意见，认为我们的模型不安全，会伤害到别人。所以我们接下来的主要任务是搞好安全。

这里的“安全问题”主要指的是模型被用于制作 NSFW 内容、Deepfake 等。而 Hugging Face 上讨论此事网友对这篇文章表示：装什么大尾巴狼呢？前几个版本都有问题怎么你们照发不误呢？如果真要打击 NSFW 的话，那是不是 Photoshop 和视频制作软件都别发新版本了？

在 Hugging Face 的帖子被关闭之前，仍然有极少数人站在 Stability AI 这边，大意是说 Runway 这个做法不体面，一个真正“稳定”的版本应该大家一起商量发布，更何况 Stable Diffusion 这个命名，本身就印证着它跟 Stability AI 有巨大的关系。

然而现在来看，Stability AI 和 Stable Diffusion 这两个名字，谁蹭谁的热度还不好说呢。

本文来自微信公众号：硅星人（ID：guixingren123），作者：光谱、杜晨，编辑：VickyXiao

侵权、抢功争议不断，Stability AI陷入​漩涡