本文来自微信公众号:硅星人 (ID:guixingren123),作者:光谱、杜晨,编辑:VickyXiao,头图来自:视觉中国
无数创业产品和业余项目出现,谷歌、字节等巨头公司也都纷纷入局——最近 AI 创作这条赛道有多拥挤,已经无需多言。
所有参赛选手当中,最火的一家莫过于 Stable Diffusion。该项目背后的公司之一 Stability AI,也成为了行业的当红炸子鸡。号称“要让10亿人用上开源大模型”的它,前不久刚刚完成了1亿美元融资,估值达到10亿美元跻身独角兽行列,
然而就在上周,Stable Diffusion 项目,以及这家风头正劲的公司,突然接连卷入两场争议:
不仅被艺术创作者“群起而攻之”,还被合作伙伴“反水”,被质疑“抢功”……
偷风格,算偷吗?
上周,美国媒体 CNN 采访了多位艺术家。这些受访者愤怒地表示:无法接受 Stable Diffusion 用他们的作品,却砸他们的饭碗。
这些艺术家的作品,或者更准确来说,他们在作品中所体现的风格,都被 Stable Diffusion 用于训练模型了。
受访者之一是在艺术节有一定知名度的油画家 Erin Hanson。她的油画作品用色风格非常独特,采用了更加多样化、具有视觉冲击力的色彩,且饱和度极高,已经在艺术圈内形成了个人特色。
前段时间 Stable Diffusion 爆红之后,Hanson 注意到有人用这个模型生成的一些图片结果,竟然有自己作品的味道。
经过进一步调查,她更加惊讶了:用户甚至可以在生成图片的时候,直接输入“Erin Hanson 风格”作为文字提示的一部分。Stable Diffusion 生成的结果,和 Hanson 已经发表的作品几乎一模一样……
如果不注意画中 Hanson 的签名水印的话,你可能完全会以为两张都是 Hanson 的亲笔创作:
但其实左边有签名水印的才是 Hanson 的正版作品 "Crystalline Maples";右边则是 CNN 记者通过 Stable Diffusion 生成的结果,使用的文字提示包括:水晶油画,光和影,背光的树,强烈轮廓,彩色玻璃,现代印象派,Erin Hanson 风格等。
“如果我把它挂在我的墙上,应该毫不违和吧?”Hanson 对 Stable Diffusion 的“创作能力”表示相当惊讶。
但在仔细研究了 Stable Diffusion 工作机制之后,她才明白过来:这个 AI 模型根本没有自己的创作能力。
因为它的风格,属实是“抄”来的。
Stable Diffusion 是一个具备文字转图片/视频能力的生成模型,可以用几秒钟时间就生成高分辨率、具备真实性和/或“艺术性”的视觉结果。在训练方面,这个模型的初代版本采用了大约4000台A100显卡集群,用了一个月的时间。
而它的训练数据,则来自于德国AI非营利机构 LAION(全称大规模人工智能开放网络)。初代版本所采用的的训练数据集,包括了近60亿条图片-文字平行数据。
很多和 Henson 一样感到愤怒的艺术家们发现,原来是自己的作品,以及对应的文字平行数据(比如姓名),被收录到了 LAION 相关数据集里——才导致了自己的作品和风格,被这个爆红的 AI 创作模型所“剽窃”。
从网上大规模搜集资料作为 AI 模型的训练数据,早已不是什么新鲜事。事实上,今天我们正在使用的很多基于 AI 的技术和产品,包括并不限于搜索引擎、短视频推荐算法、翻译、图像识别等,背后的模型在训练阶段都重度使用了一些知名数据集。
这些数据集的内容,绝大多数是没有版权/使用目的限制的,无论最终是商业还是非商业目的,任何人都可以使用,只需要遵守相应的来源引用和使用规范即可。
一些比较常用的图片数据集举例 图片来源:Triantafillou et al. in Meta-Dataset: A Dataset of Datasets for Learning to Learn from Few Examples
不过,随着AI技术越来越先进,应用领域越来越多样,新的使用场景(比如今天讨论的AI文字生成图片)就对更大规模的训练数据集,更多来自公开网域的各种形式(文字、图片、音频、视频等)的信息和资料,产生了巨大的需求。
当数据集从几万,几十万张图片,“扩容”到几亿甚至几十亿张的规模时,这一过程当中,难免存在一些权利方面的漏洞。
而今天这些出离愤怒的艺术家们,就成为了权利漏洞,以及利用这些漏洞进行商业化获益行为的受害者。
他们的愤怒并非没有理由。
毕竟 AIGC(AI生成内容)这一或将导致艺术家们失业的新技术领域,已经成为现如今科技创业的大热门,无数创业者、投资人疯狂涌入。结果夺走他们工作的这个玩意儿,居然正是用他们的创作风格所训练出来的。
本来艺术家们已经是一个普遍比较拮据的群体了。现在这些 AI 端了人家的碗,还要砸人家的锅——你说他们能不生气么……
在艺术家和版权人士的呼吁和努力之下,现在已经有人开发出了一些工具,帮助权利人在大型数据集当中搜索自己主张权利的作品。
比如 LAION 自己做了一个网页工具可以把文字转换为 CLIP embedding,用于搜索描述相同或者相似的内容。
再比如还有一个取名很巧妙的网站,叫做“Have I Been Trained”,帮助创作者搜索 LAION 数据集,查看自己的作品是否被用于训练了。
“Have I Been Trained” 的背后是一对居住在德国的艺术家和开发者,他们表示:在帮助艺术家确认自己的作品是否被大规模数据集收录之余,他们很快还将发布一套新的工具,允许艺术家能够自主选择作品是否被数据集所收录。为此,这两位开发者已经和多家从事大规模 AI 模型研发的机构和公司进行了接洽。
对于“艺术家应该掌握作品是否被收录控制权”这件事,Stability.AI 和 LAION 也表示同意。
然而即便如此,Stable Diffusion 也只是众多 AIGC 类模型的其中一个而已。还有更多模型/产品/项目处于未开源状态,艺术家和权利人想要正当维护自己的权益,所面临的挑战和阻碍,只会随着时间变得更多和更艰难。
直到这一问题在全行业通过规范或制度解决之前,Stable Diffusion,以及包括 DALL·E 2、Midjourney 等在内的主流模型,仍将作为“AI侵权”指控的对象长期存在。
多方心血,一家独占?
由于 Stability AI 这家公司在过去一直正面和侧面将自己宣传为 Stable Diffusion 项目幕后的功臣,像侵权这样的锅,也被该公司背上了。
然而侵权只是 Stability AI 当前面临的诸多烦恼之一。就在前不久该公司完成1亿美元融资,正式晋升为独角兽之际,它突然发现:
正因为揽了太多的功劳,过去一起做项目的好伙伴,对自己意见很大……
故事要先从上周四说起:一家名叫 Runway ML 的公司,在 Twitter 账号上表示发布了 Stable Diffusion 1.5 版本。
网友一下子懵了:
等一下,你们这是正式版吗?为啥 Stability AI 没有任何公开宣布或者支持呢?
你们这个是 Stability AI 做的么?
紧接着就在发布当天,发布网站 Hugging Face 透露,收到了来自 Stability AI 的删除请求:
Stability AI 表示 这个版本属于其“知识产权泄露”,并要求 Hugging Face 下架这一发布……
就连 Hugging Face 自己也懵了,因为这样的请求过去几乎从没有过。它在这个删除请求下面加了一行字:为了保证过程透明公开,请这个repo的所有者(Runway)和Stability AI 提供更多资料……
这究竟是怎么一回事呢?
首先我们需要再回顾一下 Stable Diffusion 的来历:
需要明确的是,Stable Diffusion 的技术本身,其实来自于慕尼黑大学机器视觉学习组,和 Runway 公司。
今年的 CVPR22 大会上,这些研究者共同发表了一篇论文,研究的是潜伏扩散模型,论文的名字叫做 High-Resolution Image Synthesis with Latent Diffusion Models。正是这篇论文里的研究,在后来成为了 Stable Diffusion 模型的理论技术基础。
从论文署名可以看到,除了 Esser 是 Runway 旗下研究部门的首席研究科学家之外,其他作者的隶属单位均为慕尼黑大学——也就是说,至少在论文发表的时候所有作者当中,没有一人属于 Stability AI。
可要是这样的话,Stability AI 又是怎么跟这事儿攀上关系的呢?
Runway 公司的 CEO Cristóbal Valenzuela 透露了真相:
(1)基础版本的技术,或者说论文,是慕尼黑大学和 Runway 一起搞的;
(2)Stable Diffusion,也就是对基础版本进行重新训练后得到发布的正式版本,仍然是 Esser 和 Rombach(论文的两位主要作者)二人主要开发的;
(3)这个模型早在去年就正式开源了;
(4)Stability AI 在整个过程中做出的贡献仅限于:为正式版本的训练提供算力。
而结合行业流传的比较靠谱的消息,以及 Stability AI 创始人兼 CEO Emad Mostaque 的表述,我们了解的情况是:
所谓的算力,就是 Mostaque 个人出钱买了四千张A100显卡……
以及,对于 Stable Diffusion 重新训练所依赖的数据集 LAION-5B,Stability AI 也是这一其组织创建工作的出资人之一。
不管怎么样,总的来说,包括 Runway、Stability AI、慕尼黑大学等在内的几家参与方,大家在 Stable Diffusion 的发布工作中的贡献都是平等的。最一开始并不存在,也不应该存在一家独大的情况……
但是比较遗憾的是,在后续围绕整个 Stable Diffusion 项目的营销、宣传,以及运营工作当中,Stability AI 以及创始人 Mostaque,或多或少地突出甚至夸大了自己一方的贡献和价值——对行业内外的用户,以及媒体和公众,都造成了不实的印象。
事实上,Stability AI 这家公司,自己也在开源的 Stable Diffusion 基础之上,开发了一个自己的网页端应用 DreamStudio Lite——从这一维度,和其它也做了类似事情的公司和团队相比,Stability AI 跟它们并无实质区别。
在 Valenzuila 站出来“硬刚” Stability AI 之后,底下的留言也基本一边倒向了 Runway 这边……
网友纷纷表扬这位 CEO是“gigachad”(超级猛男)。
很快,Stability AI 也撤回了删除请求。
但该公司并没有“示弱”。公司新任首席信息官 Dan Jeffries 暗戳戳地写了一篇文章,指责被合作伙伴“抢跑” 1.5 版本的做法非常不负责任。同时他又扔出了一套十分夸张的说法,大意是:
我们不发1.5版本,是因为我们收到了监管部门和公众的意见,认为我们的模型不安全,会伤害到别人。所以我们接下来的主要任务是搞好安全。
这里的“安全问题”主要指的是模型被用于制作 NSFW 内容、Deepfake 等。而 Hugging Face 上讨论此事网友对这篇文章表示:装什么大尾巴狼呢?前几个版本都有问题怎么你们照发不误呢?如果真要打击 NSFW 的话,那是不是 Photoshop 和视频制作软件都别发新版本了?
在 Hugging Face 的帖子被关闭之前,仍然有极少数人站在 Stability AI 这边,大意是说 Runway 这个做法不体面,一个真正“稳定”的版本应该大家一起商量发布,更何况 Stable Diffusion 这个命名,本身就印证着它跟 Stability AI 有巨大的关系。
然而现在来看,Stability AI 和 Stable Diffusion 这两个名字,谁蹭谁的热度还不好说呢。
本文来自微信公众号:硅星人 (ID:guixingren123),作者:光谱、杜晨,编辑:VickyXiao