生成式AI是工具，真正的原创者还在反击 - 葱头胖友圈

近日，北京互联网法院有关人工智能生成图片版权归属的一项裁决，迈出了生成式AI发展历史上具有里程碑意义的一步。

案件本身并不复杂；原告使用AI生成图片，发布于某社交平台上；被告发布文章时使用了该图片，原告因此起诉。

案件的核心点在于：使用人工智能创作的内容，是否构成作品，并享有著作权？

对此，北京互联网法院认为，涉案人工智能生成图片具备“独创性”要件，体现了人的独创性智力投入，应当被认定为作品，受到著作权法保护等。

“现阶段，AI仍只是工具”

生成式人工智能自诞生之日起，其版权归属问题一直引发热议。一般而言，著作权通常归属于创作者，但在人工智能生成内容的情境下，“创作者”的定义边界变得更加模糊。

一种观点主张，AI及其生成的内容版权归属，应该类似于照相机和照片之间的关系，即照相机在制作初始图像时做了大量的机械工作，人类摄影师做出各种决定（主题、构图、布光、后期等）才决定了最终的结果。同样地，使用AI来生成内容的创作者，不仅仅是点击几次按钮而已，而是需要尝试不同的提示词，做出多种组合，并对生成结果做适当的编辑和组合，才得到了最终的结果。

在上述案件中，北京互联网法院认为：从原告构思涉案图片起，到最终选定涉案图片止，整个过程来看，原告进行了一定的智力投入，比如设计人物的呈现方式、选择提示词、安排提示词的顺序、设置相关的参数、选定哪个图片符合预期等。涉案图片体现了原告的智力投入，具备了“智力成果”要件。

法院认为，现阶段，“人们利用人工智能模型生成图片时......本质上仍然是人利用工具进行创作，即整个创作过程中进行智力投入的是人而非人工智能模型。鼓励创作，被公认为著作权制度的核心目的......人工智能生成图片，只要能体现出人的独创性智力投入，就应当被认定为作品，受到著作权法保护。”

但这一判决，没有穿透至“真正的原创者”：生成式AI在训练中，用到的原作者的作品，同样存在保护问题。如果使用大模型生成图片的原告，都可以主张权益，那么，那些受到保护的著作权人，在作品被用于大模型的训练时，难道不可以主张自己的权益吗？

“以变革性方式使用受保护内容并不构成侵权”

国外关于生成式AI是否构成侵权的争议，更多地落在用于训练大模型的数据集是否利用了受版权保护的内容，从而造成了侵权这一点上。

今年7月至9月间，包括《权力的游戏》原著作者乔治·马丁、好莱坞编剧萨拉·西弗曼在内的一众作者，和美国作家协会一起，陆续提起了多桩诉讼，他们的主要诉求是：OpenAI和Meta公司在未经许可或未支付报酬的情况下批量复制他们的作品，并将受版权保护的材料输入大型语言模型。对这些作者而言，ChatGPT等大模型的每一次输出都是一个侵权衍生作品。

美国作家协会声称，OpenAI公司在未经许可或未支付报酬的情况下批量复制他们的作品，并将受版权保护的材料输入大型语言模型。“这些算法是被告企业的核心，而算法的核心则来源于大规模、系统性的窃取。”

起诉书称，OpenAI的大型语言模型允许任何人总结或改写书籍的衍生作品，这可能会损害作家的利益。

这不是生成式人工智能第一次遇到此类诉讼。今年7月，有两位美国作家对OpenAI提起了类似的诉讼，同样声称他们的书籍在未经同意的情况下，被用来训练该公司的聊天机器人。

此外，2月Getty Images起诉Stability AI，指控这家文本转图像生成器公司复制了其1200万张图像作为训练数据。1月，Stability AI、Midjourney和DeviantArt因其人工智能图像生成器的版权问题，同样遭受集体诉讼。

对此，OpenAI辩称，作者们“误解了版权的范围，没有考虑到限制和例外（包括合理使用），而这些限制和例外为创新留下了空间，例如目前处于人工智能前沿的大型语言模型”。此外，作者的书籍只是ChatGPT庞大数据集的“一小部分”，“创新者以变革性方式使用受版权保护的材料并不侵犯版权”。因此，OpenAI认为，任何与作者作品相关的ChatGPT输出都类似于“图书报告或评论”。

此类诉讼的最新进展是，当地时间11月21日，一名联邦法官驳回了西弗曼提起的大部分诉讼：“没有指控或证据表明LLaMA模型已经根据现有的受版权保护的作品进行了重铸、改造或改编”。

但这并非最终的结论。

大模型是否真正进行了创作？

有人认为，生成式AI系统只是一种“21世纪的拼贴工具”，将其算法吸收的内容片段拼接在一起，而非产生独特的输出。

持有这一观点的人对生成式AI的工作原理理解不够充分。事实上，生成式AI是一类能够生成新的、原创性内容的技术，其主要特点是具备学习和创造的能力，生成式AI系统使用大量的训练数据来创建复杂的预测模型，并应用这些预测模型来生成新颖的、此前未见过的内容。因此，其在许多领域都具有创造性和创新性，例如艺术创作、自然语言生成、图像合成等。

那么，一个值得深刻探讨的问题是：生成式AI输出的内容，是精妙的模仿，是高科技的抄袭，还是真正的创作？

让ChatGPT自己回答下吧，看来也没有定论：

文生图模型如Midjourney和Stable Diffusion所使用的技术，被称为扩散模型，从初始的随机噪音分布开始，然后一层一层地“随机”地逼近对原作品的相似度——这是创作，是模仿，还是高科技的抄袭，或者如原告所说“是原作的衍生作品”？

目前，这是一个涉及法律、伦理和创作权的复杂问题，需要在法律和社会层面进行深入探讨。随着技术的不断发展，这些法律和伦理问题可能会变得更为复杂，未来必然需要更多的相关讨论和立法。

至少，在法律明确前，要保持足够的透明：大模型在训练中用到了哪些数据，需要清晰标注；大模型参与生成的内容，需要添加水印。

但在这一大变革的趋势下，那些拥有自己的作品和数据的公司，正在迅速学会使用生成式AI捍卫自己的权益，或者创新自己的业务模式。拥有大量金融数据的彭博，训练出了BloombergGPT。Adobe也用其获授权的作品，训练出了Firefly模型。

拥有最大图片库的Getty，用自己的图片数据，训练出了一个专有的图片生成模型，从中产生的图片，都会受到Getty的保护。它以后将鼓励其图片生成AI的用户，用自己的作品去训练出自己风格。

本文来自微信公众号：未尽研究（ID：Weijin_Research），作者：未尽研究