一、如果数据为王


大型语言模型的爆发,宣示生成式人工智能为历史翻开断代的一页,文明和社会的底层逻辑正在悄然切换。OpenAI推出的ChatGPT代表当下生成式大语言模型的顶点,Stability AI推出的Stable Diffusion和Midjourney就代表生成式图像模型的高峰。


不论模型设计的技术水平有多高,现阶段技术条件下数据训练质量对AI性能都具有决定性影响。ChatGPT模式是典型的大力出奇迹,3.5版本以来通过千亿级别的数据暴力训练,终于涌现出通过图灵测试的智能;Stable Diffusion和Midjourney代表的图像模型同样需要大量素材喂养。


庞大的训练数据是人工智能模型生成理想结果的基础,海量的训练素材中必然同时包括不受版权保护的公有信息以及受版权保护的作品数据。人工智能为法律带来的难题远不止AI生成内容是否可以受版权保护,早在AI训练阶段数据使用的合法性分析就已经成为重大争议。


严格来说,生成式人工智能在训练数据环节面临的问题不止数据版权,也涉及个人信息以及隐私权、人格(如肖像权)、商业秘密权以及不正当竞争等法律风险。但数据训练真正的法学争议集中在版权,其它权益规范几乎都可以沿用已有法律框架,不论是国内《民法典》《个人信息保护法》《数据安全法》以及欧盟<DMCA>相关规定,及其权利人同意、公开透明、最小化利用等原则。


 二、人工智能数据训练的基础版权法规


“合理使用”是本文集中讨论的核心,涉及合理使用的全球立法会在专门章节讨论。以下部分列举和分析合理使用以外的训练数据版权规定。


(一)《著作权法》


第15条:汇编若干作品、作品的片段或者不构成作品的数据或者其他材料,对其内容的选择或者编排体现独创性的作品,为汇编作品,其著作权由汇编人享有,但行使著作权时,不得侵犯原作品的著作权。


第16条:使用改编、翻译、注释、整理、汇编已有作品而产生的作品进行出版、演出和制作录音录像制品,应当取得该作品的著作权人和原作品的著作权人许可,并支付报酬。


根据《著作权法》以上两条,不能单独构成作品的数据或其他材料同样有可能构成汇编作品,也就是互联网行业常用的数据库或者数据集合的概念。人工智能数据训练除了需要解决受著作权保护的作品的版权问题,数据集合的版权问题同样需要解决。


(二)《生成式人工智能服务管理暂行办法》


由网信办等部委联合发布的暂行办法第4条规定:“提供和使用生成式人工智能服务,应当……遵守以下规定:……(三)尊重知识产权”。


如果前述第4条规定提供生成式人工智能服务需要尊重知识产权的约定措辞还不够明确,那么再参照暂行办法第七条规定:“生成式人工智能服务提供者(以下称提供者)应当依法开展预训练、优化训练等训练数据处理活动,遵守以下规定:(一)使用具有合法来源的数据和基础模型;(二)涉及知识产权的,……”。


暂行办法直接规定生成式人工智能的训练数据处理活动需要使用具有合法来源的数据,不得侵害他人依法享有的知识产权,单独看几乎封闭了人工智能数据训练适用合理使用以及其它著作权保护例外的可能。


AI数据训练到底是否能适用合理使用或者著作权法保护例外,是足以影响技术发展和人类社会未来的重大问题,需要结合著作权法相关规定,同时站在AI数据训练的全球立法和司法实践以及未来技术和社会发展的宏观背景逐次递进地沿法理和逻辑分析。


三、数据输入阶段的版权分析


(一)行为分解的意义


按人工智能数据训练的数据输入和结果输出阶段分别进行版权合法性分析,是本文分析方法的一个特点。虽然大多数论文以及法律文本把AI数据训练行为作为一个整体进行判断,但针对数据输入和结果输出单独进行专门分析有很大参考意义。


1.  解构是为了更好的整体分析


数据输入、训练过程和结果输出,是完整的人工智能数据训练中前后衔接的三个阶段。准确分拆每个阶段是正确认识和评价每个阶段的前提,而正确评价每个阶段才能全面判断作为行为整体的数据训练。


人工智能数据训练的技术过程的法律后果,实际分别由数据输入和结果输出端吸收,即只需要对数据输入和结果输出两个阶段做法律评价。但是了解数据训练过程的技术实现方式,是对训练结果输出进行法律评价和正确适用法律分析的前提。


举一个例子,两位学生解同一道题做出相同答案。判断其中是否存在抄袭,不能只看做题结果而要追溯做题过程是否存在作弊。


2. 数据输入和结果输出相互独立


数据输入是模型训练的起点和过程,结果输出是对训练成果的使用。数据输入和结果输出不但在数据训练全过程中相互独立,甚至未必一一对应,可能在逻辑上脱链。比如为实现测试、校验、研究等目的,就可能只输入而不需要输出。


3. 分别适用法律规则


作为AI数据训练起点的数据输入本质上是复制行为,只需要适用影响复制权的相关规则即可进行评价。输出结果虽然理论上可包括复制,但“生成式”人工智能并不是复印机,生成式的本质就是按照指令生成新内容,复制直接违反了生成式技术的核心设定。即使发生小概率类似复制的输出也属于需要修正的程序出错。在已经发生针对AI创作成果的版权诉讼中,侵权争议指向均是改编或修改权


(二) 中国法对数据输入阶段的相关规定


如前所述,AI训练中数据输入的本质是复制。不经授权的大规模复制受版权保护作品训练人工智能,唯一可行的合法例外是合理使用。


中国对著作权合理使用的基本规定分别在《著作权法》和《著作权法实施条例》。


《著作权法》第24条规定:“在下列情况下使用作品,可以不经著作权人许可,不向其支付报酬,但应当指明作者姓名或者名称、作品名称,并且不得影响该作品的正常使用,也不得不合理地损害著作权人的合法权益:(一)为个人学习、研究或者欣赏,使用他人已经发表的作品;……(六)为学校课堂教学或者科学研究,翻译、改编、汇编、播放或者少量复制已经发表的作品,供教学或者科研人员使用,但不得出版发行。前款规定适用于对与著作权有关的权利的限制”。


《著作权法实施条例》第21条规定:“依照著作权法有关规定,使用可以不经著作权人许可的已经发表的作品的,不得影响该作品的正常使用,也不得不合理地损害著作权人的合法利益”。


依据以上两个法条,中国版权合理使用的判断需要符合著作权法第24条列举合理使用具体场景和事由之一,同时满足实施条例第21条规定的三步检验标准(即作品已发表、不影响作品正常使用、没有不合理损害著作权人利益)。实施条例的原则性规定借鉴美国版权法合理使用模式,具有很强的解释弹性和空间。著作权法第24条对合理使用则采取了刚性的具体列举,是AI数据输入阶段合理使用判断的关键条件,也是以下分析的重点。


依次分析前述著作权法第24条中第1和6两款列举规定。关于第六款,人工智能数据训练性质和“科学研究”倒是接近,但该款“少量复制”的规定和大规模数据训练的需要相冲突。因此适用第六款论证AI训练的数据输入可以适用合理使用,困难相当大。


第24条第1款规定的合理使用场景是“为个人学习、研究或者欣赏,使用他人已经发表的作品”。有专家认为该款对“个人”主体的限定使AI训练难以适用,但即使从《著作权法》分析“个人”主体的限定也并不能排除AI训练的适用。


1. 著作权法没有规定“个人”必须是自然人


一部法律总则对全部法条都有统摄作用。《著作权法》总则中第2条列举本法适用的法律主体包括:“中国公民、法人或者非法人组织”,其中并没有使用“个人”。中国公民是(中国籍)自然人概念的法律化,具有一致的指向。但著作权法总则没有把个人作为和组织并列的主体,即个人和公民(以及自然人)在著作权法上并不是必然等价的概念。


2. 著作权法使用的“个人”有充分的解释空间


除前引第24条(一)款“为个人学习、研究或者欣赏”的规定外,《著作权法》使用“个人”表述的还有第49条和第52条两处。


其中第49条第2款是对禁止破坏技术措施的规定:“未经权利人许可,任何组织或者个人不得故意避开或者破坏技术措施......”;第52条第1款是对禁止侵害署名权的规定:“有下列侵权行为的,应当根据情况,承担......等民事责任:......(三)没有参加创作,为谋取个人名利,在他人作品上署名的”。


根据上述第49条,个人和组织是并列的法律主体,单独从这一条看似乎支持个人和公民/自然人等同的理解。但是著作权法第52条又显然不支持个人和公民等同。


著作权法第12条对署名权主体的规定是:“在作品上署名的自然人、法人或者非法人组织”,所以署名权可以为所有主体平等行使。理论上侵害署名权和享有署名权的主体应该做一体解释,实践中以各类组织名义(包括院系、编写组、研究团队)署名现象普遍存在。那么不论主张组织不具有侵害署名权的能力,还是主张组织侵害署名权不受第52条限制,都是和现实和理论冲突。唯一可行的解释是第52条禁止侵害署名权规定中的个人,包括组织。


3. 类似情况适用参照规则


在著作权法总则没有限定甚至没有使用“个人”,且使用“个人”的不同条款含义不一致情况下,不能得出著作权法中的个人和公民/自然人等同的结论。因此著作权法第24条使用的“个人”不仅具有弹性解释的可能,而且可以适用对类似规范的参照。


事实上这里的参照可以是双向的。不但是第24条的“个人”可以参照“组织”的规定,第52条的“组织”也可以参照对“个人”的规定。


4. 实践需要扩大解释或参照适用


将学习、研究或者欣赏的合理使用范围扩大到自然人以外的主体,远不单是伦理问题而是现实已经发生的切实需要。试举一例,利用中国知网的CNKI论文进行查重,适用现行法律所遇到的法律争议之一就是主张以研究为目的的合理使用的主体适格性[i]


扩大解释著作权法第24条中的“个人”或者参照“组织”的范围适用,理论上没有障碍,实践中确有必需。


(三)合理使用立法模式对AI数据训练的影响


著作权合理使用立法有限定严格的列举模式,以及只规定判断原则的开放模式。显然开放模式的弹性和宽松度要大得多。中国著作权合理使用立法是以著作权法第24条的具体列举,加实施条例第21条的三步检验并行的模式。适用该种模式仍然以行为落入著作权法24条具体列举范围为条件,理论上不会比单纯列举模式的严格程度低。


由于列举模式的刚性,在人工智能发展初期阶段很难有提前立法覆盖AI数据训练全程,最多可以用来判断单个阶段的合理使用。唯有开放式合理使用可能直接适用从数据输入到结果输出的全过程。


韩国著作权法分别在第35条第2款规定了临时复制许可,在第3款规定了合理使用制度。该法第35条2条款规定:“使用者在计算机上使用作品时,使用者可以为稳定有效处理信息目的,在计算机上临时复制该作品。但是,本规定不适用于以侵权方式使用作品”[ii]。该款显然认可计算机临时复制属于侵权例外,而根据该款但书规定的排除条件,完整地判断人工智能训练的数据输入是否合法需要结合其它规定,即第3款的合理使用。


日本著作权法和韩国著作权法类似,在2018年修订版著作权法第47条之4款第1项规定了包括计算机缓存等临时复制的合理使用[iii],可以作为人工智能数据训练输入阶段的判断依据之一。同样,完整判断数据训练行为在日本是否可以适用合理使用,需要结合第30条4款以及第47条5款。


关于韩国与日本著作权法需要综合参考的条款,在以下第四部分“数据训练版权的整体式规定“中论及。


四、数据训练版权的整体式规定


开放式合理使用的著作权立法模式可以对人工智能数据训练全过程进行评价,除此之外对AI数据训练专门进行规定或者由相关部门专门解释也是一种模式。以下分别就各具有代表性的全球相关立法进行分析。


(一)美国版权法


1. 版权法107条


虽然英国是版权合理使用制度开山祖,但美国版权法第107条毫无疑问是迄今最重要的合理使用规则,深远影响了全球各国立法。美国版权法第107条对可以不经权利人授权使用他人作品的合理使用法定条件规定了著名的四要素/四步分析法,具体包括:


(1) 使用目的和性质,包括是否为商业目的或盈利的教育目的;


(2) 被使用作品的性质;


(3) 被使用内容相对于被使用作品整体的数量和重要性;


(4) 被使用作品因此受到潜在的市场影响;[iv]


2. 关于数据训练与合理使用的专家意见


埃默里大学(Emory)法学院法学教授马修·萨格(Matthew Sag)在2023年7月12日向美国参议院知识产权司法小组委员会“人工智能与知识产权”听证会提供一份非常有价值的专家证词[v],专门且有力地论述了如人工智能数据训练与版权法合理使用的关系。


萨格教授专家证词一个论述特点是将版权法不保护思想和事实的法律原则,与美国版权法第107条规定一并援引作为论证合理使用的依据。本文按中国著作权体例将著作权法不保护的范围与合理使用两项事由分开,在本文第五部分单独论述著作权不保护部分的范围。


萨格教授的证词观点鲜明、论证清晰而且做到一气呵成,以下完整引用主文中对合理使用的部分(专家证词附录部分还有展开论述,建议检索原文阅读)


萨格证词摘要:


利用受版权保护作品训练生成人工智能是非表达性使用,通常属于合理使用。


法院对反向工程、搜索引擎和抄袭检测软件等技术,倾向认为这些“非表达性使用”属于合理使用。这些案例反映了受保护的原创表达与不受保护的事实、想法、抽象和功能元素之间在版权上的根本区别。


训练LLM(注:大型语言模型,例如ChatGPT)是否属于非表达性用途取决于模型的输出结果。如果LLM经过适当训练并有适当保护措施,输出结果将不会与输入相似从而不会引发版权责任。以上情况下对受版权保护作品进行LLM培训符合合理使用规则。


生成式人工智能并不是为了复制原创而设计。[vi]


(二)欧盟立法


1. 欧盟立法结构


有必要先简单介绍欧盟关于人工智能数据训练相关立法的结构。形式上欧盟关于AI的立法由进入最后阶段的《人工智能法》(Artificial Intelligence Act,也译AI法案)和2019年发布的《关于数字单一市场版权及相关权的指令》(Directive (EU) 2019/790on copyright in the Digital Single Market,简称“DSM”)


从法案的关联性重要性来看和名正好相反,DSM指令对人工智能版权的影响远超过人工智能法。


欧洲议会在2021年就推出了《人工智能法》草案,居于全球人工智能立法的先行。但2021年草案中集中规定人工智能相关个人隐私和数据的保护,没有实质性规定知识产权问题。即使根据2023年6月欧盟发布针对《人工智能法》立法表决意见相关的欧盟议会人工智能立法立场[vii],依然对版权问题保持游离的态度。对欧盟前述立场的意见会在本文第五部分对数据训练结果输出讨论中提及。


2. DSM指令与TDM规则


DSM指令中与人工智能数据训练对应的行为,称为文本与数据挖掘(Text Data Mining,简称“TDM”)


合规实践和法律研究较多关注指令第3条和第4条对TDM的规定。指令第3条要求各成员国立法安排有关科学研究为目的文本与数据挖掘为法定例外。事实上这条规定有可能已经影响人工智能发展的现状,世界最大训练图像集提供方LAION就是设立在德国以研究为目的的非盈利组织。但是限于科学研究目的的合理使用能为人工智能大规模发展提供的避风港终究有限,针对第3条进行反规避的法律手段也会出现。指令第3条的重要性可以预见将逐步减小。


指令第4条规定的合理使用相比第3条而言为科学研究以外的数据挖掘敞开通道,但同时为权利人预设禁止他人获取的保留权。参见指令前序部分第18条,可了解指令第4条扩大合理使用范围的立法理由:


“(18)文本和数据挖掘技术除了在科学研究中的重要性之外,还被私有和公共主体为各种目的和分析不同生活领域而广泛使用,包括政府服务、复杂商业决策以及新应用或技术的开发。……在此类情况下为提供更多法律的确定性并鼓励私有经济体的创新,本指令应在相应情况下设置为文本和数据挖掘目的对作品或其他主题的复制和摘录的例外或限制(注:即合理使用)


本例外或限制仅适用于受益人合法获取作品或其他主题的情况,包括在网上向公众提供,以及权利人未以适当方式保留复制及文本和数据挖掘权的情况。对于已通过互联网公开提供的内容,只有通过机器可读方式(包括元数据以及网站或服务的条款和条件)才构成有效保留。”[viii]


(三)英国立法


英国有专门人工智能与数据保护立法,即2023年3月最新更新的《人工智能与数据保护指引》(Guidance on AI and dataprotection)。但和欧盟类似,英国立法并不打算把知识产权和数据保护并列,《指引》的重点完全倾斜到人工智能相关的个人信息和数据保护。


英国对人工智能和知识产权相关立法主要在知识产权法(1988年英国《版权、外观设计和专利法》,下称英国知识产权法)及政府的官方解释。英国知识产权法§29A之(1)规定,为非商业目的的研究,复制合法访问的作品可适用合理使用。由于该条法规原文表述深为拗口,如果不担心舌头打结可以参考附注列举的英文原文[ix]


按英国知识产权法§29A(1)规定,唯有非商业性的文本与数据挖掘可以适用合理使用。根据英国政府在2022年6月的一份标题为《人工智能与知识产权:版权和专利:政府咨询回应》官方意见的结论部分,将该法§29A规定的合理使用情况扩大到商业用途。官方回复中并对修改给出了明确的支持理由如下:


58. 政府决定引进新的版权和数据库权利保护例外,允许TDM用于任何目的。政府将确定适当的立法,以便在适当时候进行必要的修改。


59. 引入适用于商业TDM的版权保护例外将为英国带来广泛受益者。这些受益人包括研究人员、人工智能开发人员、小企业、文化遗产机构、记者和参与其中的公民。相关产品和服务将使企业和客户获益。研究成果也可以使广大公众获益,例如支持公共卫生领域的研究和创新。创意产业同样可以受益,可以使用TDM和AI来了解市场或创作新作品。受益还包括减少获得多个权利持有人许可所需的时间且无需支付许可费。这项将加快TDM进程和人工智能的发展[x]。


(四)日本立法


日本在2018年基于“考虑物联网、大数据、人工智能等技术革新所生成的「第四次产业革命」修订著作权法” [xi]。该版修订著作权法第47条之5款的规定,已为人工智能数据训练设立了合理使用许可:“通过计算机处理创造新知识或信息之以下行为者,……以任何方式(参考利用比例、数量及对外提供的较低分辨率等)利用他人已公开作品。但有不当损害著作人利益之情形,不在此限。”


如果著作权法规定尚有需要解释的空间,不但日本人工智能战略委员会在今年提交一份表示不会强制要求人工智能训练中使用的数据符合版权法的草案,且日本教育部大臣永冈桂子明确表示“在日本,无论使用何种方法,无论是出于营利或非营利目的,无论用于复制以外的行为,还是从非法网站获得的内容,都可以使用信息分析作品。[xii]


日本政府推动人工智能数据训练的积极态度已经超过英国和欧盟,后者的合理使用排除非法获取,而日本甚至将从非法网站获取予以划出从而缩小非法获取的范围。难怪顶尖人工智能专家Yann LeCun在推特评价日本已经成为机器学习的天堂。



(五)韩国立法


韩国著作权法第35条3款[xiii]完全继承美国版权法第107条设立的合理使用四步判断标准,即使用目的和特征,包括是否以盈利为目的;被使用作品的类型和实质;被使用部分和被使用作品相比的数量和实质;使用对作品市场的影响。


结合韩国著作权法第35条第2款规定的临时复制许可,韩国对数据训练整体适用合理使用的概率很大。


(六)以色列立法


以色列司法部2022年12月发布了关于受版权保护的内容用于机器学习的意见[xiv]。有些遗憾这份希伯来语发表的意见没有官方英文版。


根据中国保护知识产权网报道[xv],以色列在意见书中表示以色列版权法认可人工智能数据训练(机器学习)适用合理使用,以色列允许使用受版权保护作品进行文本与数据挖掘。以色列对TDM的开放态度非常明确,其彻底程度只有日本政府可以相比。


五、合理使用或版权保护的例外


(一)中国态度与国际条约义务


如本文第二部分所述,单独看网信办等新近颁布的《生成式人工智能服务管理暂行办法》第4条和第7条,已经封闭了AI数据训练从输入到结果输出适用合理使用的可能。但是即使暂行办法排除合理使用,依旧存在两种重新适用的可能。


第一种可能是通过立法或者对《著作权法》进行解释,前文且已论证在法律执行中进行解释至少有能力解决利用人工智能数据训练进行科学研究中的合理使用问题;第二种可能是寻找合理使用制度以外支持利用受著作权保护作品进行数据训练的依据,最有可能完成这项任务的是著作权保护例外的规定。


中国参加的国际条约,即使在本国法中没有明确写明也对中国具有约束力。中国参加的《与贸易有关的知识产权协定》(WTO知识产权协定)第9条“与《伯尔尼公约》的关系”约定以下两款:


1. 各成员应遵守《伯尔尼公约》(1971)第1条至第21条及其附录的规定。但是,对于该公约第6条之二授予或派生的权利,各成员在本协定项下不享有权利或义务。


2. 版权的保护仅延伸至表达方式,而不延伸至思想、程序、操作方法或数学概念本身。


此外我国《计算机软件保护条例》第6条也规定条例对软件著作权的保护不延及开发软件所用的思想、处理过程、操作方法或者数学概念等。


依本文观点及第六部分“技术”等论证,至少对生成式人工智能而言,不论其数据训练对象是文字还是图像内容,其生成结果都只是对训练数据中思想、观念、技法、风格(萨格教授习惯称为思想和事实/Facts,或非表达因素)而不是对作品表达的利用。换而言之,生成式人工智能利用的是训练素材中可以生成表达的部分,比如思想和风格。


(二)其他海外立法


1. 排除对非表达部分的保护


日本著作权法第30条第4款规定著作权不保护对作品表达的思想或感情之外目的之使用,并特地提及用于数据分析(对大量作品或大量作品中语言、声音、图像或其他基本数据进行提取、比较、分类或其他统计分析)的情况适用第47条第5款(参见本文第四部分之(四)的解释)


2. 间接允许使用


欧盟议会于2023年6月发布关于人工智能立法立场[xvi] 中,要求人工智能模型和生成内容的提供者,必须发布有关使用受著作权法保护的训练数据的信息(publish information on the use of training data protected undercopyright law)。欧盟立场只要求人工智能和生产内容提供者明示训练所使用受著作权保护数据的信息,并没有要求其获得许可更没有给著作权人拒绝进行许可的权利。结合对欧盟在DSM等法规中的立场,可以得出欧盟支持使用受著作权保护作品进行AI数据训练的行为设定合理使用。


对当下引发争议最大的生成式人工智能技术原理做基本复盘,对厘清人工智能输出结果的生成原理,进而判断AI数据训练过程是否存在侵权,具有重要意义。


法律学者研究人工智能技术的确有很多专业障碍,虽然也有一些阐释清晰的技术贴[xvii]和书籍(比如吴军的《智能时代》),但技术圈外无法从算法层面完全掌握。好在要做数据训练的合法性判断只需要理解生成式的基本原理和方法论。一并推荐阅读萨格教授今年7月为美国律师协会知识产权法分部讲座的PPT《生成人工智能抓取/挖掘的公开信息》[xviii],有助于从简单的阐释中理解生成式人工智能数据训练的基本状况。


并不推荐法学者都亲自研究人工智能技术这样庞大的技术体系。用最简单的逻辑表述,生成式人工智能就是通过对大量数据材料的学习,提炼各种问题解决方案或者不同类型作品的数据特征,并基于以上机器学习习得的知识根据指令生成需要的结果,不论是解决问题、输出图像或者文字。


语言大模型(LLM)原理比图形大模型原理解释起来更简单。ChatGPT的基本原理就是通过海量数据的预训练学习语言规律和无差别领域的背景知识。经过天文量级的数据训练,例如当下风行的ChatGPT4已训练过1.5万亿单词和1750亿参数,AI学会根据问题逐个预测出最接近需要的每个单词。


图像大模型技术之所以复杂,是因为在图像识别这样基础和初始的需求上,计算机就遇到了严重挑战。很多年来人工智能连猫的图像也难以准确识别。2020年一个苏格兰足球俱乐部引入配置AI追踪技术的智能直播系统,控制镜头紧跟场上足球的移动进行直播。遗憾的是AI把裁判的光头当成足球,裁判成了全场转播唯一的高光和赢家。


AI和人类理解图形特征的方式不一样。人类识别和比对图形一致性是通过像素,数字技术方案则是用散列函数(Hash Function)把任意大小(或长度)的文件压缩成128位的信息摘要(哈希值),再通过不同文件的哈希值匹配是否一致。AI通过训练提炼出AI才能理解的图形特征。AI并没有记住图形,记住的是数学式。


GAN对抗模型是一种非常流行的图像生成模型。使用GAN模型的AI生成一个编码器和一个解码器,把同一张图同时喂给编码器和解码器,由编码器对原图不断加数字噪音,解码器则不断降噪试图辨别是否原图。通过编码器和解码器反复轮回的体内博弈,AI自己学会提炼出适合于程序识别格式的文件特征。Stability AI出品的全球最大图像生成模型Stable Diffusion训练方法则是根据每张图片自有的分布规律,学习图形和文字标签之间的关系,在去噪过程当中实现图像生成。


很多观点认为人工智能是拼接已有作品,但这并不符合生成式人工智能的学习过程。拼接的前提是大量局部复制(少量情况下完整复制),但AI不是为复制而学习,是为了掌握训练数据在技术分析意义上的特征而学习,复制对生成式人工智能在技术上的意义是程序出错。就Stable Diffusion模型是否会在生成过程中复制训练数据请教过一位不愿意具名的人工智能图像处理专家,这位专家认为模型学到的都是数学表达,并不会真的把一个图片的某个部分复制到结果里面。


生成式AI的技术机制不需要也不支持抄袭。


AI哪有坏心眼,AI就没心眼。


六、案例分析与借鉴


目前全球各国法院对生成式人工智能数据训练并无判决,不论是否生效裁决。但美国已经有两起针对Stable Diffusion的版权诉讼,其中一起是多位原告代表艺术家群体发起的集体诉讼,一起是全球最大图片商Getty做原告。两起案件原告诉状都提及并展开分析了AI数据训练版权争议所涉及核心问题,直接衔接本文对版权法理和相关立法的讨论。


(一)中国案例分析


中国法院审理过深圳腾讯诉上海盈讯侵害Dreamwriter软件生成新闻稿的AI相关著作权纠纷[xix],但还没有生成式人工智能数据训练相关侵权案例。这也从一个侧面反映了美国AI行业处于领先地位,才会成为诉争首发之地。尽管没有已经进入诉讼阶段的案例,中国法院审理过在后作品集中使用多部在先作品元素的著作权纠纷,以及特定场景下对使用他人作品碎片是否符合合理使用要求的案例,以及使用他人作品元素的商业实践。


1. 使用他人作品元素的商业实践


早在1996年,河洛工作室就获得授权研发以多部金庸小说主角为游戏角色的武侠RPG游戏《金庸群侠传》。2023年网易大火的《逆水寒》和腾讯重点游戏《代号:致金庸》也分别是基于温瑞安和金庸的系列武侠小说角色授权改编。可见使用他人作品中具有代表性和典型性的元素如角色名称,需要获得他人授权。


2. 使用他人作品元素的侵权案例


(1)《此间的少年》案


金庸在2015年以小说《此间的少年》中使用原告《射雕英雄传》《天龙八部》《笑傲江湖》《神雕侠侣》等作品角色,侵害原告著作权为由,将涉案小说作者杨治(笔名江南)等诉至法院。广州知识产权法院于2023年4月以(2018)粤73民终3169号判决书,认定《此间的少年》和原告作品在故事情节表达、时空背景、故事线索与事件、具体故事场景和内在逻辑等皆不同,但涉案小说多数人物名称、主要人物性格、人物关系与原告作品小说有诸多相似之处,存在抄袭剽窃行为,侵害了涉案作品著作权。


(2)《锦绣未央》案


本案中小说《锦绣未央》以碎片化形式从多达16部小说中套用语句、情节等细节,是碎片化使用他人作品元素引发版权纠纷的典型。


北京市朝阳区人民法院在(2017)京0105民初62752号等系列判决书中认定,周静在其创作的小说《锦绣未央》中抄袭温瑞安等12名作者的《温柔一刀》《身历六帝宠不衰》等16部小说的语句和情节,侵犯了署名权、复制权和发行权。


3. 经典版权合理使用案——听音识剧


西安佳韵社和上海箫明公司之间这场为《我的团长我的团》著作权侵权纠纷开启连续三个审级的诉讼,是解释和适用著作权合理使用制度最经典的案例之一。


西安佳韵社在2020年将上海箫明公司诉至北京市互联网法院,称被告未经许可提供电视剧《我的团长我的团》的在线播放,侵犯了原告对涉案作品享有的独家信息网络传播权。被告上海箫明公司通过自己经营的“飞幕”APP提供“听音识剧”功能,将涉案作品以1分钟为单位剪辑后上传到服务器,APP后台通过语音识别用户播放声音,在和服务器中作品片段匹配后即向用户播放该不超过1分钟的片段。


上海箫明公司抗辩其提供的“听声识剧”服务是向不熟悉影视作品的用户介绍影视作品,在功能和目的上都不是提供在线播放业务。被告为用户提供的涉案作品片段不超过1分钟,占43集作品的比例微乎其微,无法表达出完整的故事情节也不会对涉案作品起到替代作用。


北京市互联网法院一审审理认为,虽然被告在识别并匹配后仅向用户提供每次1分钟的片段,但其行为已构成信息网络传播,侵害了原告权利。


北京知识产权法院二审中以(2020)京73民终1775号判决书推翻一审判决。二审判决认为,上海箫明公司将西安佳韵社版权作品切割成1分钟上传至网络服务器,网络用户每次利用“听音识剧”功能只能获取1分钟的作品内容,相对于篇幅巨大的电视连续剧来说,该行为客观上未构成对涉案作品的实质性利用和替代效果,也不会对其市场价值和营销造成实质性的不利影响,没有不合理地损害著作权人的合法利益,故不能认定侵权。


北京市高级人民法院于2022年底在(2022)京民再62号再审判决书中又撤销二审判决,改认定上海箫明公司行为不构成合理使用,只是将向西安佳韵社公司赔偿的经济损失从一审的6万降至1万元。


我个人支持二审判决对适用合理使用的说理。再审判决虽然以不构成合理使用为由撤销二审判决,但遗憾的是并没有对二审判决依据给出明确的反驳理由,仅仅讨论了是用户还是服务商为上传内容负责这一本无争议也不影响合理使用构成的事实,让版权合理使用错过一个在司法实践中厘清边界的机会。


4. 观点总结


综合以上商业实践及案例,可以得出以下几个结论:


(1)碎片化使用他人作品元素,并不必然可以援引合理使用;


(2)大量使用他人作品元素,尤其使用知名角色名称或经典台词、情节等细节,可能构成侵权;


(3)人工智能数据训练能否适用合理使用,关键看AI学习和利用的是他人作品风格、思想、观念、技法,还是直接使用作品元素。


(二)美国案例分析1——安德森等诉Stability AI等


美国法院在今年1月先后受理的两起完全不同的著作权人起诉Stability AI等重量级图像生成人工智能平台。两个案件从原告身份到论证方法都有不同,但都直接指向人工智能版权纠纷的核心问题,也都在各自代表的庞大社群内具有非常大的影响力。


莎拉·安德森(Sarah Andersen)、凯莉·麦克南(Kelly McKernan)和卡拉·奥尔蒂斯(Karla Ortiz) 三位艺术家代表艺术家群体向旧金山联邦法院发起针对Stability AI(Stable Diffusion模型)、DeviantArt和Midjourney侵害版权的集体诉讼(class action)。根据能检索到的信息,这很可能是全球首起针对图形生成人工智能工具的起诉。


安德森等诉Stability AI等人工智能公司侵权的重要性远不止数字上“第一案”的形式意义,而是三位原告以艺术家代表身份为艺术家群体向人工智能企业发起诉讼。这起诉讼体现了艺术社群面对人工智能骤然挑战的焦虑,代表了众多绘画师的不安。本案结果必将对艺术家群体和人工智能产业同时产生重大影响。


原告诉状主攻路线是被告大模型将训练素材中数百万艺术家受版权保护的作品重新拼凑(原文“21st-century collage tool[s] that remixes the copyrighted works ofmillions of artists whose work was used as training data”,为被告贴的标签是21世纪拼接工具),依此主张AI生成结果是对训练素材的修改,数据输入阶段的复制(即使是临时复制)和输出结果的拼接分别构成侵害复制权和改编/修改权[xx]


显而易见,原告能否证明被告输出结果“拼接”训练素材是决定案件结果的基本事实。主办律师Butterick身兼律师、艺术家和码农,三合一的能力是明显的专业优势。原告诉状也通过援引大量相关论文说明被告图像大模型数据训练的技术实现方式。但诉状的明显不足是缺乏直接侵权证据,援引的技术资料又都是算法,而且从技术资料本身中也不能顺利得出生成式模型存在临时复制以外的保存(复制)和对训练素材的拼接使用。


原告证据看来没有弥补诉状过于依赖纯理论分析的缺陷。根据最新报道,法官William Orrick在庭审前的听证会已经表示倾向于驳回本案原告的大部分诉请。法庭认为原告应该清楚的区分对不同原告的索赔,尤其应该就其生成式人工智能侵权的主张提供事实证据,否则即使被告的系统已经对50亿张压缩图像进行训练也不能证明这些训练素材包括原告作品。[xxi]


本案进程显然遇到障碍,但还不能说原告必然败诉。一方面原告有补充事实证据的机会,另一方面法庭提到原告之一莎拉·安德森提交了直接侵权证据,她的诉请可以继续得到审理。


(三)美国案例分析2——美国GettyImages 诉Stability AI


全球最大图片商Getty起诉Stability AI所代表的是版权巨头和人工智能之间的冲突。Getty也主动发布了这起向特拉华州联邦地区法院提交的诉状[xxii],总共36页的诉状减去长达14页洋洋洒洒的索赔部分剩下22页,其中包括开头给自己做的10页广告。


尽管如此,Getty诉状包含不少具体依据,对Stable Diffusion模型的技术原理也做了不错的陈述。排除部分显然是为了诉讼定制的夸大表述,Getty诉状体现了比较高的专业水平。


Getty案和莎拉·安德森等代表的艺术家群体与AI的诉讼在策略和证据上有不同看点。


1. 商标权的主张和证据


Getty诉讼请求除了主张版权侵权救济外,还主张被告侵害原告商标权,这是和艺术家集体诉讼所不同的。为此Getty提交了用Stable Diffusion创作的带原告“Getty Images”商标水印的图片以证明存在侵权。


Getty诉状中证明被告侵害商标权的图片质量都惨不忍睹,但对这些证据的抗辩攻防会影响整个诉讼的结果。如果被告确实甚至确实故意抄袭原告商标水印,就没有理由相信被告会不抄袭原告图像。


生成式人工智能不需要依靠复制来学习图形,这已经是公认的技术原理。从实际情况分析,AI训练需要天文数字的训练图片,Stable Diffusion利用过Getty图片并不令人意外。但是AI如果在经过海量图片训练后仍然把Getty的水印误解为通用图形的必要背景,这就不符合常识。


为解决已经训练过的数据不能满足特定需求的问题,例如由于普遍训练使用欧美和韩国女性图片素材,要精准生成藏族女性图像就要增加专门的训练素材,因此需要开放用户在大模型基础上定向训练专门的图像。Stable Diffusion除了提供通用素材训练的技术支持外,也允许用户自行搭建定向训练素材的Lora数据库。


大家应该有印象,一幅出色的Stable Diffusion是什么水平。比如人像光影和毛发,AI可以优秀如斯。


(AI生图)


虽然提示词(Prompt)水平直接影响Stable Diffusion输出结果,但能差到Getty举证图片的地步,如果不是使用特定素材的Lora定向训练的结果,那就是需要在降低提示词水平上长期训练了。


原告诉状第52段和58段及其举例值得专门分析和回应,但篇幅和内容都已经超过本文范围,留待对生成式AI是抄袭还是原创的专题中讨论。


2. 技术贴的论证——Stable Diffusion有没有故意侵权


Getty作为原告不可避免在诉状中展开对Stable Diffusion的技术分析,力图证明被告存在故意侵权。我个人认为Getty诉状中的技术分析相比莎拉·安德森案诉状,减少了对数学理论的依赖,转而使用比较通用的逻辑和步骤表述,有利于争取法庭理解。


(1)诉状技术贴—生成式训练技术


Getty在诉状第36节阐述了被告Stable Diffusion模型数据训练流程和原理:


StabilityAI创建并维护了名为Stable Diffusion的模型。据了解,StabilityAI使用以下从输入到输出的步骤:


a. 首先,StabilityAI复制了数十亿的文本和图片配对——如可从Getty Images网站获取的那些——并将其加载到计算机内存中以训练模型。


b. 其次,StabilityAI对图像进行编码,创建占用较少内存的图像较小版本。另外,StabilityAI也对配对的文本进行编码。StabilityAI保留并存储编码后的图像和文本的副本,作为训练模型的一个重要环节。


c. 第三,StabilityAI向编码的图像添加视觉“噪声”,即进一步修改了图像,使得难以辨认出图像所代表的视觉内容。由于图像的视觉质量已经被有意降低,以便于“训练”模型去除“噪声”。通过有意向现有的与文本关联的图像添加视觉噪声,StabilityAI教导模型生成与特定文本描述(例如,“在日落时分海滩上玩耍的狗”)相符的输出图像。


d. 第四,模型解码修改的图像,并自学通过比较解码后图像和已经复制和存储的原始图像和文本描述来去除噪声。通过学习解码噪声,模型学会提供——在某些情况下,——和没有噪声的原始图像实质一致的图像。


以上Getty对StableDiffusion的技术解释基本真实,也和本文第六部分的解释一致。需要关注的是Getty在第36节d段中着重强调AI会复制,是有意引导法庭相信AI在复制,至少有能力复制。就这一节问题稍加阐释:


首先,同样重复一个技术定论,像素不是AI对图形的理解方式,复制行为是被生成式人工智能技术视为需要改正的bug。


其次,d段所称的特殊情况,如果不是程序出错,就是被训练素材独一无二的情况。例如达芬奇的蒙娜丽莎只有一幅,如果让AI生成一幅还原版达芬奇的蒙娜丽莎,AI只能有拒绝或者依葫芦画瓢两个选项。如果是选“帮我画一枝晶莹剔透的牡丹花”(本提示著作权属于百度)或者名动一时的“梅西敬酒图”,AI解决任何有创作空间的需求根本不存在抄袭的可能。


(AI生图)


(2)诉状技术贴——想象中的节外生枝


诉状第43节表示:“根据已知信息及我们的确信,StabilityAI制作的未经授权的Getty Images内容副本并不是临时复制,这些副本是为了使StabilityAI能取代Getty作为创意视觉内容的来源。”


这一节提到的两个问题,从训练副本保存是否属于临时复制,到被告是否有意取代原告(训练素材来源),都是原告主动加戏。


就临时复制而言,因为不需要在输出时复制,生成式AI本身就不需要保留训练素材,而是保留训练结果中每种图片的数学特征。请教一位同样不愿意披露姓名的人工智能专家,他认为Stable Diffusion除了数据输入和训练中为学习而有临时复制外,尤其在输出阶段对复制没有任何需求。沟通达成的一致意见是诉状第43节意见是为了让客户满意,而法庭要看的是证据。由于Stable Diffusion在2022年底就已开源,可以方便地通过公开源码核实模型的技术实现方式,也为解决这项争议提供更开放的机会。


七、人工智能数据训练的合理使用是一次全球法律的竞争 


(一)大人,时代变了


版权法是人类为人类起草的法律,是根据人类理解与创造力,人类行为特点和社会文化发展需要制定的规则。而生成式人工智能和趋向通用的AI通过和人类不同的途径理解世界和掌握规律,展现了人类所无法企及的超大规模、超低成本以及越来越高水平的创造力。


知识产权法教授Daniel Gervais认为:“如果你给AI看了10部斯蒂芬·金的小说,然后让它写一部斯蒂芬·金风格的小说,那么你就是在直接与斯蒂芬·金竞争。这显然不算是合适使用”[xxiii]。值得回味的是,如果Daniel教授举例中的AI不是智能程序而是人名,结论会正好相反。因为人类学习他人风格而做的表达当然不侵权。


所以问题来了,为什么专家会下意识地用不同标准区别判断人类和AI的创作?最根本的原因,AI的学习和创造力动摇了版权法的基础。我们熟悉的传统环境,正潜移默化的不复存在。再举个例子,假设我们接受人工智能数据训练完全适用中国《著作权法》第24条的合理使用,在万亿数据训练基础情况下要履行第24条规定“指明作者姓名或者名称、作品名称”义务,也是无法想象的。


不论对未来人工智能版权法的演化有多少争议,我们至少需要在大背景上达成一致,时代变了。


(二)围绕人工智能的法律竞争


要阻滞AI步伐,主动降低技术发展速度实际已不可能。技术像阳光,即使把自家院子全部遮蔽也还会照在别人土地上。


英国、日本、欧盟、以色列等政府公开表示为了经济和社会发展需要通过修订法律等多种措施坚定支持人工智能发展,英国政府在2022年发布的政府咨询回应第34条还提到“其他几个国家已经引入了TDM的版权例外,鼓励人工智能开发和其他服务在本国落户。这些引入例外的地区包括欧盟、日本和新加坡。根据事实,TDM也可能属于美国法律下的合理使用”。[xxiv]


很难评估人工智能意味着什么,未来可能是得AI者得天下。全球各国在人工智能版权立法上已处于竞争态势,这将导致人工智能行业得以向有利地区涌动。楚材晋用或者哥伦布从葡萄牙转道西班牙最终发现新大陆,这些影响国家民族甚至人类前途命运的故事也在人工智能时代上演。


横评全球立法,日本、以色列、英国属于全面开放AI数据训练版权禁区的第一梯队;美国、韩国属于可能通过扩大解释现有合理使用制度全面覆盖AI数据训练的第二梯队;欧盟属于对AI数据训练有条件适用合理使用的第三梯队。


[i] 《我国版权立法中文本数据挖掘侵权例外规则的构建——兼论中国知网论文查重争议》,管育鹰,http://www.fxcxw.org.cn/dyna/content.php?id=25175

[ii] <KOREANCOPYRIGHT ACT> Article 35-2 (Temporary Reproduction in Course of UsingWorks, etc.)Printed articles--Where a person uses works, etc. on a computer, heor she may temporarily reproduce such works, etc. in that computer to theextent deemed necessary for the purpose of smooth and efficient informationprocessing: Provided, that this shall not apply where the use of such works,etc. infringes on copyright

[iii] <Copyright Law of Japan>,https://www.cric.or.jp/english/clj/cl2.html

[iv] (1)the purpose and character of the use, including whether such use is of acommercial nature or is for nonprofit educational purposes;(2) the nature ofthe copyrighted work;(3) the amount and substantiality of the portion used inrelation to the copyrighted work as a whole; and(4) the effect of the use uponthe potential market for or value of the copyrighted work. The fact that a workis unpublished shall not itself bar a finding of fair use if such finding ismade upon consideration of all the above factors."

[v] https://www.judiciary.senate.gov/download/2023-07-12-pm-testimony-sag

[vi] Traininggenerative AI on copyrighted works is usually fair use because it falls intothe category of non-expressive.

Courts addressingtechnologies, such as reverse engineering, search engines, and plagiarismdetection software, have held that these “non-expressive uses” are fair use.These cases reflect copyright’s fundamental distinction between protectableoriginal expression, and unprotectable facts, ideas, abstractions, and functionalelements.11

Whether training an LLM isa non-expressive use depends on the outputs of the model. If an LLM is trainedproperly and operated with appropriate safeguards, its outputs will notresemble its inputs in a way that would trigger copyright liability. Trainingsuch an LLM on copyrighted works would thus be justified under the fair usedoctrine.

[vii] <Parliament'snegotiating position on the artificial intelligence act>,https://www.europarl.europa.eu/RegData/etudes/ATAG/2023/747926/EPRS_ATA(2023)747926_EN.pdf

[viii] (18) In addition to their significance in the context of scientificresearch, text and data mining techniques are widely used both by private andpublic entities to analyse large amounts of data in different areas of life andfor various purposes, including for government services, complex businessdecisions and the development of new applications or technologies. ……In orderto provide for more legal certainty in such cases and to encourage innovationalso in the private sector, this Directive should provide, under certainconditions, for an exception or limitation for reproductions and extractions ofworks or other subject matter, for the purposes of text and data mining, andallow the copies made to be retained for as long as is necessary for those textand data mining purposes.

This exception or limitation shouldonly apply where the work or other subject matter is accessed lawfully by thebeneficiary, including when it has been made available to the public online,and insofar as the right holders have not reserved in an appropriate manner therights to make reproductions and extractions for text and data mining. In thecase of content that has been made publicly available online, it should only beconsidered appropriate to reserve those rights by the use of machine-readablemeans, including metadata and terms and conditions of a website or a service.

[ix] Copyright, Designs and Patents Act 1988, Section 29A.

Copies for text and data analysis fornon-commercial research

(1)The making of a copy of a work by aperson who has lawful access to the work does not infringe copyright in thework provided that—

(a)the copy is made in order that aperson who has lawful access to the work may carry out a computational analysisof anything recorded in the work for the sole purpose of research for anon-commercial purpose, and

(b)the copy is accompanied by asufficient acknowledgement (unless this would be impossible for reasons ofpracticality or otherwise).

[x] <Artificial Intelligence and Intellectual Property: copyrightand patents: Government response to consultation>,Conclusion

58. The Government has decided tointroduce a new copyright and database right exception which allows TDM for anypurpose. The Government will identify suitable legislation to make the requiredchanges in due course.

59. Introducing an exception whichapplies to commercial TDM will bring benefits to a wide range of stakeholdersin the UK. These include researchers, AI developers, small businesses, culturalheritage institutions, journalists, and engaged citizens. Targeted products andservices will benefit businesses and customers. Research outcomes could alsobenefit the wider public. This could be, for example, by supporting researchand innovation in public health. Some in the creative industries also use TDMand AI to understand their market or create new works – they will also seebenefits. The benefits will be reducing the time needed to obtain permissionfrom multiple rights holders and no license fee to pay. This will speed up theTDM process and development of AI.

https://www.gov.uk/government/consultations/artificial-intelligence-and-ip-copyright-and-patents/outcome/artificial-intelligence-and-intellectual-property-copyright-and-patents-government-response-to-consultation

[xi] 《日本2018年著作权法修正权利限制规定概要》高嘉鸿108.5 智慧财产权月刊 VOL.245

[xii] 《AI训练数据不用担心版权问题?日本政府表态引发热议》,参见https://new.qq.com/rain/a/20230602A09RL000?no-redirect=1

[xiii] <Korean Copyright Act>,https://elaw.klri.re.kr/eng_service/lawView.do?hseq=42726&lang=ENG

[xiv] 《以色列司法部对受版权保护的内容用于机器学习的意见》, https://www.gov.il/BlobFolder/legalinfo/machine- learning/he/machine-learning.pdf

[xv] 《以色列司法部发布意见书 支持将版权作品用于机器学习》,中国保护知识产权网,http://ipr.mofcom.gov.cn/article/gjxw/gbhj/yzqt/ysl/202302/1976280.html)

[xvi] <Parliament's negotiating position on the artificial intelligenceact>,https://www.europarl.europa.eu/RegData/etudes/ATAG/2023/747926/EPRS_ATA(2023)747926_EN.pdf

[xvii] 例如《StableDiffusion原理解读》,https://zhuanlan.zhihu.com/p/583124756

[xviii] <Scraping/MiningPublic-Facing Information for Generative AI>,(https://www.dropbox.com/scl/fi/ecvs981dx42caujdgxln5/Matthew-Sag-ABA-Scraping-Webinar-Slides.pptx?rlkey=y9zbunityohvyenlku686h640&dl=0)

[xix] 深圳市南山区法院(2019)粤0305民初14010号

[xx] Sarah Andersen等艺术家的起诉状信息量很大:https://stablediffusionlitigation.com/pdf/00201/1-1-stable-diffusion-complaint.pdf

[xxi] < US judge finds flaws in artists' lawsuit against AI companies >

[xxii] Getty诉状值得一读,参见https://stablediffusionlitigation.com/pdf/00201/1-1-stable-diffusion-complaint.pdf

[xxiii] 《AIGC商业化,版权保护谁来管?》,https://mp.weixin.qq.com/s/_SAREyljb99vSbbbKO_DnA


本文来自微信公众号:林华(ID:gh_4d992808ffdf),作者:林华