论生成式人工智能版权侵权“双阶”避风港规则的构建
黄玉烨 杨依楠
内容提要:生成式人工智能的作品使用具有海量化及算法化特征,面临侵权责任认定与分配难题。避风港规则以满足特定条件给予免责为构造,可以回应机器训练的行为转变,契合风险分配的规制目标,具有事前预防效果。基于生成式人工智能服务提供者的技术能力、大模型版权侵权的规制需求和版权人的获益需求,为其新设“双阶”避风港规则具有必要性。在训练阶段,可以通过设置信息披露、权利保留的识别尊重、非直接获得经济利益和整体性补偿义务,使生成式人工智能服务提供者无须经事先许可使用作品,且不必承担解除学习等责任;在输出阶段,可以为生成式人工智能服务提供者配置建立投诉处理机制、消除重复作品数据、优化模型过度拟合、干扰用户恶意引导、基于请求的版权过滤等义务,使其免受抽象侵权标准影响。
关键词:生成式人工智能;版权侵权;避风港规则;注意义务
随着Sora等新一代“文生视频”等大模型的应用,生成式人工智能的版权侵权风波愈演愈烈。作品是开展人工智能模型训练的高质量数据,在模型训练阶段,人工智能开发者未经许可抓取作品进行模型训练的行为日渐增多,引发复制权侵权争议;在内容输出阶段,人工智能可能生成与在先作品实质性相似的内容,引发复制权与改编权侵权问题。2024年,广州
互联网法院作出了首例生成式人工智能平台版权侵权判决。
[1]与此同时,其他国家也掀起了此类诉讼浪潮。截至2024年10月21日,美国已有30多起久拖未决的人工智能版权诉讼。
[2]在人工智能时代,如何应对大模型引发的版权侵权风险,如何合理分配生成式人工智能服务提供者的版权侵权责任,尤为值得关注。
技术变迁与商业变革是版权制度演进的根本动因。基于平衡版权人利益与人工智能产业发展需求的考虑,许多学者主张借鉴避风港规则的原理,即在合理使用、法定许可等制度之外,结合具体场景,为生成式人工智能服务提供者设置精细的免责规范,以在现有技术标准下厘清其过错认定标准,降低其注意义务的履行负担,使生成式人工智能服务提供者得以在满足法定条件后减轻或免除责任,形成与产业发展相适应的责任机制。
[3]然而,现有研究主要集中在宏观探索层面,仍有需要进一步回应的问题:第一,在传统版权侵权责任规范之外,为生成式人工智能服务提供者设立避风港规则的正当性何在?第二,在我国《
民法典》、《
信息网络传播权保护条例》(以下简称
《条例》)已有网络版权侵权避风港规则的情况下,专门针对生成式人工智能服务提供者新设避风港规则的必要性何在?第三,如何构建具体规则,使之能够平衡版权人的利益与人工智能产业的发展需求?对此,本文将结合生成式人工智能使用作品的新特征,分析传统版权侵权责任规范在人工智能时代面临的治理危机,就构建生成式人工智能版权避风港规则的必要性、可行性、基本思路和具体方案等问题展开研究。
一、生成式人工智能版权侵权责任的双重难题及其成因
生成式人工智能的作品使用特征诱发了新的版权侵权样态。与传统作品使用方式相比,生成式人工智能具有“规模海量化”及“手段算法化”特征,从单一接触转向海量投喂,从人的欣赏转为算法处理。相应地,传统版权侵权责任规范在适用于生成式人工智能版权侵权问题时,也产生了责任认定和责任分配双重难题。
(一)利用算法处理作品的版权侵权责任认定难题
加害行为、侵害后果、因果关系、主观过错是侵权责任的基本构成。在版权领域,侵权责任认定还须结合“接触与实质性相似”“思想/表达二分法”等标准。然而,在上述特征影响下,这些要件均面临可操作性难题。
第一,在分析加害行为时,模型黑箱导致难以判断生成式人工智能服务提供者是否接触和使用了作品,增加了加害行为的证明难度。黑箱是指生成式人工智能训练过程的不透明与非公开。目前包括OpenAI公司在内的生成式人工智能服务提供者均不公布其模型所用数据集,版权人无从知晓生成式人工智能收集作品的时间和方式,面临严重的信息不对称,难以提起有效诉讼。在Andersen v. Stability AI Ltd.案中,面对复制权侵权指控,被告辩称其并未制作复制件,仅以数学统计方法存储了作品数据,法院以此种“压缩副本”行为可能并不构成侵权为由驳回了诉讼。
[4]此外,模型黑箱也导致版权人难以知晓相似表达的生成时间和过程,更难以取证,加剧了侵权行为的隐蔽性风险。
第二,在分析侵害结果时,深度学习原理导致难以判断大模型是否生成了与他人受版权保护作品构成实质性相似的表达,难以证明侵害后果的存在。版权侵权认定以“思想/表达二分法”为前提。不同于人类理解作品,机器学习原理在于通过记忆文本,从中学习推导出符号排列规律和前后关系,从而间接“理解”作品的表达特征。若诱导人工智能模仿特定作品的风格,尽管其不会生成与该作品完全相同的表达,但极可能具备与该作品相似的风格或结构。在这种情况下,对风格、结构进行思想或表达的区分并不存在明确、统一的标准,需要根据其抽象程度,结合案情具体分析。未来,面对数以亿计的生成内容,法院将更加难以区分思想与表达。
第三,在分析因果关系时,难以判断生成的相似内容是否来自某特定作品。一方面,生成式人工智能的数据训练规模数以亿计,即便生成内容与某特定作品的表达相似,生成式人工智能服务提供者总是可以找到其他与生成内容表达相似的作品,以此主张生成内容表达来源的多元性,切断因果关系;另一方面,即便某特定作者的作品没有被输入训练,模型也可能从其大量模仿作品中习得源自该作者的独创性表达。如毕加索是最常被公众模仿的作者之一,即便其作品仍在版权保护期内而未被训练,但随处可见的模仿作品仍可使模型轻松生成与毕加索作品风格相似的内容。版权人既难以发现这种间接的、延长的因果链条,也难以举证。事实上,有观点指出,大数据所产生的预测能力本就是基于相关关系,而非因果关系
[5],试图在大数据及其规则中寻找因果关系,有悖于技术现实。
第四,在分析过错时,技术的复杂性导致过错难以认定。认定过错的关键在于判断生成式人工智能服务提供者是否依据现有技术水平履行了合理注意义务,但实际操作难以开展,原因在于:首先,生成式人工智能技术迭代速度过快,法院很难判断技术进展与生成式人工智能服务提供者的侵权风险控制能力。其次,技术解释难度极高。即使是开发人员也难以完全理解人工智能的运行状况,更何况生成式人工智能的学习具有高度不确定性与自主性,所生成内容与人类操控行为的因果关联较为模糊。
[6]这可能造成同案不同判。最后,受技术贸易壁垒等可及性影响,技术分布不均问题普遍存在,裁判者需要在个案中考虑不同行业、不同地域的不同状况
[7],实际操作难度较大。
除上述侵权责任认定难题外,现行责任承担方式也面临功能失灵:一方面,解除学习特定作品的成本和难度过高,如何适用停止侵害存在争议。有观点指出,机器学习的过程很难逆转,一旦作品被输入训练,算法几乎不可能遗忘,除非删除算法后重新训练
[8],这需要付出极高的经济成本。另一方面,损害赔偿数额难以计算。作品损害认定以市场价值受损为计算基础。但人工智能的训练数据集由海量作品组成,涉及的作者越多,单个作品的价值可能就越小
[9],随着机器学习作品数量的增加,单个作品的价值可能无限趋近于零。换言之,目前无法简单计算单个作品对机器学习的贡献程度,如果默认每个作品的贡献度相同,那么权利人所获得的赔偿将无法与作品的实际价值相匹配。
[10]
(二)使用海量作品训练的责任分配难题
生成式人工智能服务提供者未经授权使用作品训练可能存在两种后果:一是承担版权侵权责任;二是通过适用合理使用制度予以免责。然而,在合理性层面,这两种后果都将引发利益失衡,无法兼顾版权人的利益与人工智能产业的发展需求。
1.严格的侵权责任对产业主体造成过度威慑
有观点认为,应根据无过错责任为生成式人工智能服务提供者分配侵权责任,只要模型生成的内容侵权,便应当要求其承担赔偿责任。
[11]然而,严格的版权侵权责任将对人工智能产业发展产生消极影响。
一方面,无过错责任将抑制交易意愿,导致生成式人工智能服务提供者放弃使用作品训练模型。侵权责任旨在要求行为人必须通过市场交易获得许可,这需以有效运转的市场为前提。生成式人工智能具有海量使用作品的需求,如ChatGPT-4的训练数据规模高达1000TB,但与之相适应的许可市场、技术与集体管理条件远未成熟,脱离此种现实为生成式人工智能服务提供者配置严格的版权侵权责任,将使其承担确定交易标的、寻找交易对象、协商交易价格等高额成本,远高于预期和现实获益。例如,《纽约时报》曾主张OpenAI公司应就其获取新闻报道的行为支付数十亿美元
[12],这将导致后者要么承担极高的许可成本,要么承担高额赔偿,最终将迫使其放弃使用作品训练模型。
另一方面,无过错责任将降低竞争活力,诱发大型企业独占使用作品进行模型训练的反竞争效果。在价高者得的市场逻辑下,只有少数大型企业可以凭借经济优势取得许可,这将大大提高中小企业参与竞争的市场门槛。中小企业若要向市场提供人工智能生成服务,只能向大企业寻求接入模型的授权许可,无法实质干预训练和生成过程,仅能提供完善用户界面等“换壳”服务。就此而言,中小企业不仅要面临大企业提升价格等压力,发生侵权时还可能代替那些真正实施侵权的主体承担责任。实际上,在我国生成式人工智能平台版权侵权首案中,被告便只是在所购买人工智能模型接口的基础上修改了用户界面,既不知道模型训练使用了哪些作品,也很难实际干预模型运行,法院要求被告承担的责任与侵权行为事实并不相符。
2.合理使用制度对作者和版权人形成“寒蝉效应”
合理使用制度是产业主体就使用作品进行模型训练主张免责的主要依据,其核心主张是:生成式人工智能学习的是作品中的事实、思想,是一种“非表达性使用”
[13],不属于保护范围,即便偶然学习了作品的表达要素,这些表达要素既不受版权保护,生成内容也不会不合理地损害特定作品的市场利益
[14]。若依据上述理由允许免费使用,将造成以下不利后果。
第一,不当减损版权人的市场利益。首先,生成式人工智能是一种学习表达的语言模型,是作品具有合理获益预期的市场领域。如前所述,生成式人工智能是从作品表达中习得特征和规律。如微软的“下一个伦勃朗”项目即学习伦勃朗349幅作品的构图、色彩和笔触。当前生成式人工智能所应用的短视频、广告、影视等行业,恰恰也是作品许可的核心市场领域。若支持适用合理使用制度的主张,将使生成式人工智能成为规避支付许可费用的侵权工具,显著减少权利人的正常许可收益。其次,不论是学习特定作品的表达,还是学习海量作品的表达,一概都是对作品的消费性使用,都应当支付报酬。事实上,作品交易是实现版权人利益的唯一方式,与交易对象随后是否创作、创作是否使用作品并无关系。未经许可使用作品而使权利人的交易机会落空,正是损害版权人利益的典型表现。
[15]如果人类不可以未经授权使用作品,那么机器也不存在任何类似的借口。
第二,不当弱化创作者的市场地位。当前,基于生成式人工智能低成本、高效率的优势,许多企业开始定制模型用于制作游戏画面、影视特效,已然形成人工智能生成内容与人类作者创作同台竞争的局面。生成式人工智能的应用将对未来就业形势产生深刻影响。
[16]若将机器学习认定为合理使用,大模型将基于学习人类作品不断提高质量和效率,具备更强的竞争力,而人类作者的创作地位将遭受严重冲击。研究显示,创意产业劳动力转移现象已较为明显,如漫威之前在《鹰眼》等剧集中使用了5—9位插画师,但相关岗位在2023年被一名“人工智能技术总监”代替。
[17]相较于机器生成内容的高效率,人类作者需要花费数年和大量投入才能探索出自己的作品风格并完成创作,若允许生成式人工智能服务提供者借合理使用制度对作品进行商业使用并独占全部收益,那么人类作者将处于被取代的边缘。
(三)生成式人工智能版权侵权规制难的原因
生成式人工智能作品使用行为与传统版权侵权责任规则的不适配是上述责任认定与分配难的主要成因。传统版权侵权责任是源自工业革命早期的制度设计,适用于特定社会语境中的版权侵权行为。然而,从产生原因、规模大小与行为结构等特征来看,生成式人工智能的作品使用与传统侵权样态显著不同,其并非传统版权侵权责任规范在立法之初所预设的典型调整对象,而是具有风险社会中大规模侵权损害的特性,应当适用相对应的规则。
所谓风险社会,是指工业化发展所产生的风险占据主导地位的社会阶段。
[18]在这一阶段,技术发展虽然促进了生产力大幅提升,但技术风险的释放与威胁也达到前所未有的程度。一方面,风险一旦出现就会引发大规模损害,事后补救也难以有效弥补损失
[19];另一方面,大规模侵权损害虽然是各类技术风险的直接后果,但为了借助技术发展实现社会财富增长,这一后果必须为社会所承受
[20]。对此,有学者指出,既然稀缺财富的生产与风险的出现是相伴的,那么对财富的分配逻辑也需要转向现代性的风险分配逻辑,将风险的界定、容忍与分配也纳入社会平等之考察范围。
[21]反映在法律层面上,这要求立法者在面对大规模侵权损害时,应当在传统侵权责任规则的基础上,确立更具针对性的规制理念与责任形式。例如,在产品缺陷、环境污染等领域,我国学者主张引入大规模侵权损害赔偿基金,以实现利益和风险的公平分担。
[22]针对生成式人工智能技术发展引发的大规模版权侵权风险,也有必要依据新的风险规制理念开展特别治理。当前,之所以出现生成式人工智能版权侵权责任认定与分配的难题,正是因为机械地适用了传统版权侵权责任规则。
首先,从“自然人使用”到“机器处理”,传统版权侵权责任规则难以兼容生成式人工智能使用作品的特征。长期以来,传统
侵权法的调整对象形成了稳定特征,即行为具备透明性和确定性,侵权对象具有特定性,损害后果具备有限性、可计算性和可填补性,因果关系具有直接性和相当性,且侵权人对行为和后果具备可预期性及可控制性。
[23]不难看出,传统版权侵权责任规则预设的侵权行为主要是“自然人使用式”的:人类是使用作品的唯一主体,使用作品的形式表现为阅读、聆听等行为,使用规模是单个或少量的,使用行为在一定程度上透明可知。不论发生何种侵权纠纷,总体上仍属于特定主体对具体权利人的侵害。但生成式人工智能版权侵权具有“机器处理型”特征:直接接触、使用作品的主体变为大语言模型,使用形式转变为基于算法的自动训练与输出,使用规模实现指数级增长,且使用行为全程处于黑箱之下。这意味着,生成式人工智能的作品使用行为完全颠覆了设立上述规则的前提条件,超出了传统版权侵权责任规则的适用边界。
其次,从“威慑填补”到“风险分配”,传统版权侵权责任规则难以契合生成式人工智能的规制目标。在保护权利人对作品独占性使用的立法逻辑下,填补损失并尽量遏制侵权行为是既有规范的主要目标。但在风险社会中,仅凸显补偿和威慑将使责任制度难以为继。一是生成式人工智能的侵权现象是科技进步中不可避免的风险——没有海量输入就难以训练模型,没有广泛输出应用则缺乏市场回报,因而生成式人工智能训练中的版权侵权应是一种必要的、可被允许的风险。二是如果风险不可避免且技术进步的收益由社会共享,那么避免风险的成本便不能仅由生成式人工智能服务提供者承担,而应由社会共担。对此,有必要为生成式人工智能服务提供者设定有限而合理的版权注意义务,以及具体而明确的侵权责任规则,从而实现社会风险的合理分担。此举的法律意蕴在于:一方面,应摒弃完全消除侵权现象的目标,适度放宽机器学习的事先授权原则,有限允许生成式人工智能服务提供者可以不经许可使用作品;另一方面,应根据生成式人工智能服务提供者对侵权风险的利益获取程度、损害分散的可能性等因素
[24],确定其承担责任的界限。但从现实来看,传统版权侵权责任规则的构造尚无法实现这些目标。
最后,从“事后责任”到“事先预防”,传统版权侵权责任规则难以契合生成式人工智能版权侵权行为的规制方式。总体上,传统版权侵权责任规则以事后填平损害为首要原则,但生成式人工智能引发的损害却面临“罚不下去、赔不充分”的困境。具言之,在风险共担的分配正义思想
[25]下,版权人获得赔偿的期待不仅可能会落空,即使实现了补偿,无法停止侵害且损害赔偿数额计算难的现实也将导致救济不充分。不合理的赔偿甚至会造成社会财富的无谓损失,抵销人工智能的发展收益。因此,事先预防在生成式人工智能版权侵权规制中具有显著优势:既能阻止那些本可抑制的风险转为实害,避免使版权人陷入补偿不充分甚至没有补偿的困境,也可以降低生成式人工智能服务提供者履行版权保护义务的成本。
综上,在算法自动处理与海量训练规模影响下,生成式人工智能版权侵权责任认定与分配难的根源在于旧制度功能与新技术需求的错位,因此,需要结合其侵权行为特征,探究更为妥适的风险社会责任形态。
二、构建生成式人工智能版权侵权避风港规则的缘由与思路
避风港规则是风险社会的一种新责任形态,具有满足特定条件给予责任豁免的构造特征。自20世纪中期被提出以来,避风港规则在反垄断、证券和网络监管等领域得到广泛应用。这些领域大都因技术创新、商业变革滋生各类侵权风险,亟须调整法律制度。避风港规则旨在克服旧制度与新技术之间的脱节,进而平衡促进创新与规制侵权行为的需求。
(一)生成式人工智能版权侵权避风港规则的内涵与功能
避风港规则是一种在相对抽象、原则、一般的责任标准下,以具体规则为行为人指明有条件的免责途径的立法技术
[26],是一种将普遍性和客观性优势结合起来的手段
[27]。就此而言,部门法中许多具有避风港之称的条款只是把避风港规则的基本原理应用到具体的情境中,其共同本质是基于特定条件的免责条款。避风港规则既不专指“通知—删除”的具体构造,也并非专用于版权间接侵权领域。从避风港规则的基本形态、适用效果及适用条件三个维度出发,可以分别回应生成式人工智能版权侵权的属性特征、规制目标与规制方式。
第一,避风港规则所采用的具体列举式立法技术,有助于化解“机器处理型”侵权的责任认定难题。依据传统版权侵权责任规则,生成式人工智能服务提供者若想免除过错责任,必须结合个案情况与技术原理逐一分析侵权构成。而避风港规则通过对可获免责行为进行详细描述,使各方不必通过推理才能主张免责效果,从而免受抽象标准不可预测性的影响。
[28]对于立法者而言,面临侵权行为规制难题,避风港规则使其无须大费周章地修改法律,也不必穷尽所有情形,只需将那些频繁发生、免责结论明确的作品使用行为进行总结,就可以保证传统版权侵权责任规则的稳定性,同时实现人工智能训练或应用的可及性与灵活性
[29],并有效降低修法成本与难度。对于司法机关而言,借助避风港规则可以有效节约在事实认定、法律适用中的信息成本,仅须查明基本事实即可涵摄免责效果,大幅降低司法决策难度。总之,作为一种专用于特定场景的具体规范,避风港规则可用较低的信息成本在大量应用中快速得到错误概率较低的决策结果,整体上大幅提升决策收益。
[30]
第二,避风港规则所达成的责任豁免效果,有助于实现生成式人工智能技术创新风险的合理分配。具言之,避风港规则可以通过两种免责方式实现分配正义:一是具体列举依据抽象标准不构成侵权的作品使用行为。实践中,考虑到是生成式人工智能服务提供者引发了侵权风险且版权人与之实力悬殊,法院可能要求其承担能力之外的注意义务,过错责任在事实上被异化为结果责任。
[31]此时,避风港规则主要发挥澄清作用,使生成式人工智能服务提供者免于过度承担侵权责任。二是适度限缩生成式人工智能服务提供者的注意义务。例如,在生成内容过程中,生成式人工智能服务提供者是否须履行版权审查义务并无定论,需视个案而定,若通过避风港规则明确免除审查义务,可大幅减少生成式人工智能服务提供者的运营成本。其正当性在于,根据被允许的危险理论
[32],若侵权使用是发展核心技术的伴生风险,基于其巨大正外部性,便应在一定范围内允许侵权行为发生,不应要求提供者对技术的罕见风险承担注意义务
[33]。以上两种免责方式在现行法律中均有体现:前者如《
反垄断法》第
18条,市场份额未达法定数额不构成垄断;后者如
《条例》第
22条,网络平台不必对用户上传的内容实施版权过滤。借助这些条款,相关领域的技术发展与商业变革均可以在宽松的制度环境中进行,值得借鉴。
第三,避风港规则所设置的版权保护措施,有助于践行“事先预防”的风险规制要求。避风港规则以事先履行必要措施换取免责后果为内容,有利于保障版权人的利益。其运行逻辑在于,尽管不具有强制性,但适用避风港规则获得免责的成本远小于收益:前者包括适度信息披露、合理比例补偿与系列技术措施等支出,后者包括节约获取许可成本和诉讼支出、免受损害赔偿责任和禁令,这可以充分激励生成式人工智能服务提供者建立版权保护措施。实践中,OpenAI公司认为其业务受避风港规则调整
[34],反映了避风港规则可以充分激发产业主体开展事先保护的积极性。如此一来,在最具有控制能力和信息优势的生成式人工智能服务提供者的防范下,避风港规则既能避免风险转为实害,也能防止已有侵害再次发生。更重要的是,避风港规则在设置事先保护措施时具有较高的灵活性,不论是传统民事责任形式,还是那些可用于调整大规模侵权损害的责任保险、救济基金、社会救助等非传统救济手段
[35],都可被纳入措施范围,如此将有助于减轻责任威慑,最大限度地保障版权人的利益。
(二)新设生成式人工智能版权侵权避风港规则的必要性
应当指出,避风港规则对于生成式人工智能的价值集中在制度原理层面,在该领域引入避风港规则,仅指应通过具体列举方式为生成式人工智能服务提供者设置有条件的免责,并非照搬“通知—删除”等已有规则。为了更加契合大模型的技术特点与侵权行为特征,我国有必要考虑新设生成式人工智能版权侵权避风港规则。
其一,生成式人工智能版权侵权在主体地位、主观过错、行为结构与传播方式上均不符合现行网络平台侵权避风港规则的适用情形。首先,生成式人工智能服务提供者具有“内容参与”属性,在数据训练、算法设定等方面具有特殊影响力,并非技术中立主体。一方面,生成式人工智能服务提供者可能直接作用于生成内容,另一方面,此种作用不具有强控制力,模型可以脱离控制随机创作,其处理过程和输出结果具有高度不确定性。可以说,服务类型的差异使生成式人工智能服务提供者注定承担与传统网络平台不同的注意义务。其次,在模型训练阶段发生的侵权行为,生成式人工智能服务提供者处于明知或应知状态。《
民法典》第1195—1197条规定的避风港规则系过错责任下的具体指引性规定,旨在列举主体因没有过错而不构成侵权的情形。但在模型训练时,生成式人工智能服务提供者往往借助扫描上传、算法爬取、数据中介等方式获取训练数据集,必然知晓其中包含作品。为了提高模型质量,一些生成式人工智能服务提供者还会刻意输入各类作品。就此而言,生成式人工智能服务提供者在模型训练阶段的作品使用行为具有故意,明显具有主观过错,与上述条款的规范对象显著不同。再次,生成式人工智能服务提供者利用算法生成的内容侵权,不属于帮助侵权。在规范效果上,“通知—删除”规则免去的是网络平台的连带责任,以网络平台构成帮助侵权为前提,要求同时存在用户的直接加害行为及平台的帮助行为。但在大模型领域,即便生成内容是由用户指令触发,但用户可能并非刻意为之,相似表达系模型自动生成。即便用户刻意引导,生成内容的高度随机性也使得很难认定生成式人工智能服务提供者存在帮助行为。最后,
《条例》第
22条主要调整信息网络传播行为,而大模型随机生成内容更具非交互性特征。总之,生成式人工智能版权侵权与“通知—删除”等传统网络平台侵权避风港规则的法理基础与适用条件显著不同,盲目照搬将造成既有条款的适用混乱。