■科技法学新视野
文章编号:1001-2397(2025)02-0189-20
人工智能大模型训练的著作权困境及其调适路径
张涛
(中国政法大学 数据法治研究院,北京 100088)
中图分类号:DF03
文献标志码:A
DOI:10.3969/j.issn.1001-2397.2025.02.13
开放科学(资源服务)标识码(OSID):250216_1.jpg
内容摘要:人工智能大模型训练引发著作权困境,传统作品许可使用机制面临功能失灵,既有“限制与例外”条款亦存在适用难题。当前学界提出的以“非作品性使用”为代表的“根源性”权利限缩模式,以及以“文本与数据挖掘”为代表的“封闭式”权利限制模式,虽在一定程度上能缓解困境,但因其理论局限和制度设计缺陷,难以真正有效平衡各方利益。相较而言,合理使用作为典型的“开放式”权益平衡模式,更具制度灵活性与适应性,可通过多层次评估框架弥补其操作困难与适用不确定性。与此同时,需辅以技术治理工具、训练数据透明度义务和合理补偿机制等创新措施,推动
著作权法的渐进改革与完善,保障著作权人的合法权益,促进人工智能技术创新与应用的协调发展。
关键词:人工智能;大模型;训练数据;著作权困境;适应性治理
目次
一、问题的提出
二、人工智能大模型训练面临的著作权困境
三、人工智能大模型训练的著作权法规制改革方案检视
四、迈向“开放式”权益平衡模式:合理使用的适用性
五、超越合理使用:通过技术、透明和补偿促进权益平衡
六、结语
一、问题的提出
在人工智能大模型引发的诸多法律问题中,
[1]模型训练的著作权侵权风险受到广泛关注。
[2]具体而言,人工智能大模型依赖于对海量数据进行训练,而其中相当一部分数据涉及受著作权保护的作品,导致数据使用的合法性问题凸显,甚至已成为全球范围内引发广泛法律争议的热点议题。例如,在国际范围内,以OpenAI、Stability AI等为代表的人工智能大模型开发者或平台,近年来频频遭遇著作权侵权诉讼,被指控未经授权使用含有受著作权保护作品的数据集开展人工智能模型训练,侵害原作品著作权人之合法权益。
[3]在国内,也已出现类似的法律纠纷,如插画师对人工智能绘画软件提起诉讼,主张其作品未经许可地用于人工智能大模型训练。
[4]这些案件的密集出现充分反映出人工智能技术与法律制度之间日益加剧的张力,体现出当前著作权法律体系在应对技术创新所带来的新挑战时存在的制度回应不足。
面对人工智能大模型训练引发的著作权困境,目前理论界尚未形成统一而清晰的法律规制意见。有论者认为,大模型训练对作品的使用是一种技术过程中的附随性复制,具有极强的转换性目的,可以认定为“合理使用”,应当通过设置机器学习合理使用条款,来明确模型训练中作品使用行为的合法性。
[5]还有论者则认为,生成式人工智能训练中的作品使用具有“非特定性”,并且属于生产过程性的中间使用,应当将其界定为“非作品性使用”而排除在著作权保护范围之外。
[6]这些争议背后存在的深层次问题在于:人工智能大模型的快速迭代和数据使用方式的深刻变革,已经对以往著作权制度赖以建立的基础理念、权利体系与利益平衡模式提出了严峻挑战。因此,如何在维护原创作品创作者权益与激励技术创新之间建立起一种新的动态平衡机制,成为当下著作权制度与实践必须正视并迫切需要解决的难题。2024年7月,《中共中央关于进一步全面深化改革 推进中国式现代化的决定》明确提出“完善生成式人工智能发展和管理机制”;2025年3月,全国人大常委会工作报告亦提出,围绕人工智能等新兴领域加强立法研究。在此背景下,本文旨在探讨人工智能大模型训练面临的著作权困境,分析现有著作权法律框架及拟议的规制改革方案之局限性,进而提出构建既尊重原创性又兼顾技术发展需求的适应性治理路径,以期为我国人工智能治理提供参考。
二、人工智能大模型训练面临的著作权困境
人工智能大模型(如GPT-4、Gemini-2.0、DeepSeek-R1等)训练涉及海量数据处理,具有极强的通用性特点,可被用于多个领域和多种任务,
[7]已引发复杂的著作权争议。本文主要从大模型训练中“数据处理”的法律定性、传统作品许可使用机制的功能失灵以及既有“限制与例外”条款的适用难题三个维度,系统剖析人工智能大模型训练对著作权制度的冲击和挑战。
(一)大模型训练中“数据处理”构成“作品使用”
根据《
中华人民共和国著作权法》(以下简称
《著作权法》)的规定,著作权主要包括著作人身权(如发表权、署名权、修改权、保护作品完整权等)和著作财产权(如复制权、发行权与出租权、传播权、演绎权等),因此作品的“使用”通常可以具体化为发表、署名、修改、复制、发行、传播、演绎(如改编、翻译、汇编等)等行为。在当前的人工智能大模型中,深度学习领域的核心技术架构分别是生成对抗网络(GAN)和扩散模型(Diffusion Models)。其中,生成对抗网络通过生成器与判别器的对抗性博弈实现数据分布拟合,其隐式马尔可夫链结构使得训练数据的可溯源性呈现指数级衰减;而扩散模型基于非平衡热力学原理,通过正向扩散过程的噪声叠加与逆向去噪的梯度优化,形成具有分形特征的生成路径。
[8]大模型的底层技术原理决定了模型训练的复杂性、周期性和过程性,其核心流程涉及数据收集、数据整理、模型预训练和模型微调等环节,
[9]其技术特征与
著作权法中的“作品使用”行为具有实质同构性。
[10]
第一,数据收集阶段主要涉及作品的复制,关涉复制权保护。复制权是著作财产权中最为核心的权利,其涵盖“以任何方式将作品制作一份或多份”的行为。一般认为,要构成
著作权法意义上的“复制行为”,应当满足以下两个要件:一是该行为应当在有形物质载体(有体物)之上再现作品;二是该行为应当使作品被相对稳定和持久地“固定”在有形物质载体之上,形成作品的有形复制件。
[11]人工智能大模型训练需要海量数据,一种常见的方法便是由开发人员或第三方从互联网上大规模爬取数据(如文本、图片等)来构建训练数据库,其中便包含大量受著作权保护的作品数据。
[12]从技术逻辑的角度看,利用网络爬虫爬取网页数据,主要是打开网页,将具体的数据从网页中复制并导出到表格或资源库中,其核心就是“抓取和复制”。
[13]无论作品是下载到个人电脑还是上传到云端,其副本通常都是以数字形式存储,即以可感知的形式“固定”下来,因而构成
著作权法意义上的“复制行为”,从而对复制权提出挑战。
[14]
第二,数据整理阶段主要涉及作品的复制、署名、修改等,关涉复制权、署名权、修改权和保护作品完整权等权利保护。署名权、修改权和保护作品完整权是著作人身权的主要内容。其中,署名权是作者在其创作的作品及其复制件上如何标记作品来源的权利,以彰显作者与作品联系的客观事实;而修改权和保护作品完整权实际上同属一种权利的正反面,保护作品的修改自由,不受歪曲和篡改。
[15]在人工智能大模型训练过程中,训练数据在进行使用前,首先要确保其结构良好、准确可靠。这就需要进行数据预处理,包括数据的清洗、集成、标注、转换等一系列步骤。上述处理手段的实现将不可避免地会对训练数据中的作品进行复制,还可能删除作者的姓名,对作品的完整性进行修改和调整。研究表明,当前主流训练数据集普遍存在元数据信息记录缺失现象,尤以数据溯源信息(Data Provenance)及对应授权许可条款为甚,在数据预处理阶段即对元数据(包含创作者身份、创作时间等关键权属信息)实施系统性剥离已成为技术惯例。
[16]
第三,模型预训练阶段主要涉及作品的复制和演绎,关涉复制权和演绎权。在模型预训练阶段,神经网络通过反复读取训练数据来调整内部参数,形成“预训练模型”或“基础模型”。在理想情况下,大模型并非以人类可读方式“存储”每一条训练数据,而是由模型参数以分布式方式隐含反映数据的统计特征,通过提炼共性特征实现对知识的泛化,而非逐字逐图记忆。然而,实证研究发现,大模型对训练数据存在一定程度的“记忆效应”(Memorization)。
[17]一方面,由于训练数据规模巨大,部分内容会被模型参数直接记忆,研究显示约0.1%—10%的训练数据片段被显性嵌入模型参数中;
[18]另一方面,即使未被直接记忆的作品,其独特表达也可能通过参数调整以功能形式保留下来,通过适当技术手段(如提示词)可将其重现为可感知的作品内容。
[19]研究表明,GPT-4等大模型在特定提示词下能输出与其训练数据完全一致或高度相似的文本。
[20]
第四,模型微调阶段主要涉及作品的复制,关涉复制权。模型微调是在预训练模型的基础上,进一步针对特定任务或特定应用场景,输入更具针对性的数据,以优化大模型在特定领域中的表现效果。从技术实现流程分析,模型微调阶段通常包含三个递进式数据处理环节:一是目标领域数据集的预处理阶段,可能涉及对受著作权保护作品的数字化转换与存储;二是参数调整阶段的梯度下降运算过程中,系统内存对训练数据的临时性驻留;三是模型权重更新时对数据特征的分布式表征,作品内容不是以传统意义上的文本或图像直接储存,而是以数值化、分布式的参数形式隐含存储。
(二)传统作品许可使用机制面临功能失灵
一般认为,著作权是作者依法对作品及相关客体所享有的专有权利,其根本在于自然正义,它赋予作者以权利,使之能够获得对作品的某些控制措施,以便为生产创造性作品带来某种激励。
[21]从权利属性的角度看,著作权的核心要素是排他性(Exclusivity),即赋予作者排除他人使用其作品的能力。
[22]为了确保这种排他性,“许可”便成为著作权持有者利用其作品的最重要方式之一,也是使作品使用行为合法化的重要前提条件,否则就可能构成侵权。
[23]如上文所述,人工智能大模型训练涉及受著作权保护作品的使用,因此需要获得相应的使用许可。然而,理论与实践表明,传统的作品许可使用机制面临功能失灵,难以使上述使用行为合法化。
1.许可使用机制在实践中面临可行性困境
人工智能大模型通常依靠动辄数亿条数据构建其训练数据,这些数据的数量庞大且来源分散,其中大量的数据条目涉及不同领域、类型与规模的作品。以典型多模态数据集LAION-5B为例,其中便包含了58.5亿条图像-文本对(Image-text Pairs)。
[24]为了确保数据的合法使用,大模型开发者可能需要逐一获得对应的著作权持有者之许可。在应对人工智能大模型训练的需求时,传统作品许可使用机制在技术和实践层面几乎无法完成,正面临系统性功能失调的严峻挑战。
首先,权利主体虚化与多模态使用的复合性困境。如前所述,训练数据大多源于开放的网络环境,尤其是通过网络抓取获得的作品数据,其本身很少为每一项数据保留元数据(如作者身份、来源、许可信息等),因此作品与著作权持有者之间缺乏明确、稳定的对应关系。此外,随着数字网络环境中创作主体的匿名化、去中心化趋势,大量“孤儿作品”充斥其中,这进一步加剧了“权利主体虚化”问题。
[25]更为复杂的是,多模态融合训练模式易引发权利交叉难题:当单一训练数据同时包含受不同权利保护的文本、图片、音频、视频等元素时,传统“分项授权”机制在技术层面将缺乏可操作性。
其次,规模化训练需求与原子化授权模式的制度性错配。“正像其他财产的权利一样,知识财产的权利也是一种人与人之间的关系。”
[26]即便大模型开发者能够成功找到具体的著作权持有者,谈判与协商过程本身的复杂性也将极大限制传统作品许可使用机制的适用性。著作权持有者对于作品的使用可能持不同的态度和诉求,在使用条件、授权期限、费用标准以及利益分配等问题上均可能存在重大分歧。即便大模型开发者试图与每一位著作权持有者开展谈判并协商许可,效率也将极为低下,达成统一标准的协议十分困难。
[27]
最后,逐一获得著作权使用许可还面临跨国界的复杂性。人工智能大模型训练所使用的数据集通常并非局限于单一国家或地区,而可能是跨域多个法域、多个地域界限的结果。众所周知,著作权保护具有显著的地域性特征,不同国家或地区
著作权法所规定的保护范围、保护期限、限制与例外的条件、授权方式、法律责任等均存在不小的差异,甚至可能出现显著冲突。因此,跨境许可的法律不确定性与协调成本,将进一步导致传统作品许可使用机制在全球化大模型训练活动中难以实施。
[28]
事实上,传统作品许可使用机制的功能失灵不仅仅停留在操作复杂性与成本高昂问题本身,其背后也反映了现行著作权法律体系与人工智能大模型技术特征之间的深层次矛盾。大模型训练是一种典型的数据密集型应用场景,其对受著作权保护作品的使用体现为规模性、自动化和批量化的特征,而传统作品许可使用机制则源自纸质时代对作品逐件控制的理念,根植于“个人作者、个人作品以及创造力是个人行为的观念”,
[29]强调逐一谈判授权的个体交易模式,天然与数据密集型的创新型数据利用方式存在龃龉。
2.许可使用机制可能产生负面效应
传统作品许可使用机制不仅面临功能失灵,还可能产生一系列负面效应。首先,许可使用机制的过度依赖可能成为技术创新的障碍。在人工智能大模型领域,高质量数据的可用性是人工智能技术创新的关键因素,若开发工作受到繁琐的授权许可程序和高昂协商成本的限制,研究人员和开发者可能会被迫放弃探索新的应用领域和技术突破。
[30]其次,许可使用机制可能导致不公平的竞争环境。在资源分配不均的情况下,大型科技公司通常能够凭借其雄厚的资金和法律资源,更容易获取作品的许可。相反,小型创业公司和研究机构由于缺乏足够的资金,可能在竞争中处于劣势地位。这种不平等的竞争条件不仅可能抑制整个智能行业的创新活力,还可能对消费者权益产生影响,“竞争的加剧才能为公众提供更多和更高质量的人工智能产品,从而使公众受益”。
[31]最后,许可使用的选择性和差异性可能影响训练数据的质量。如前所述,著作权持有者对作品的使用可能有不同的偏好和期待,一些权利持有者可能出于各种原因不愿意或无法提供所需的许可,这会导致训练数据集的不完整性。“广泛获取训练数据集将使人工智能变得更好、更安全、更公平。规模较小的专有数据集,尤其是因著作权许可失效而造成的大量非随机数据集,将导致机器学习系统做出更糟糕的决策,而这些糟糕的决策会对现实世界产生影响。”
[32]
(三)既有“限制与例外”条款存在适用难题
从经济学视角审视,著作权的“限制与例外”(Limitations and Exceptions)条款旨在通过调整著作权保护范围,从而在作品获取与创作激励之间实现社会最优平衡。
[33]各国的
著作权法以及一些重要的国际公约(如《伯尔尼公约》)均规定了对著作权的“限制与例外”,我国
《著作权法》把自由无偿使用和法定许可统称为“著作权的限制”。
[34]就人工智能大模型训练而言,当传统作品许可使用机制难以因应受著作权保护作品使用的合法性质疑时,还有必要检视现行法律框架中的“限制与例外”条款能否为其提供责任豁免。
第一,
《著作权法》的“自由无偿使用”条款存在适用性困境。我国
《著作权法》规定的第一种“限制与例外”类型是“自由无偿使用”,学术界通常将其称为“合理使用”,即在特定情形下,他人使用作品可以不征得著作权人的许可,也不必支付报酬,主要体现在
《著作权法》第
24条。现行
《著作权法》第
24条构建的封闭式列举模式,本质上是对模拟技术时代的制度回应,其预设的“个人学习、研究或欣赏”“适当引用”等例外情形,主要建立在人类主体有限使用的物理约束基础之上。然而,人工智能大模型训练的技术特性突破了传统使用行为的物理边界:一方面,模型训练通常需要对作品进行全文本解析与特征提取,这种“完整性使用”与自由无偿使用制度中的“片段化使用”范式形成冲突;另一方面,训练数据的商业化流转与价值转化,使“非营利性”要件面临解释困境。
第二,
《著作权法》的“法定许可”条款存在适用性困境。现行法定许可条款(如
《著作权法》第
25条规定的“教科书编写许可”、第
35条规定的“报刊转载许可”以及第
42条规定的“制作录音制品许可”等)的立法逻辑主要植根于特定公共文化产品的供给保障,其制度效能依赖于明确的使用场景限定与可操作的报酬计算机制。人工智能大模型训练虽然具有技术创新的正外部性,但绝大多数大模型主要由商业主体主导,其逐利本质恐难以完全契合现行法定许可制度所呈现的“公共性”倾向。更深层次的制度悖论在于:当海量数据使用遭遇微量报酬计算时,不仅可能催生天价许可费的现实难题(如谷歌数字图书馆计划的著作权争议),更有可能导致交易成本指数级上升而形成“反公地悲剧”。
三、人工智能大模型训练的著作权法规制改革方案检视
在现行著作权法律框架下,人工智能大模型训练中的“作品使用”面临合法性质疑,而传统作品许可使用制度和“限制与例外”条款均难以提供合法化机制。为了加强
著作权法对人工智能大模型训练的回应性,理论与实践提出了诸多规制改革方案,其中最具突破性的有两种路径:一是“根源性”权利限缩模式,即直接从根源上对以“复制权”为核心的著作权体系进行重构,对著作权的原有保护范围进行限缩,进而将大模型训练中的“数据处理”排除在“作品使用”之外,
[35]此种规制改革方案主要以“非作品性使用”(Non-work Use)观点为代表;
[36]二是“封闭式”权利限制模式,即先预设大模型训练中的“作品使用”存在侵害著作权的可能性,再通过设置例外情形进行明确的责任豁免,此种规制改革方案主要以主张直接在现行法律中设置类似于“文本与数据挖掘”(Text and Data Mining)例外条款的观点为代表。
[37]尽管上述规制改革方案从不同角度尝试回应人工智能大模型训练的著作权问题,但它们在理论与实践中均存在一定的局限性。
(一)“根源性”权利限缩模式:非作品性使用的不足
现代数字技术的发展和互联网的普及,已经使复制成为信息传递和使用的核心组成部分。例如,计算机程序、网络服务和数据存储等本质上都依赖于复制。这种依赖复制的技术模式与传统
著作权法规定产生了深刻的冲突,因为传统
著作权法往往强调复制对创作主体权利产生的侵害。
[38]对此,马修·萨格(Matthew Sag)教授认为,依赖复制的技术并不阅读、理解或欣赏受著作权保护的作品,也不直接向公众提供这些作品,但是它们必须复制这些作品作为各种算法技术的原材料,此种使用具有“非表达性”,不应被视为著作权侵权。
[39]亚伯拉罕·德拉西诺尔(Abraham Drassinower)教授亦主张,复制行为并非自动等同于作品使用,在很多情况下,复制是信息的物理或数字化重现,并不意味着该复制行为必然涉及到对作品的创作性再现或具有表达性内容。在此基础上,德拉西诺尔教授进一步指出,区分“作品性使用”与“非作品性使用”有助于避免滥用著作权的保护范围。若复制行为不涉及作品创作性或表达形式的再现,那么即便是通过复制的方式获取知识,也不应被视为不道德的行为。通过这种区分,社会能够更好地理解哪些行为应当受到保护,哪些则应当被视为合理的使用,最终为更广泛的信息共享和知识传播提供空间。
[40]
在此背景下,有观点主张用“非作品性使用”来解决人工智能大模型训练的合法性问题,即不将人工智能大模型训练中的“数据处理”视为“作品使用”,因此不应受到
著作权法的约束。德国学者丹尼尔·舍恩伯格(Daniel Sch?nberger)认为,人工智能大模型在训练过程中并不直接对受著作权保护的作品进行复制或变更,而是通过自动化的方式从大量数据中提取模式、规律与结构,这种使用更应被视为信息获取与技术创新,而非侵犯著作权的复制行为。
[41]国内亦有学者认为,大模型训练中的作品使用,具有“非特定性”,不指向具体而特定的单个作品,从功能上看,属于生产过程性的中间使用,应当将其界定为“非作品性使用”而排除在著作权保护范围之外。
[42]“非作品性使用”理论作为化解人工智能大模型训练中著作权困境的创新方案,虽具有突破性思维价值,但其理论自恰性和实践可行性仍面临困境。
其一,该理论可能对著作权制度根基构成解构性冲击。一般认为,
著作权法的核心目的之一便是通过赋予创作者的“专有权利”来形成“创作—保护—再创作”的正向循环。
[43]若将人工智能大模型训练纳入“非作品性使用”范畴,实则可能消解
著作权法对数字技术应用场景的规制效力,这不仅可能会引发权利配置的结构性失衡,更可能触发制度刚性下的系统性风险。
[44]从制度变迁的视角观之,涉及核心权利束调整的法律变革通常需承担高昂的路径依赖成本,其综合成本可能远超制度收益。
其二,该路径忽视作品创作者的权益保护。将人工智能大模型训练中的“数据处理”认定为“非作品性使用”,可能会导致创作者在作品被使用时缺乏相应的补偿机制。在数据资本主义语境下,
[45]科技公司可能依托“非作品性使用”的理论豁免,实质上构建“免费获取—商业转化”的单向价值攫取机制。这种制度安排不仅违背权利与义务对等性原则,
[46]更可能形成“数字圈地运动”式的权利真空。
[47]在一项对1000多名艺术家的实证调查中,超过95%的艺术家将他们的艺术作品发布在网络上,其中有53%的人预计将减少或删除他们的在线作品。
[48]这种防御性创作策略的蔓延,将可能导致公共领域资源的逆向收缩,最终可能危及人工智能训练数据生态的可持续性。
(二)“封闭式”权利限制模式:文本与数据挖掘的局限
为了给技术创新提供较为明确的法律框架,理论与实践亦尝试通过立法对“限制与例外”的具体情形进行明确规定的方式来增加法律的确定性和可预见性,即所谓的“封闭式”权利限制模式。在比较法中,为促进数字技术进步,欧盟、英国和日本等一些国家或地区已经明确将“文本与数据挖掘”纳入其版权法的“限制与例外”情形中。例如,欧盟于2019年通过了《数字单一市场版权指令》(Directive on Copyright in the Digital Single Market),其第2条第2项将“文本与数据挖掘”界定为“任何旨在分析数字形式的文本和数据以生成信息(包括但不限于模式、趋势和相关性)的自动分析技术”;第3条规定了第一种例外情形,研究组织和文化遗产机构为科学研究目的可以对其合法访问的作品进行文本与数据挖掘;第4条规定了第二种例外情形,任何人均可以为任何用途适用该例外情形,但版权持有者可以明确保留其作品的使用权,即可以通过“选择退出”或“合同退出”的程序来拒绝他人对其作品的使用。
在此背景下,围绕人工智能大模型训练的著作权风险,“文本与数据挖掘”这一法定例外情形便成为一种解决方案。
[49]尽管欧盟《数字单一市场版权指令》在规定“文本与数据挖掘”时并非针对人工智能技术,但是欧盟《人工智能法》第53条第1款第(c)项肯定了上述条款在人工智能领域的适用性,要求通用人工智能模型提供商“制定一项遵守欧盟版权法的政策,特别是确定并遵守(包括通过最先进的技术)根据2019/790号指令第4条第3段表达的权利保留”。美国学者迈克尔·卡罗尔(Michael W. Carroll)认为,文本与数据挖掘技术对于推动科学进展具有重要作用,
著作权法应当为学术研究和科学进步提供更多的灵活性和宽容度,应当明确允许人工智能或机器学习对大规模数据集进行挖掘和分析,而无需每次都获得著作权持有者的许可。
[50]在我国,一些学者亦主张从立法角度借鉴欧盟和日本,在立法中明确将诸如“文本与数据挖掘”或“人工智能创作”列为限制与例外情形,正面回应人工智能技术创新与发展的现实需求。
[51]
从长远来看,当人工智能大模型技术已完成突破性创新阶段进入应用深化期时,明确规定符合技术特征的著作权限制与例外情形具有正当性基础。然而,当前人工智能大模型技术尚处于快速迭代的动态发展阶段,通过制定类似于欧盟等域外法中的“文本与数据挖掘”例外条款,虽在一定程度上能够为人工智能大模型训练提供法律确定性,缓解其所面临的作品许可使用难题,但此种方案仍然存在局限性,需要结合技术特征设计更为细致的配套制度。
其一,“文本与数据挖掘”例外条款在国外实践中已经展现出较为明显的制度缺陷与矛盾。在比较法中,欧盟《数字单一市场版权指令》第3条、第4条虽然引入了“文本与数据挖掘”例外规则,但实践中却产生了大量的解释难题与争议。一方面,模型开发者在进行数据挖掘时著作权人拥有“选择退出权”,可能导致模型开发者无法真正放心、大规模、无障碍地使用所需数据;另一方面,附随的“权利保留”机制与人工智能大模型的技术特性存在冲突,海量作品的权利主张与退出声明追踪在技术上存在可操作性困难。
[52]此外,若采用完全开放的法定例外(如日本
《著作权法》允许的非欣赏目的的广泛豁免模式)容易忽视创作者的权益保护,导致著作权保护功能的弱化,进而可能降低创作者继续创作的积极性。
[53]例如,日本音乐著作权协会曾表示:“在涉及生成式人工智能方面,日本现行
著作权法并没有在保护创作者上做出贡献。实际上,日本
著作权法更加关注对创作者权利的限制。”
[54]这些国际经验表明,类似于“文本与数据挖掘”的例外条款本身并非完美无缺的方案,而是充满了复杂的利益衡量与制度选择困境,值得我国立法时审慎考量。
其二,单纯增加“文本与数据挖掘”例外条款可能存在与现有法律框架的协调难题。仔细考察我国
《著作权法》第
24条的立法设计可以发现,其规定的“限制与例外”情形通常是以特定的具体用途、明确的使用范围为基础设置的条款。然而,人工智能大模型训练属于一种复合性的、规模化的技术应用场景,其涉及的数据使用类型可能超出既有权利限制条款所预设的范围。面对尚处于快速迭代发展中的人工智能大模型技术,直接引入类似于“文本与数据挖掘”的“限制与例外”条款,可能导致制度层面出现条款适用范围不清晰、利益衡量标准模糊以及与其他权利限制条款之间协调困难的问题。正如威廉·帕特里(William Patry)所指出的,封闭的清单必须定期更新,否则就会扼杀技术或市场创新;任何立法机构,无论多么谨慎或富有远见,都无法考虑到当前所有的用途,更不用说尚未出现的用途、技术或市场。
[55]
四、迈向“开放式”权益平衡模式:合理使用的适用性
一般认为,
著作权法蕴含了一种“权益平衡”的权利保护哲学,如果保护力度过弱,人们可能不会投入过多的智力活动;如果保护力度过强,公众将无法从作品创作中获得全部预期收益。
[56]在此背景下,合理使用便成为维护权益平衡的关键制度工具,它可以使某些作品使用合法化,否则这些使用行为将引发著作权侵权责任。
[57]考虑到人工智能大模型的技术特性与发展态势,相比于“根源性”权利限缩模式和“封闭式”权利限制模式这两种极具突破性的著作权法规制改革方案,一些学者主张采用一种更为灵活、渐进的“开放式”权益平衡模式,即原则上将人工智能大模型训练纳入“合理使用”的范畴。
[58]不过,由于“合理使用”的认定本身具有极强的个案特性,
[59]再加上人工智能大模型训练的多阶段性和场景依赖性,本文认为,笼统地将人工智能大模型训练一概纳入“合理使用”范畴,也可能会重蹈上述规制改革方案困境的覆辙,难以实现包容审慎规制理念。
[60]因此,有必要结合人工智能价值链,充分考虑训练数据的类型以及不同的使用目的,建构合理使用的分类评估框架。
(一)人工智能大模型训练中合理使用的适用必要性
如前所述,互联网和数字技术带来的创新日新月异,企业和市场适应新技术的时间表已经大大缩短,因此试图规范数字技术引发的商业问题之法律也需要迅速调整。正如学者所言:“在这个高度动态、不可预测、且不断变化的信息社会中,
著作权法更加开放的必要性几乎是不言而喻的。”
[61]“合理使用”具有一定的灵活性,便成为“开放式”权益平衡模式的主要制度工具之一。在我国
著作权法理论与实践中,合理使用制度主要建立在《伯尔尼公约》的“三步检验法”框架之下。不过,有学者认为,“三步检验法”存在立法技术缺陷,挤压和侵蚀了合理使用的适当空间,也没有提供合理使用的宗旨或价值目标。
[62]在比较法中,美国版权法第107条规定了合理使用制度的四个要素:(1)使用的特性和目的,包括该使用具有商业性质还是为了非营利和教育目的;(2)被使用的版权作品的性质;(3)与被使用的版权作品整体相比,使用部分所占的数量和实质性;(4)该使用对版权作品潜在市场或价值的影响。
[63]
对此,有学者提出,我国可以借鉴美国合理使用制度的四要素对“三步检验法”进行重构,在此基础之上,可以将人工智能大模型训练中的“作品使用”归入合理使用的范畴。
[64]还有学者认为,即使以我国
著作权法中“三步检验法”作为判断标准,生成式人工智能训练数据的使用也可以构成合理使用,一方面此种行为不会影响作品的正常使用,另一方面此种行为整体上不会不合理地损害著作权人的合法权益。
[65]上述观点从不同维度证成了人工智能大模型训练中适用合理使用制度的正当性。本文认为,在大规模数字化的背景下,人工智能大模型训练不同于传统的作品使用情境,这为合理使用制度的适用提供了新的现实基础。
第一,非直接复制与去标识化的训练方式。人工智能大模型训练主要是通过深度神经网络的多层次表征学习,对训练数据集进行去标识化的特征萃取,其本质是对作品思想内核和表达范式的抽象建模,而非对具体表达形式的机械再现。
[66]从技术实现层面观察,人工智能大模型采用分布式表征技术,通过自注意力机制(Self-attention Mechanism)对输入数据进行向量空间映射,将文本、图像等作品要素解构为高维语义向量。
[67]这种技术路径具有三重法律意义:(1)数据处理的去个性化特征使得原始作品与输出结果之间难以建立可追溯的因果关联;(2)模型参数的形成是数十亿次梯度下降优化的累积结果,任何单一训练样本的影响权重主要呈现统计学意义上的弥散性;(3)权重矩阵的动态调适过程本质上属于技术系统自主演进的认知范式重构。
[68]
第二,训练的目的与“非竞争性市场”。合理使用的核心要素之一是市场替代效应分析,即作品使用行为是否对原始作品的市场造成了损害。从训练目的审视,人工智能大模型训练呈现出显著的“技术性使用”(Technological Use)特征,
[69]旨在通过数据要素的算法熔炼,建构具有通用认知能力的智能基座,有别于传统著作权侵权中直接攫取作品表达价值的商业化利用。
[70]就输出特性而言,人工智能大模型的涌现能力(Emergent Capability)使得模型输出结果与训练数据之间形成“双重绝缘”机制:一是在技术实现层面,如前所述,大模型通过潜在空间(Latent Space)中的特征解耦,将训练数据拆解为高维语义向量,使得输出内容难以精确溯源至特定训练样本;二是在法律效果层面,生成内容呈现非确定性和不可预测性特征,其机理迥异于传统“记忆存储—信息再现”模式中的确定性调用机制。
[71]