标题    全文    标题或全文  |   精确查询    模糊查询
标题:
全文:
期刊名称:
全部
作者:
作者单位:
关键词:
期刊年份:
全部
期号:
学科分类:
全部
搜索 清空
欧盟生成式人工智能立法实践及镜鉴
《法治研究》
2024年
6
105-118
陈亮;张翔
西南政法大学人工智能法学院;西南政法大学智能司法研究院
生成式人工智能利用海量未标记数据和合成数据进行持续训练,依赖深度神经网络等机器学习技术逐渐形成自主的行为能力,输出新颖结果、应用日趋广泛,正深刻改变着人际间的互动方式,其模型开发的资源密集型特性也促使复杂价值链条形成.生成式人工智能在运行节点的技术跃迁,引发了版权侵权、数据偏见、能耗过大、风险难测、虚假信息传播以及损害认定困难等监管挑战.欧盟人工智能法作出紧急回应,以"通用人工智能模型"为概念中枢,经由"通用人工智能系统"过渡,将生成式人工智能纳入"人工智能系统"范畴;输入端从数据数量和数据质量双管齐下设置合规义务,处理端引入"高影响能力"的自主性程度判断标准,并将"具有系统性风险的人工智能"嵌入风险分类分级制度,输出端则设计"检测、披露和透明度"等义务来规制虚假信息传播,部署端也专门设计价值链上的责任分配专条.虽然欧盟立法为应对生成式人工智能风险作出了努力,但在"抽象定义的确定性""衡量数据训练效果的方法""高级模型与小型模型之区分""系统性损害的确定"以及"API接口和开源模式对价值分配的影响"等方面仍有继续完善的空间.
欧盟人工智能法        生成式人工智能        定义范畴        系统性风险
EU AIA        generative AI        defined scope        systemic risk
  
欧盟生成式人工智能立法实践及镜鉴*

陈亮 张翔**

内容摘要:生成式人工智能利用海量未标记数据和合成数据进行持续训练,依赖深度神经网络等机器学习技术逐渐形成自主的行为能力,输出新颖结果、应用日趋广泛,正深刻改变着人际间的互动方式,其模型开发的资源密集型特性也促使复杂价值链条形成。生成式人工智能在运行节点的技术跃迁,引发了版权侵权、数据偏见、能耗过大、风险难测、虚假信息传播以及损害认定困难等监管挑战。欧盟人工智能法作出紧急回应,以“通用人工智能模型”为概念中枢,经由“通用人工智能系统”过渡,将生成式人工智能纳入“人工智能系统”范畴;输入端从数据数量和数据质量双管齐下设置合规义务,处理端引入“高影响能力”的自主性程度判断标准,并将“具有系统性风险的人工智能”嵌入风险分类分级制度,输出端则设计“检测、披露和透明度”等义务来规制虚假信息传播,部署端也专门设计价值链上的责任分配专条。虽然欧盟立法为应对生成式人工智能风险作出了努力,但在“抽象定义的确定性”“衡量数据训练效果的方法”“高级模型与小型模型之区分”“系统性损害的确定”以及“API接口和开源模式对价值分配的影响”等方面仍有继续完善的空间。
关键词:欧盟人工智能法;生成式人工智能;定义范畴;系统性风险
  人工智能治理是一项复杂的系统性工程,欧盟在世界范围内率先尝试以正式立法推动人工智能法律规制进程。然而,随着GAN、CLIP、Transformer、Diffusion、预训练模型、多模态技术、生成算法等人工智能技术集成应用和迭代升级,催生了以ChatGPT、DALL-E和Sora等为代表的生成式人工智能(Artificial Intelligence Generated Content,简称AIGC)大爆发,对人工智能规制形成新挑战——立足于传统人工智能的欧盟立法是否还能有效应对此种具有通用属性的新类型人工智能?与我国针对生成式人工智能开展专门立法不同,欧盟制定的是一般法意义上的“人工智能法”,即2021年4月欧盟委员会正式公布的“欧洲议会和理事会关于制定人工智能统一规则(《人工智能法案》)和修订某些欧盟立法法案的提案”(以下简称“2021人工智能法提案”)便是欧盟“人工智能法”的雏形。自2022年底出现人工智能技术拐点(以OpenAI推出ChatGPT为标志)之后,欧盟立法在“2021人工智能法提案”基础上历经数次修订,以应对生成式人工智能带来的监管挑战,其中较为关键的立法修订程序主要包括2022年12月欧盟理事会通过的“一般立场”(以下简称“2022人工智能法立场”)以及2023年5月欧盟有关机构通过的“关于报告草案的折衷修正案草案”(以下简称“2023人工智能法草案”);最近的一次重要修订是欧洲议会在2024年3月13日发布的“立法决议”(以下简称“2024人工智能法”),该法案于2024年7月12日在欧盟官方公报发布,2024年8月1日正式生效。
  综观欧盟人工智能法的变迁过程,该部立法对生成式人工智能的监管态度和规制方式实际上经历了艰难的价值博弈。为清晰展现欧盟立法对生成式人工智能的规制思路,本文首先从人工智能现象谈起,在系统论指导下遵循“输入—处理—输出—部署”链条,相对客观地“白描”生成式人工智能较之于传统人工智能的技术变化;在此基础上,继续观察生成式人工智能在进入人类社会生活后因其技术跃迁引起的“社会风险变化”和“社会关系变化”,正是这些变化构成了欧盟“2024人工智能法”修订内容的叙事背景;接着以欧盟立法史中变动的“人工智能法律定义范畴”为切口,初步揭示欧盟立法对生成式人工智能的规制模式,这也是人工智能立法应对监管挑战的逻辑前提;其后继续遵照系统论链条对欧盟“2024人工智能法”中涉及生成式人工智能的相关具体条款进行体系解释,以期勾勒出欧盟立法应对监管挑战的基本方案;最后,反思欧盟生成式人工智能立法的利弊得失,以此作为未来中国人工智能立法之镜鉴。
一、生成式人工智能的技术跃迁
(一)输入端:海量的训练数据
  生成式人工智能实现技术跃迁的关键步骤是“预训练转换模式”,以提前训练海量和多样的未标签文本为必要前提,而ChatGPT要想实现通用智能,则需要以“少调整”甚至“不调整”参数为目标[1],这就意味着“未标记数据”和“合成数据”自然成为生成式人工智能为满足海量训练数据需求的基本选择。
  传统人工智能以监督学习为基础,依赖具有预定义输入和输出的“大量标记(标注)数据”(为实现特定目的而精心策划的数据)进行训练,需要通过“人工注释”方式来准确学习并作出预测,以实现数据训练的高精度和高性能水平;相较之下,生成式人工智能允许系统从非结构化数据中学习,以找到数据集的潜在模式和结构特征,并在“没有明确人工指导”的情况下生成输出[2],这种生成新数据和新内容的能力使生成式人工智能在无监督环境中变得强大。
  合成数据基于深度学习、生成对抗网络(GAN)、3D渲染等方法形成,外观与原始数据样本相同,是一种映射真实世界模式的数据形态,其主要功能在于复制和替换原始数据,从而作为生成式人工智能的预训练数据以创建不同的机器学习模型。合成数据作为预训练数据的重要类型,其主要价值有四:一是数据库测试时“数据保真”,处理原始数据的合成版本,能够在不改变真实数据属性和成分的基础上获得相同结果;二是降低从真实世界收集原始数据的经济成本和时间成本;三是生成式人工智能可以通过生成新样本以增强数据集、提高基础模型的鲁棒性和泛化性;四是大型、多样化的数据集有利于强化自然语言处理和计算机视觉领域的性能。[3]
(二)处理端:自主的行为能力
  传统人工智能依赖于基于规则的方法,这些规则由人类专家根据他们对问题域的理解而设计,通过明确指令和预定义规则进行编程,使系统能够执行特定任务;生成式人工智能采用数据驱动的方法,模型不依赖于显式规则,而是使用深度神经网络等机器学习技术从大型数据集中捕获基础模式和结构关系来生成新内容。[4]深度学习技术源于人脑的生物神经网络机制,能够模仿人脑自动对数据进行特征提取、识别、决策和生成[5],其中以“利用人类反馈强化学习”(Reinforcement Learning from Human Feedback)为训练方式的Transformer模型是让人工智能进行自主深度学习的核心架构。譬如,将大量小说作品输入生成式人工智能模型,机器学习算法从输入的信息中学习情节、结构、人物、主题和其他叙事手段等元素,随着训练时间增加、生成数据增多,基础模型越来越复杂,其输出就越有说服力和人类特性。[6]
  生成式人工智能处理端的技术变化使其具备“自主的行为能力”,这种“自主性”特征体现在基础模型的运行目的、运行过程和运行结果的全流程。首先,基础模型的运行目的具有不可知性。基础模型对“少样本”“单样本”和“零样本”情形进行综合,在没有案例指引的情况下独立完成对任务的理解,这就类似于向人类下达同等任务,体现出高度自主性与问题应对的灵活性。[7]其次,基础模型的运行过程具有不可确定性、不可理解性、不可控制性[8]以及自我统摄性[9],其在大量未标记数据上训练,从中推断出模式而无需人工监督,使模型能够展示超出开发人员最初设想的“紧急能力”[10]。最后,基础模型能够生成类似人类理性的运行结果,甚至可以作出远优于自然人的决策。[11]一方面,生成式人工智能不仅仅是信息传播工具,其在一定程度上也是“信息生成者”,能够选择性设计信息内容、建构传播渠道,进而阻碍数据共享与完整传输,导致政策观念之间协商、修正的机会大大减少;[12]另一方面,生成式人工智能具备迁移应用能力,与通常被训练为执行一项特定任务的非基础模型不同,基础模型能够将其在执行任务A时获得的知识应用于任务B。[13]虽然生成式人工智能在理解力、逻辑性和功能化等方面呈现出强人工智能(General AI)特性[14],并且在解除一定限制的情况下,GPT-4能够自主使用各种工具完成工作,具备自我反思和迭代能力,能够实现从感知智能向自主认知智能跃迁,但ChatGPT基于语料喂养和人类反馈强化学习所训练出来的认知能力仍然有限。[15]在“是否可以脱离人类设计和编制的程序自主实施行为”标准下,生成式人工智能实际上处于弱智能机器人与强智能机器人的临界点。[16]
(三)输出端:多样的输出结果
  生成式人工智能的底层逻辑为“理解—创作”,它不是对既有内容进行简单拼接,而是对输入的数据进行演绎式创造,形成多样的输出结果。
  其一,生成式人工智能的输出结果具有一定“新颖性”。传统人工智能基于数据中的历史模式来预测特定用例的结果,而生成式人工智能则是在“理解上下文”的基础上生成新颖的类人内容,其擅长创制艺术类、音乐类和设计类等新内容,特别是在传统素材稀缺的情况下提供独特解决方案。换言之,生成式人工智能通过辅助艺术家和创新者探索未知创意领域,将抽象概念转化为有形现实,突破传统创意的界限,推动行业向前发展,使其成为激励创新的基石。[17]
  其二,生成式人工智能的输出结果具有广泛的应用场景。传统人工智能适用于特定用例,例如检测欺诈、下棋、识别图像中的异常情形;而生成式人工智能适用于各种通用的用例和应用程序,例如回答复杂问题,创建全新的图像、音频和视频等。传统人工智能的特定用例中使用专用程序,例如BI报告、仪表板、呼叫中心屏幕等;而生成式人工智能则有更多的人机交互界面,例如基于应用程序和Web浏览器的聊天界面。[18]
  其三,生成式人工智能的输出结果能够改变人机互动方式。随着技术进步,传统人工智能和生成式人工智能将协同工作,生成式人工智能主要用于简化人机交互,并使用传统人工智能来创建应用程序,它们将串联使用而不是各自孤立使用,即生成式人工智能的“通用性”(泛在性)也是有限的,其只是工具箱中的另一个工具。进言之,以生成式人工智能为基础的聊天机器人可以改变企业与客户间的互动方式,具备提高效率、参与度和满意度的优势。譬如,嵌入生成式人工智能功能的聊天机器人不断从每次互动中学习和适应,确保它们随着时间推移而变得更加有效,这种持续改进的循环预示着未来集成式人工智能将提供更加个性化和高效的客户服务[19]
(四)部署端:复杂的价值链条
  GPAI(General Purpose AI)模型的关键技术特征是其大尺寸(使用大量参数,即定义模型的数值)、不透明性(输出信息的计算机制难以解释),以及具有超出生产者预期的意外开发能力。并且,提供GPAI模型不仅需要大量数据和计算能力,还需要高水平的研究人员和技术工程师,这些都将耗费高昂的经济成本。GPAI模型开发的“资源密集型”特性促使其提供商(上游)和面向终端用户的公司(下游)之间建立相互依赖关系,表征传统单一用途人工智能应用范式的转变。与必须从头开始构建一个人工智能系统来执行特定任务不同,尖端GPAI(如Meta、Microsoft及其合作伙伴OpenAI等)能够通过传统上技术含量较低的“后台”公司为下游公司构建多种面向用户的应用程序提供基础设施支持,各种参与者负责同一过程的不同组件,使GPAI模型的生命周期变得复杂。进言之,上游和下游公司之间的这种牵连关系意味着不同参与者对GPAI模型的控制水平会根据上游GPAI提供商分发模型并将其投放市场的策略(目前大部分是开源软件或通过应用程序编程接口)而发生变化,即他们产生价值和将GPAI模型市场化的方式更为复杂。[20]
二、生成式人工智能引发监管挑战
  海量未标记数据在提高生成式人工智能性能的同时,也会出现以下风险:一是知识产权侵权,大多数生成式人工智能系统的核心——基础模型(FM)和大型语言模型(LLM)——是在海量数据上训练的神经网络,这些数据往往直接从互联网爬取,不少内容实际上受版权法保护,但数据使用者却没有为此支付对价。二是数据偏见,用于训练生成式人工智能模型的数据中存在历史偏见和其他形式的偏见,这些模型复制了刻板印象并可能导致仇恨言论等危险输出。[21]三是人工智能事件增加[22]斯坦福互联网天文台(SIO)的一项调查在一个开放数据集中发现了数百张儿童性虐待材料(CSAM)图像,而人工智能模型直接在容纳了数十亿张图像的公共数据集(LAION-5B)上进行训练,该数据集由机器在社交媒体网站、成人视频网站等直接抓取。[23]此外,生成式人工智能在利用合成数据训练时,存在“异常值”问题。一方面,将罕见事件编程到数据分发系统中非常困难;另一方面,合成数据因复制了输入数据的部分统计特征而忽略某些不可预测的真实数据,所以变量数据质量很大程度上取决于输入数据质量,严格的质量控制对于避免产生问题数据样本而言至关重要。[24]
  生成式人工智能利用未标注数据和合成数据进行训练,除了存在侵权风险之外,还因消耗大量淡水来发电供能和冷却处理器而导致环境问题等负外部性。譬如,在美国爱荷华州的西得梅因,一个巨大的数据中心集群为OpenAI最先进的模型GPT-4提供服务,当地居民的诉讼显示,2022年7月,即OpenAI完成模型训练的前一个月,该集群使用了整个地区约6%的淡水;当谷歌和微软训练大型语言模型时,两家公司的用水量都出现了大幅飙升,环境评估报告显示其一年内分别增加了20%和34%;预计到2027年,全球人工智能用水需求可能是英国的一半,Facebook的人工智能研究人员将该行业追求规模所带来的环境影响称为“房间里的大象”。[25]
  从处理端的运行机理看,即便生成式人工智能以有限自主性塑造着人类社会,其仍然存在突破预先设计的临界点而走向失控[26]的潜在风险。一是在风险来源方面,不仅识别和预见生成式人工智能使人类社会受益的方式具有困难,而且预测它们何时会造成伤害也更加困难。[27]二是在风险内容方面,GPT进行数据分析时可能故意利用少数群体和弱势群体[28],在隐蔽运行具有偏见的模型时,对数据进行监控与编辑,并在后续的编辑和处理中放大偏见效应,形成恶性循环[29]。三是在风险后果方面,生成式人工智能使“自主学习类算法共谋”不再停留于理论可能性,各类算法模型也不再受控于经营者而实现自我学习和自主决策,在某些情况下可以部分承担甚至完全分摊对某个特定结果的因果力作用,助推经营者之间“无意识”地达成更加稳定且持久的价格共谋,最终导致消费者福利减损。[30]
  由于生成式人工智能输入数据的质量良莠不齐,其在人工智能“自主性”加持下,输出端极易滋生“虚假信息”风险。虚假信息是指制造者故意误导读者,并能够通过其它来源证实其结果为假的信息,通常具有故意性(Intent)和可证实性(Verifiability)特征[31];利用生成式人工智能输出的虚假信息主要包括“事实性虚假”和“幻觉性虚假”两种类型[32]。随着ChatGPT、Midjourny等生成式人工智能系统广泛部署应用,网络空间中虚假信息的炮制效率、传播速度、生成体量和辨识难度也因技术迭代而出现倍增效应,加之大语言模型更符合人类语言表达习惯,ChatGPT极大缩短了传统人机交互之间的距离感,在人类个体与ChatGPT之间形成相互强化偏见的共轭效应。[33]这些虚假信息在网络空间中传播将引发极大风险,除了信息内容本身的非真实性引发信任衰退[34],带来持久性的社会信任危机[35],其对社会造成的危害还源于传播行为的负外部性[36],主要是扰乱社会秩序和为不法分子提供犯罪思路。[37]譬如,利用AI换脸和拟声技术实施电信诈骗、利用ChatGPT生成虚假新闻牟利、利用深度伪造软件生成具有侮辱性和诽谤性的内容侵害人格权益、诱导ChatGPT“越狱”而引发网络暴力[38]等,涉及金融、国防、反恐等领域的虚假信息传播还会直接威胁国家安全。
  在生成式人工智能部署端,GPAI开发公司和部署公司之间复杂的依赖关系、模型的多功能性,以及这两个因素与上游提供商发布策略之间的纠缠,对人工智能立法形成独特挑战。首先,从GPAI上游提供商角度看,其通常在数据上研究、设计、开发和预训练模型,有时还会采用不可知的风险管理和质量控制模式,然后确定GPAI模型的发行和定价结构。具言之,如果通过API发布模型,意味着提供商能够分析下游使用情况并设置访问条件,应对下游滥用,不断改进其模型和商业策略,并且不会丧失知识产权;如果提供商将模型作为开源软件发布,其将失去对下游使用情况的控制而只能利用间接市场化方式,但提供商可以将开源环境中下游开发的新功能整合到原始模型。其次,从下游参与者角度看,其可以决定模型的具体用途和训练数据,通过微调GPAI模型来生成更简单的人工智能应用程序,还可以选择在特定使用环境中提供风险和质量管理。如果通过API访问模型,他们可能会在评估或重新训练模型功能时面临限制;相反,使用开源模型,他们可以直接检查提供者最初训练的参数值并更改数据。因此,GPAI及其发布策略对人工智能立法形成挑战的根源在于上下游参与者之间“复杂的价值链条”。[39]
三、欧盟立法应对监管挑战的前提
  在人工智能立法时,调整对象界定、制度框架搭建以及具体规则设计,皆需科学、合理的人工智能法律定义充当识别社会关系、定性法律关系的第一道“滤网”[40]。近三年来,欧盟人工智能法历经数次修订,几乎每个版本草案都涉及人工智能法律定义的内容变迁,特别是在生成式人工智能出现技术突破并广泛部署应用后,欧盟人工智能法也对最初版本的人工智能法律定义进行“彻底”重构以应对这种颠覆性技术变革。因此,梳理欧盟立法中人工智能法律定义的变动历程,可以据此窥见欧盟人工智能法对生成式人工智能的基本立场和规制模式。
  “2021人工智能法提案”在第3条第(1)款界定人工智能的法律定义,认为人工智能是利用一种或多种技术和方法开发的“软件”,其在人类给定目标约束下输出“内容、预测、建议或决策”,影响与之交互的环境;并在附件1中封闭式列举出“机器学习方法”“基于逻辑和知识的方法”以及“统计方法、贝叶斯估计、搜索和优化方法”共三种系统开发的技术和方法基础。可见,最初版本的欧盟人工智能法提案并没有在定义中刻意关注生成式人工智能并对其定性,只是概念的部分要素——譬如“输出内容”和“机器学习”等——涉及到生成式人工智能的某些特征而与之产生弱关联。
  “2022人工智能法立场”主要从四个方面修订了人工智能的法律定义:一是将人工智能的属概念从“软件”更新为“系统”;二是增加“自主性元素”作为种差特征;三是明确了输入端的内容是“机器或人类给定的数据”,将处理端的技术限定为“机器学习、基于逻辑和知识的方法”,运行目标不再强调“人类给定”,在输出端新增“系统生成的”限制性表述,并且单独列举“内容(生成式人工智能系统)”来突出该种输出类型;四是删除附件1,在背景条款中增添6a和6b两条新叙述来阐明“机器学习”以及“基于逻辑和知识的方法”的具体意涵。根据“2022人工智能法立场”背景条款第(6)条,该定义基于人工智能的关键功能特征——例如学习、推理或建模能力——与更简单的软件系统和编程方法区分开来;虽然没有明确界定“生成式人工智能”的概念或者明示其与人工智能的关系,但背景条款叙述以“生成式人工智能”为例来揭示人工智能输出“内容”的特点,已经在法律定义层面间接表达出应当将生成式人工智能纳入“人工智能法”调整范畴的意图。
  “2023人工智能法草案”进一步将人工智能系统的定义范围缩小,使其与经合组织对人工智能的定义保持一致。该定义首先明确了人工智能系统运行的事实基础(载体)是“基于机器”;其次描述运行过程特征——具有“不同程度的自主性”,而运行目标既可以是“明确的”,也可以是“隐含的”;接着以“不完全列举 等”形式表明“预测、建议或决策”三种主要输出类型;最后指出输出所影响环境的特征——“物理或虚拟的”。较之于“2022人工智能法立场”,该种人工智能定义的关键变化有二:一是删减“输入特征”“处理端的技术基础”以及“输出类型”;二是从“基础”“过程”和“目标”三个方面强化人工智能系统的运行特征,凸显其“自主性”。整体来看,“2023人工智能法草案”对人工智能系统的定义更加抽象化,虽然在第3条第(1)款的人工智能定义中剥离了其与“生成式人工智能”的间接牵连,但在第3条新增第(1c)款“基础模型”和第(1d)款“通用人工智能系统”,意在通过定义性条款为规制生成式人工智能提供清晰依据。“基础模型”是在广泛数据上开展大规模训练的人工智能系统模型,专为输出的通用性而设计,并可以适应各种独特任务,背景条款60h进一步要求,“欧盟委员会和人工智能办公室应当监测、定期评估这些模型的立法和治理框架,特别是基于基础模型的生成人工智能系统,可能会引发与违反欧盟法律、版权规则和潜在滥用的内容生成相关的重大问题”,由此形成对生成式人工智能监管的直接关切,而第28条第(b)款第4项更是直接阐明了生成式人工智能的意涵——专门用于以不同程度的自主性生成复杂文本、图像、音频或视频等内容,并且明确了“将基础模型专门用于生成式人工智能系统”的提供商义务。至此可以认为,“2023人工智能法草案”以“基础模型”为切入点,已初步形成对生成式人工智能的规制思路。值得注意的是,虽然第3条第(1d)款给定了“通用人工智能系统”的定义,但其与人工智能、基础模型以及生成式人工智能之间存在何种关联,在这一立法阶段暂时难以形成确切判断。
保存检索条件
X
添加标签:

给这组订阅条件设置标签名称,可以更加方便您管理和查看。

保存条件:
微信“扫一扫”
法信App“扫一扫”
操作提示
对不起,您尚未登录,不能进行此操作!
关联法条X