·数据刑事法治专题·
涉生成式人工智能数据犯罪刑法规制新路径
内容提要:我国数据犯罪刑法规制的侧重点在于数据控制行为的规制以及数据分类分级的保护。生成式人工智能的应用导致数据控制行为合法性增强、数据利用行为风险攀升以及数据共享需求提升。生成式人工智能的应用可能会引发现行数据分类分级标准的功能性失灵并造成
刑法在法益保护上的漏洞。应当确立“数据利用”行为规制观与“全类别+分类分级”数据治理观。现行数据犯罪刑法规制模式属于权利保护模式,应当采用“权利保护+集体法益保护”的复合模式。复合模式保护的集体法益应当是数据管理秩序而非数据安全。应当修改拒不履行信息网络安全管理义务罪的构成要件以应对生成式人工智能“自发”侵害数据法益的情形。应当增设非法分析数据罪、操纵数据罪以应对行为人利用生成式人工智能侵害数据法益的情形。
关键词:数字经济;生成式人工智能;数据犯罪;非法分析数据罪;操纵数据罪
一、问题的提出
时下,以数据为基础的数字化技术已成为数字经济时代下政治、经济和社会高速发展的重要技术工具。与此同时,数据也当然成为重要的战略性资源。为保障数字经济产业中数据的保密性、可用性以及完整性不受侵害,立法机关逐步出台《
网络安全法》《
数据安全法》《
个人信息保护法》等专门性法律强化对数据的前置性保护,为数据安全体系建设提供了法律保障与制度支撑。
〔1〕在刑事领域,立法机关数次出台
刑法修正案对我国
刑法中数据犯罪罪名体系加以完善。在现阶段,我国数据犯罪罪名体系所涉罪名既包括传统数据应用场景下的计算机类数据犯罪罪名(破坏计算机信息系统罪、非法获取计算机信息系统数据罪等),也包括以数据所承载信息内容为划分依据的信息类数据犯罪罪名(侵犯公民个人信息罪、侵犯商业秘密罪、非法获取国家秘密罪、非法获取军事秘密罪等)。
自OpenAI于2022年发布ChatGPT以来,以ChatGPT为代表的生成式人工智能迅速渗透进社会生活的方方面面,并由世界各国不断推陈出新。可以说,生成式人工智能在数字经济中的应用场景、应用方式已呈现激增态势。从技术层面来看,生成式人工智能得以迅速发展的根本原因在于,在“Transformer架构”以及“预训练+微调技术”等大模型技术的加持下,其不仅具有了深度学习规模化数据的能力,更具备逻辑推理、自我纠错、自我创造等以往人工智能均不具备的新特点、新能力。
〔2〕毋庸置疑,生成式人工智能已革新了以往人工智能获取、利用数据的方式。但应当引起我们注意的是,在生成式人工智能蓬勃发展的背后,伴随的是纷至沓来的新型数据安全风险以及数据保护需求的巨变。面对这一情况,我们不免为之感到担忧的是:依托现行数据犯罪罪名体系开展的数据犯罪刑法规制未必能够收获预期效果。中共中央、国务院于2022年出台的《关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“《数据二十条》”)明确提出,要充分认识和把握数字经济发展规律,并将完善数据治理体系,保障数字经济产业安全发展作为工作原则。这就要求数据犯罪刑法规制必须随着数字经济产业的发展而变化。对此,笔者拟围绕生成式人工智能的技术特点,对数字经济时代与生成式人工智能应用场景下的数据保护需求加以分析,探讨涉生成式人工智能数据犯罪刑法规制的基本理念与基本模式,为
刑法恰当参与数据治理提供有益方法。
二、涉生成式人工智能数据犯罪刑法规制的基本理念
(一)从“数据控制”到“数据利用”行为规制观的转化
理论上,以数据处置方式作为区分标准,我们可将数字经济产业中数据处置过程细分为上游行为与下游行为。前者包括了数据创造、获取、修改、流通等数据控制等行为;后者则包括数据使用、储存等切实发挥数据功能的数据利用行为。应当看到的是,现行
刑法明显侧重于规制数据处置上游行为,主要体现在立法机关就非法获取、编造、传播、破坏数据等发生在数据处置上游的行为方式专门设置罪名加以规制。例如,《
刑法》第
285条、第
286条规定有非法获取计算机信息系统数据罪、破坏计算机信息系统罪,专门规制针对计算机信息系统数据的非法获取、破坏行为。再如,《
刑法》第
181条、第
291条之一分别规定有编造并传播证券、期货交易虚假信息罪、编造、故意传播虚假恐怖信息罪、编造、故意传播虚假信息罪,司法机关可依据上述条文追究编造、传播承载特定内容数据的行为人的刑事责任。比较而言,立法机关在对数据处置下游行为中非法利用数据行为的规制上则采取了截然不同的思路。立法机关并未针对非法利用数据的行为方式设置专门罪名,而是将非法利用数据的行为方式与其他行为方式并列规定在罪状之中。例如,在数字经济时代下,数据在很大程度上会成为商业秘密的数字化载体,《
刑法》第
219条侵犯商业秘密罪所规定的非法获取、非法披露以及非法利用商业秘密三类行为方式均可能涉及数据犯罪。
〔3〕由此,我们不难看出,立法机关并未就非法利用商业秘密这一行为方式专门设置罪名,而是将非法利用商业秘密与其他行为方式并列规定在侵犯商业秘密罪的罪状之中。再如,《
刑法》第
142条之一妨害药品管理罪也仅将“药品申请注册中提供虚假数据”这一非法利用数据行为作为妨害药品管理行为中的一种行为方式加以规定。
就此而言,我们可以看出,无论是从
刑法所规定的行为方式数量还是行为方式所涉专门罪名的数量上看,立法机关均更重视非法控制数据行为的规制,体现出明显的“数据控制”行为规制观。
所谓“数据控制”行为规制观,是指在针对数据犯罪的刑法规制中,
刑法侧重规制非法控制数据行为,重点保护数据主体支配、控制数据权利的数据犯罪刑法规制理念。“在规制重点上,通过抑制非法获取或者泄漏数据等削弱数据主体对数据排他性控制程度的行为,强化数据主体对数据的控制。”
〔4〕在“数据控制”行为规制观之下,数据犯罪刑法规制主要以维护数据主体对数据的有效控制为目的。应当看到,数据主体对数据的有效控制主要是以数据的保密性、完整性以及可用性不受侵害为前提。因此,在“数据控制”行为规制观的指引之下,非法获取数据、非法传播数据等侵犯数据保密性的行为,以及通过篡改、破坏数据进而侵害数据完整性、可用性的行为必然成为现行
刑法的规制重点。从“数据控制”行为规制观的功能作用上看,将刑法规制数据犯罪的侧重点落脚于非法控制数据行为,在某种程度上的确有利于将数据处置风险遏制在数据处置的上游阶段,从而降低数据因脱离数据主体控制而被进一步非法利用的可能性。尽管如此,我们不应当忽视的是,“数据控制”行为规制观虽然能够起到及时保护法益的作用,但是,由于其脱胎于特定时期,难免具有一定的历史局限性。正如有些学者指出的,“当前《
刑法》所规定的数据犯罪主要源于前数字经济时代,所保护的数据类型及对侵害行为的规制皆无法适应数字经济时代的发展需要……”
〔5〕同时,我们也应当看到,现行数据犯罪罪名体系仍然以《
刑法修正案(七)》所确立的计算机类数据犯罪罪名为核心,且后来历次
刑法修正并未改变这一数据犯罪罪名体系格局。但是,笔者认为,这一罪名体系格局似乎并不能完全适应数字经济时代的发展需要。特别是如前文所述,伴随着生成式人工智能的横空出世,数字经济产业已迎来重大变革,生成式人工智能对数据的处理与应用相较于以往的数字化产品存在天壤之别。在此情况下,生成式人工智能的数据应用需求与数据犯罪刑法规制理念之间的内在张力正逐步体现出来。
面对生成式人工智能的高速发展,依笔者之见,在涉生成式人工智能数据犯罪刑法规制的基本观念上,我们原先所秉持的“数据控制”行为规制观似乎应该向“数据利用”行为规制观转变,也即数据犯罪刑法规制的重点应当由侧重规制非法控制数据行为向侧重规制非法利用数据行为转移。主要理由有三:
首先,“数据控制”行为合法性增强。一方面,生成式人工智能所获数据基本为已公开数据。如前所述,生成式人工智能区别于以往人工智能的重要原因就在于生成式人工智能以语言大模型作为技术基础,语言大模型能够不断通过爬虫技术规模化收集网络空间中已公开的数据信息,并且还能不断收集“人机互动”过程中所产生的数据信息,用以丰富语言大模型数据库。在此基础上,生成式人工智能得以不断学习数据之间的关联性并实时掌握人类世界的价值偏好。“模型训练的背后离不开大数据的支持,OpenAI主要使用的公共爬虫数据集拥有超万亿单词的人类语言数据。”
〔6〕由此分析,我们不难看出,爬虫技术获取的数据均为网络公开数据,也即生成式人工智能获取数据的过程本身并不具有非法性。另一方面,生成式人工智能对数据的处理亦不属于篡改、删除等破坏数据行为。从生成式人工智能处置数据的方式来看,除了经由上述特定渠道获取数据之外,生成式人工智能还会对自我学习、自我纠偏过程中特定算法自动衍生的数据进行处理。
〔7〕换言之,生成式人工智能自我学习、自我纠偏的过程本质上是基于原始数据的逻辑推理与自我创作过程,是其独有的数据处置方式,并不涉及针对数据的篡改与删除。由于生成式人工智能获取数据、处理数据的方式均不会对数据的保密性、可用性以及完整性造成破坏,因此,笔者认为,在生成式人工智能的应用场合,“数据控制”行为的合法性似乎将得到进一步彰显。在此状态下,我们如果还将数据犯罪刑法规制的目光聚集于非法控制数据行为,既没有可能也没有必要。
其次,“数据利用”行为危害性攀升。从数据犯罪的行为链条来看,非法获取、传播等非法控制数据行为本质上属于手段行为,而非法利用数据行为则属于目的行为。“非法获取数据等行为并非数据犯罪的最终目的,其只是数据犯罪产业链的起始,非法处理和利用数据才是数据犯罪产业链的落脚点和根本目的所在。”
〔8〕在实践中,非法利用数据行为所造成的法益侵害一般更具针对性,相较于非法控制数据行为体现出更为严重的社会危害性。但令人遗憾的是,时下社会危害性相对较轻的非法控制数据行为被广泛规定于
刑法条文当中,而可能带来的风险更大(即社会危害性相对较重)的非法利用数据行为却没有受到
刑法的广泛或针对性的规制。特别是在生成式人工智能的加持之下,非法利用数据行为所导致的法益侵害风险已经迅速膨胀,
刑法作为保障法应当更具预防法益侵害风险的前瞻性目光而不应对此熟视无睹。具体而言,生成式人工智能所依托的语言大模型数据库中的数据处于不断更新、完善的状态,时下主流生成式人工智能产品已坐拥数十亿计的规模化数据。这无疑促进了“数据孤岛”的形成,并赋予了掌握生成式人工智能技术的科技巨头无形的数据支配地位,上述科技巨头很可能利用数据支配地位实施各类非法利用数据行为。例如,科技巨头完全可能利用数据支配地位实施流量造假、操纵检索结果等操纵数据行为。同时,由于生成式人工智能具备自我学习、自我创作等“自主性”能力,能够生成逻辑性更强且更契合人类价值观的生成内容。利用生成式人工智能所实施的流量造假、操纵检索结果等操纵数据行为,相较于以往的虚假宣传、网络诈骗等行为而言更具诱骗性。可见,生成式人工智能在数字经济产业中的应用将导致“数据利用”行为的法益侵害风险急剧攀升,现行
刑法在规制非法利用数据行为上存在空缺,致使针对数据的
刑法保护面临较大“危机”。
最后,“数据共享”需求提升。《数据二十条》明确提出“要充分实现数据要素价值、促进全体人民共享数字经济发展红利……”。就此而言,在数字经济时代,数据共享理应是实现数字经济蓬勃发展、充分发挥数据要素价值的重要途径。且“数据共享是一种重要的数据利用方式,也是数据流通和数据产业发展的重要基础。”
〔9〕应该看到,数据共享在数字经济发展中的价值主要体现在两方面:一方面,数据共享有利于维护数字经济产业的良好发展秩序。如前文所述,数据的规模化与集群化易形成“数据孤岛”并赋予科技巨头数据支配地位。“当其他中小企业难以获取数据时,这些超大型企业总是可以利用用户协议和生态系统而获得海量数据。”
〔10〕在此情况之下,数据的流通与利用均会受到较大阻碍,数据共享则有利于打破这一不均衡态势。另一方面,数据共享有助于激发数字经济产业活力。数据提供方与需求方的高效互动是数字经济产业不断创造社会价值的前提,而“数据共享方和数据需求方的连接点在于:数据共享方‘提供’数据,数据需求方‘获取’数据,这也是数据共享的过程。”
〔11〕应当看到,良好的数据共享有助于促进供求关系的高效互动,可以最大程度激发数字经济产业活力。生成式人工智能在各个领域的迅速渗透,更是提升了数据获取、处理与使用的效率,“数据孤岛”现象也越发显著,数据共享需求也将随之提升。笔者认为,秉持“数据控制”行为规制观很大程度上会扩张针对非法获取数据行为的规制。在“数据控制”行为规制观的策动下,
刑法必然会进一步扩大针对非法获取数据行为的规制范围,从而将更多领域中的非法获取数据行为作为犯罪处理,这无疑对数据共享的推进造成较大阻碍。
(二)从“分类分级”向“全类别+分类分级”数据治理观的转变
当下,以数据分类分级为基础的数据治理观念已有相对明确的规范基础。《
数据安全法》第
21条明确提出,需将数据分类分级作为数据治理的基本方式,并要求对核心数据、重要数据进行特殊保护。
〔12〕《数据二十条》再次申明“加强数据分类分级管理”是数据治理工作原则的内容之一。根据这些规定,我们完全有理由认为,“分类分级”数据治理观已然成为数据治理广泛遵循的原则性理念。《
数据安全法》明确强调需对核心数据、重要数据予以特殊保护。基于此,理论上大致可将数据区分为核心数据、重要数据以及普通数据三种数据类型。然而,我们必须注意的是,时下《
数据安全法》第
21条仅明确规定了核心数据的概念与特征,即“关系国家安全、国民经济命脉、重要民生、重大公共利益等数据属于国家核心数据……”而对于重要数据与普通数据的基本内容并无相应规范表述。虽然《
数据安全法》允许有关部门通过制定目录的方式来确定重要数据的内容,但由于各领域有关部门确定重要数据所考虑的因素各不相同,实践中仍然缺乏统一的“自上而下”的重要数据识别和数据分类分级标准。
〔13〕进言之,由于《
数据安全法》并未明确规定数据分类分级制度下所有数据类型的基本内容,我们无法明确数据分类分级的具体标准。也即对何为重要数据?何为普通数据?核心数据、重要数据以及普通数据三者之间的区别为何?等等一系列问题的答案均不得而知。这显然是导致事实上数据分类分级治理存在一定困难的实际原因。
依笔者之见,在生成式人工智能不断迭代发展的当下,数据规模的进一步扩张以及数据应用频次的不断升高等现象均对数据治理的有效性提出了更高要求。而《
数据安全法》中有关数据分类分级规定的指引性不强和实践性偏弱的现状,不仅会导致行政领域数据治理的无所适从,还会导致
刑法在规制数据犯罪行为时缺乏有效前置法的指引,从而导致在司法实践中产生一系列的困惑。应当看到,依托现有前置法构建的“分类分级”数据治理观在生成式人工智能的应用场景下可能显现以下问题:
首先,数据分类分级标准的功能性失灵。如前文所述,实践中确定重要数据的主要方式是通过特定领域有关部门制定重要数据目录,如《工业数据分类分级指南(试行)》《证券期货业数据分类分级指引》等。但是,生成式人工智能所利用数据的泛化,导致相关数据的归类存在现实困难。客观上根据有关部门制定的数据目录判断相关数据是否属于重要数据的相关工作,似乎很难开展。具体而言,在生成式人工智能出现以前,普通人工智能所利用的数据涉及的领域往往是特定的,负责监督管理的有关部门也较为明确。例如,券商公司开发的“智能投顾”所收集的数据主要是证券市场中的交易数据以及相关产品数据信息。“智能投顾”所利用的数据是否属于重要数据则可以依据证券监督管理部门制定的重要数据目录进行确定。然而,虽然生成式人工智能本质上仍属于人工智能的迭代产品,但其应对更为复杂的使用场景的能力却远超一般人工智能,主要表现为生成式人工智能的应用并不局限于某一特定专业领域。特别是“随着Sora等生成式人工智能技术上的日益升级与突破,人工智能时代发展进入了新一轮的跃升期,逐步从专用人工智能迈向通用人工智能(Artificial General Intelligence,AGI)。”
〔14〕在现阶段,生成式人工智能完全可以根据使用者的需求随时用以解决各个领域发生的问题。生成式人工智能所具有的通用性,首先导致的结果就是其所涉及的行政管理部门的泛化,重要数据目录的制定标准更是无从确定。这在某种程度上使得通过有关部门确定重要数据类别的数据分类分级方式面临功能性失灵的窘境。
其次,现行数据分类分级标准会造成法益保护漏洞。应该指出的是,数据分类分级标准的不明确,很可能导致实践中司法机关在对特定数据应否保护的问题上持暧昧态度,进而影响数据治理的及时性、妥当性,客观上造成
刑法法益保护的不足等漏洞。主要体现在以下两方面:一方面,对普通数据
刑法保护不到位。相较于普通数据,重要数据的
刑法保护更容易引起我们的关注。因为“对重要数据的保护实乃数据安全制度中承上启下的关键一环,重要数据保护得好,则数据安全就有了根本保证,其意义不可谓不重大。”
〔15〕故而有学者着重对重要数据的识别与保护进行了研究,但是较少涉及普通数据的内容及保护方式。例如,有学者在论及数据分类分级保护的具体方式时,将重要数据细分为敏感数据、一般重要数据、关键重要数据三类,并确立了以重要数据管控为核心的数据分类分级保护框架。
〔16〕但相关研究几乎不涉及普通数据的内容及保护方式。应当看到,前置法与学界对普通数据保护关注度的缺失,将在很大程度上导致对普通数据
刑法保护的漠视。但是,在生成式人工智能的应用中,非法利用数据行为并不仅以重要数据为对象,科技巨头通过获取规模化普通数据所形成的数据支配地位同样令人生畏。
刑法及其前置法忽视普通数据保护的做法必将影响普通数据保护的及时性与有效性,这无疑是我们需要重视与反思的。另一方面,部分重要数据同样可能被遗漏保护。应当看到,在现行数据分类分级保护框架下,即便是针对重要数据的分类分级保护同样可能存在遗漏现象。例如,相较于传统意义上承载具体内容的数据而言,日常生活乃至法律规定上通常不会将虚拟财产或计算机语言等称为“数据”。
〔17〕因此,在数据分类分级的讨论中,极易遗漏上述“非典型数据”,而此类数据可能承载财产、知识产权等具体法益,与普通数据明显不同。