DOI:10.19685/j.cnki.cn11-2922/n.2025.02.011
生成式人工智能中信用数据法律保护的逻辑与进路
刘浩
(清华大学 法学院,北京 100084)
内容摘要:生成式人工智能场域下,信用数据法律保护是实现数字法治的关键一环。信用数据应以“用于识别判断企业和个人信用状况”作为核心判断标准,其具有实现直接效益、承担金融信贷以及维系社会信用的特有属性。就信用数据的流程性风险而言,其存在生成式人工智能的违法爬取与算法滥用风险;就信用数据的内生性风险而言,其存在生成式人工智能的回溯流转与深度伪造风险。信用数据的宏观治理应当重申目的限制原则的约束、确保利益衡量原理的运用以及实现多元治理理念的贯彻。信用数据的具体保障进路应当围绕事前监督的管理举措、事中监管的审查机制以及事后救济的责任分配展开,凸显生成式人工智能场域下信用数据法律治理的效率性、安全性以及公平性。
关键词:生成式人工智能;信用数据;风险治理;法律保障
中图分类号:D 923
文献标志码:A
文章编号:2096-9783(2025)02-0103-11
自OpenAI推出自然语言处理工具ChatGPT、文生视频工具Sora以来,以该类工具为代表的生成式人工智能(Generative Artificial Intelligence,以下简称GAI)实现了人机交互领域革命式的飞跃。当下,GAI在诸多领域的亮眼成就为人造科学与工程、生物学、医学等基础学科的融合发展铺平了道路,其将减少真实人工产品和虚拟人工产品之间的差异,实现虚拟世界和物理世界中人类经验和行为的交叉融合
[1]。毋庸置疑,GAI的交互性、自主性以及创新性深刻地影响和改变了既有的人际生活关系、社会利益分配,成为推动数字经济高质量发展、实现国家治理现代化的又一着力点。例如,2024年法国数据团队基于公共服务实用信息训练研发了模块化GAI“Albert”,其旨在提升行政手续的效率而满足行政机关提供公共服务的不同场景需要
[2]。然而,GAI特有的倾向性预训练语言模型、周期性数据处理流程、“黑箱式”算法逻辑规则等缠附诸多未知的风险,如美国一名律师借助ChatGPT搜集类案资料呈交法官,该机器人明确表示生成的案例信息“千真万确”并且附带了相关信息的出处,但法院最后证实,原告方所提交资料的判决结果和引语等全部是子虚乌有
[3]。
既有研究尚未针对性地关注GAI中信用数据的风险治理和法律保护问题,但这是十分特殊且必要的。因为在完整的GAI运行过程中,信息抑或数据
[1]成为构筑GAI应用的核心,是预训练、算法决策、结果输出三个阶段的重要参数,是在不同神经网络架构下开展机器学习、深度学习的“养料”。从金融风险来看,由AI生成的小作文欺骗性与迷惑性极强,低门槛、影响大的谣言出现抑或反转让以“信息 信心”为核心的股市市场交易秩序混乱、动摇投资者信心
[4],造成资本市场严重的信用毁损。鉴于此,本文将GAI场域下信用数据作为研究对象并具体展开如下探讨:分析信用数据有别于传统数据的规范定位,探析GAI中信用数据潜在的法律风险,辨析GAI中实现信用数据审慎治理的宏观逻辑,最后缕析GAI中信用数据法律保障的全流程进路。
一、生成式人工智能中信用数据的规范定位
信用与信用数据的关系在于:信用数据是传统观念上的信用在GAI场域下物理化的电磁记录,而信用是信用数据的保护法益,二者分属保护对象、保护目的范畴。信用数据的内涵和属性决定了GAI场域中信用数据的保护范围,有必要优先探寻其相应的规范定位。
(一)信用数据的基本内涵
从信用的发展历程来看,信用数据的出现拓宽了法律对信用的保护场景。在乡土社会的差序格局中,社会关系是逐渐从一个一个人推出去的,社会范围是私人联系的增加而构成的网络
[5],此时信用只有在私人联系的“熟人”社会关系中发生意义,其调整的社会规范主要是道德而无需法律过多介入。在受到大数据、人工智能深远影响的当前社会格局下,信用以数据为载体,在“陌生”社会关系中淡化了人格属性而导向了财产属性一侧,法律规范便强化了保护的正当性根基。从乡土社会到人工智能社会的转型,信用也相应地发生了时代性的变迁:即交易者从基于人身血缘的信任、契约合同的信任逐渐转化为对信息(数据)的真实性和有效性的信任,数据信用成为人与数据之间形成的一种单向信任的生产关系和社会关系
[6]。比如,就有效性保护而言,在网络交易平台恶意刷竞争店铺的销量和信誉导致店铺被平台以虚假交易事由搜索降权,此种“反向刷单炒信”行为被司法实践认定为破坏生产经营罪
[2],其大幅扩充了信用的法秩序保护场景。
从既有规范对信用信息基本内涵的框定来看,其主要包含“技术信用、经济信用以及社会信用”三种类型。第一种,国标《信用基本术语》(GB/T 22117-2018)2.22将“信用信息”规定为:个人或组织在社会与经济活动中产生的与信用有关的记录,以及与评价其信用价值相关的各类信息。其聚焦国家技术标准领域,对信用信息采取了“信用或信用价值”的“相关性”判断标准,其因界定范围过于宽泛而属于广义层面的信用信息。第二种,2022年《社会信用体系建设法(向社会公开征求意见稿)》(以下简称《信用建设法》)第二条将其规定为:可用以识别具有完全民事行为能力的自然人、法人和非法人组织身份和信用状况的信息。其围绕社会信用体系建设的领域,对信用信息采取了“身份与信用状况”的“可识别性”判断标准。相较于第一种而言,第二种类型中的“可识别性”比前述“相关性”标准的识别范围更窄,因而属于中义层面的定义。第三种,2022年《
征信业务管理办法》(以下简称
《征信办法》)第
三条将其规定为:依法采集,为金融等活动提供服务,用于识别判断企业和个人信用状况的基本信息、借贷信息、其他相关信息,以及基于前述信息形成的分析评价信息。其关注经济信用的领域而采用了“合法性、目的性以及信用状况的识别性”判断标准,属于狭义层面的界定。三种信用数据并非既有规范的内容冲突,而是从关涉业务场景进行的分类,因而难以按照某一时点规范的效力层级确定信用信息的统一内涵。实际上,信用大数据时代已不存在严格意义上的信用信息而无法通过列举识别,无论是征信还是社会信用立法领域,为实现立法的安定性和周延性,应将“用于识别判断企业和个人信用状况”的信用目的作为判断“信用信息”的核心标准
[7]。唯有对信用信息基本内涵的识别标准达成共识,探讨GAI中信用数据潜在的法律风险才有章可循。
(二)信用数据的特有属性
《
中华人民共和国民法典》第
一千零二十四条第二款将信用作为名誉权保护内容之一,名誉权与信用的法律保护问题在名誉数据与信用数据的保护问题上存在竞合关系。鉴于此,有必要对名誉数据与信用数据的规范属性加以甄别。
第一,信用数据具有实现直接效益的功能,是信用主体提升市场竞争地位的关键要素。除了文首利用GAI生成与信用有关的虚假小作文造成股价损失外,信用与收益的直接性关联还体现在互联网电商领域。因为在电子商务领域,刷单炒信直接损害的是电子商务信用评价机制,刷单者伪造信用指标侵犯了消费者的知情权、造成了不公平竞争以及平台运营者的巨大经济损失
[8]。类似的数据造假借助GAI迭代技术会变得愈发简单和门槛极低,但其皆未必与民事主体的道德、能力、声望,以及身体状态等有关而关涉名誉权。
第二,信用数据具备承担金融信贷的功能,是促进社会征信业务健康发展的核心要素。在征信领域,信用数据一般包含信息主体的借贷、担保、欠税、消费、生产经营等,在取得信息主体书面同意下,还得以涵盖个人的收入、存款、有价证券、商业保险等。信用数据得以揭示金融市场信用风险、减少信息不对称对市场效率的影响,授信方得以衡量贷款风险、减少交易成本、提高信贷决策效率;被授信方能够降低实物抵押担保负担、提升融资力度;监管者可以提高金融体系的稳定性、稳定国家金融秩序以及优化营商环境
[9]。尽管信用数据范围十分广泛,但《
征信业管理条例》(以下简称
《征信条例》)第
十四条明确禁止征信机构采集有关个人宗教信仰、基因、指纹、血型、疾病等个人信息,然而实践中的名誉侵权却多与前述被禁止采集的数据存在密切关联。
第三,信用数据具有维系社会信用的功能,是建立健全社会信用体系建设的基础要素。《信用建设法》将社会信用体系区分为政务诚信、商务诚信、社会诚信、司法公信四大类,其皆离不开对信用数据的合理收集以及安全保障;依据其第五十八条,信息数据可界定包含基础信用信息(用以识别信用信息主体身份和记载基本情况的信息)、能够反映信用信息主体信用的信息(如行政许可、法院判决以及荣誉表彰等)两类。于是,信用数据包含除了“个人信息”以外的其他数据,而关涉名誉权的数据则以“已识别”或者“可识别”为限,否则行为难以符合名誉贬损对象要件中的“他人性”要素。
二、生成式人工智能中信用数据的法律风险
众所周知,GAI引发新一轮技术革命的同时也引起了各国对数据风险的担忧,比如2023年意大利数据保护局(DPA)“一刀切式”地禁止使用ChatGPT,并限制OpenAI处理本国用户信息,而欧盟则于2024年公布《人工智能法案》(以下简称AI Act)展现了对新技术的谨慎态度。GAI模式运行的流程性与信用数据的流动性决定了数据安全风险的泛在性,要探索GAI场域中信用数据的法律保护逻辑与进路,应结合GAI的“数据训练、算法决策、结果输出”运行阶段展开风险分析。
(一)信用数据的流程性风险:生成式人工智能的违法爬取与算法滥用
其一,GAI的数据训练阶段存在对信用数据的违法爬取而引发安全性风险。第一,在数据训练的输出阶段,验证数据集预训练依赖于GAI对原生性信用数据的正向式、主动地爬取而缠附危险。以ChatGPT为代表的GAI在预训练阶段需要大量的数据支撑,当其被投喂数据时能够及时将社会所有个体的姓名、性别、电话、居住地址、出行轨迹、消费记录、诊疗档案等相关信息予以储存记录,此时仅需借助简单的机器算法便可轻而易举地推测出特定个体的个人偏好、财务状况、信用评级等隐私信息,加剧了信息泄露和被滥用的潜在风险
[10]。例如,2023年谷歌就曾被指控违法窃取数百万用户的数据来训练AI,Clarkson律所起诉谷歌“一直在秘密窃取数亿美国人在互联网上创造和分享的一切”,并利用这些数据来训练其AI产品(如Chatbot Bard),起诉书还称谷歌在构建其产品时“几乎占用了我们的整个数字足迹”,包括“创意和文案作品”
[11]。第二,在数据训练的输入阶段,GAI同样能够反向式、被动地借助系统模型将使用者输入的文字、图像、音频等内容以数据形式违规留存。例如,2024年11月OpenAI隐私政策的第4条明确规定了“个人数据的保留”,即平台保留用户个人数据的时长取决于多种因素,其判断取决于处理数据的目的、数量、性质、敏感性以及未经授权使用或披露造成的潜在风险等,但仅在某些情形下取决于用户的个人设置,其平台自主性决定程序极高而可能侵害GAI信用数据服务使用者的知情权、决定权以及删除权等。尤其是在以WarrenQ-Chat为代表的AI金融垂直平台中,信用主体数据处理的正当程序、合理期限等要素至关重要,其与信用主体的利益具有直接性关联而安全保护必要性显著增强。
其二,GAI的算法决策阶段从自发到自觉的数据处理模式容易造成算法滥用而招致失秩性风险。第一,在GAI算法模型的自主研发中,研发者在预训练阶段就已经通过循环式人工标注的打分模型优化改进了原算法决策模型,将生成的信用数据内容以符合研发者、使用者同行人领域的偏好标准,抑或外行人领域的平行评价呈现,该算法对信用数据的形成逻辑固有地内含了某种歧视性和垄断性风险。就歧视性风险而言,比如编程算法以一定的基准预先设立抓取的特定路径而带有明显的个人偏见色彩;就实效性的征信数据而言,如若个人征信系统包含个人信息的数据库更新频次不足而导致数据不准确,则算法对数据分析的结果与个人真实的信用评价便不匹配,进而影响个人的贷款成功率等
[12],其属算法滥用造成信用主体的不当“画像”、评分评级以及技术偏见,明显造成以信用数据为核心的征信体系、社会信用建设体系的秩序性混乱。在风险社会中,风险对立分配的逻辑在于:此种分配不仅取决于一个人的绝对财富水平,还取决于一个人相对于他人的财富水平;尤其是在此种风险对立下并非每个人都能从危险加剧情境中拥有“私人逃生路线”,于是个人相较于他人财富水平的对比关系决定了是否会被分配诸多风险
[13]。此种基于财富差异形成的风险分配逻辑,在GAI领域体现在算法设计的风险配置上:即在GAI三方法律关系下,算法研发者、服务提供者多以资力雄厚的网络数据平台、高新科技公司以及相关的金融信用公司为主,信用数据服务使用者可能因为未资本性实质参与算法的设计阶段而明显处于弱势地位。于是,GAI中算法滥用(尤其是当前服务研发者与提供者多以混同存在)能够形成经营者过度集中而限制市场竞争,进而通过限制信用数据流通制造市场的规模性垄断。比如,除去电子商务领域通过搜索引擎算法设计操纵店铺主体信用的自然搜索结果、等级排序而侵害数据信用的真实有效外,部分企业基于算法使用形成的价格政策可能会因违反市场规则而严重侵害国民对市场信用的信赖。比如,在金融高频交易领域,代表性的例子就是2014年美国的雅典娜资本调查事件,该资本编译了一种算法用于实施非常经典但迄今为止难以想象的金融操作,即利用算法作为一种市场收盘标记策略,允许在收盘前的几秒钟进行大规模市场交易以影响最后的交易价格
[14],通过算法滥用破坏信用数据的秩序价值内核。第二,GAI算法决策除了研发者的自主设计外同时包含了AI的自觉性部分,其形塑了“算法黑箱”生成信用数据机制的不可知性与可解释性危机。在算法安全风险形成的机制中,人为性是安全风险的前因,人是一切安全风险的起点,“人的意志”经由开发训练贯彻至“算法黑箱”的形成维护中,又以决策和行为的形式击穿开发、应用乃至监管的场景层而抵达“风险侧”
[15]。针对此种周期性与往复式的算法决策修改、对非专业人士代码技术解读壁垒的考量,GAI研发者与提供者实际上难以向被决策方说明算法生成信用数据的数理逻辑。于是,GAI算法技术的门槛性导致信用数据存在不可解释性的困难。同时,算法的应公开性与商业秘密的受保护性存在底层规范逻辑的冲突,于是GAI算法理解的非透明性造就了信用数据输出的不可知性。
(二)信用数据的内生性风险:生成式人工智能的回溯流转与深度伪造
其一,信用数据在GAI的结果输出阶段存在跨境的流动性风险。第一,该跨境流动性风险表现为对数据安全评估的违规风险。前已述及,信息数据包含识别性的基础信用信息、反映主体信用的信息两类。从事实上来看,其毫无疑问与个人信息存在重合。从规范上来看,《
中华人民共和国数据出境安全评估办法》(以下简称
《评估办法》)第
二条明确规定,数据处理者在我国境内收集和产生的重要数据和个人信息的安全评估适用本办法。《
促进和规范数据跨境流动规定》(以下简称《流动规定》)第七条规定,作为境内关键信息基础设施运营者的数据处理者向境外提供个人信息、重要数据(运营者以外的数据处理者向境外提供重要数据或者达到一定标准的个人、敏感个人信息)需要申报数据出境安全评估。《信用建设法》第六十四条亦规定,信用信息的处理应当在境内进行。然而,国内用户在使用以ChatGPT为代表的域外GAI应用时,相关信息却是传输至该服务提供者的境外数据处理中心,再经由AI应用反馈回复服务使用者;是否需要针对个人信息的收集、存储履行具体的事前告知同意便存在难题,而且其存在事实上的数据出境行为
[16]。因为,在使用者与GAI应用如此回溯交互之余,提供者已然完成域内信用数据的境外流转以及留存,因而当然地违反前述强制性规范中的安全评估义务。第二,该跨境流动性风险体现为对国家安全以及社会公共利益的风险。从规范上来看,
《评估办法》第
十九条和《
中华人民共和国网络数据安全管理条例》(以下简称《网安条例》)第六十二条将“重要数据”定义为:一旦遭到篡改、破坏、泄露或者非法获取、非法利用等,可能危害国家安全、经济运行、社会稳定、公共健康和安全等的数据。2021年《网络安全标准实践指南——网络数据分类分级指引》(以下简称网安指南》)2.2则对“重要数据”又作出如下限制性规定:原则上不包含国家秘密、个人信息以及企业内部管理信息,但当个人信息达到“规模性”或者基于海量个人信息加工形成衍生数据而关涉国家安全、公共利益时不受此限。于是,识别性的基础信用信息(即个人信息)和重要数据并非水火不容的概念,二者在前述谓之“规模性、关涉性”下存在包容的余地。从事实上来看,当前绝大多数的GAI应用除了支持自然语言文本、声音、图像以及函数调用等方式互动外,尚且配有数据实证分析、金融统计分析输入的特色功能模块,其为大规模、海量的信用数据跨境流动提供了可能。于是,信用数据的违规跨境流动不仅可能危及个人信用法益,而且极有可能危及国家安全、社会公共利益的超个人法益。也正是基于上述原因,中国支付清算协会就曾发布《关于支付行业从业人员谨慎使用ChatGPT等工具的倡议》,避免企业员工因使用此类智能化工具导致跨境数据泄露的风险出现。
其二,信用数据于GAI的结果输出阶段呈现数据失真性风险。在利用GAP深度合成领域,此种失真性风险体现在“深度伪造”(Deepfake)问题上。从技术上来看,深度伪造技术在诱发网络攻击方面带来了毁灭性挑战,该技术能够创建生成虚假视频、虚假图像以及克隆语音信息,网络钓鱼者可以生成几乎完美而足以代表各种大公司(主要是商业银行)股东的语音复制品,说服员工和公众泄露他们的登录凭证,从而导致网络攻击
[17]。例如,香港就曾发生诈骗分子利用AI的深度伪造技术从国外视听网站YouTube上下载视频,模仿跨国公司高层人员的声音并制作AI“多人换脸”视频,通过营造多人线上参与公司内部视频会议的假象成功欺骗公司职员转账2亿港元
[18]。2023年《
互联网信息服务深度合成管理规定