可信数据流通制度论
——治理范式经济秩序的形成
目次
一、引言
二、为什么建立可信流通制度:数据流通可信的重要性
三、可信数据流通制度的内涵:可信流通框架
四、可信数据流通制度的实现:可信数据流通设施定位和建设
五、结论
内容摘要:数据持有权可以支撑数据流通秩序的构建,但数据流通是数据分享利用的合作关系,而非产权交易关系,因而需要探寻与流通范式相一致的数据流通体制和机制。经过治理的数据可以流通,但缺失传统市场体制的制度要素,加上数据本身存在风险和远程交易,因此数据流通必须具有可信体制和机制。可信的数据流通包括流通关系可信、流通的数据可信、流通主体可信和过程可信,而这些都需要相应流通设施予以实现和运营。数据流通设施是以数据治理为核心的技术、制度和组织构成的体系,是数据社会化重用秩序的塑造者,是数据基础设施重要组成部分。数据流通基础设施应被定位为未来社会基础设施;应建立统一的可信数据流通制度框架和规则,指引各类数据流通设施的建设和运营。
关键词:数据持有者权;可信数据流通;数据流通制度;数据流通基础设施;数据重用
一、引言
数字经济时代,数据成为社会最为重要的资源,支撑数据收集、存储、分析和使用的基础设施成为创新发展的关键驱动力。数据是人工智能研发和应用的基础,人工智能的广泛应用将开启人类智能和机器智能相互补充和促进的认知革命。大规模、高效率、低成本获取可用数据资源,训练算法、机器学习,形成驾驭大数据能力,快速和精准产生观点或知识,成为当今世界各国发展和竞争的焦点。我国于2020年正式将数据列为第五大生产要素,以数据资源替代“数字化知识和信息”作为数字经济的关键生产要素。
〔1〕《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》(以下简称“数据二十条”)提出了要加快构建数据产权、流通、利益分配等数据基础制度,构建以数据使用权交换为核心的数据流通体制。促进数据可信流通,做强做优做大数字经济,增强经济发展新动能,是构筑国家竞争新优势的标志性、全局性、战略性举措。
自2014年起,我国开始探索数据流通交易制度,多家数据交易机构挂牌成立,但数据交易业务的开展却未能符合预期。在“数据二十条”发布之后,又有多家数据交易所(中心或公司)开设运营。这说明业界仍非常期待通过数据流通交易带动数据要素市场建设,满足社会日益增长的数据需求。但是,无论是政策制定者,还是产业界,对于什么样的数据可流通交易,可流通交易的数据应当如何流通等基本问题还未形成共识。从一些地方出台的法规或政策来看,“先确权登记,后流通交易”成为促进数据流通交易的基本思路。
〔2〕换言之,地方实践多将数据流通交易纳入产权交易路径,过度依赖产权范式实现数据社会化配置和利用。但问题在于,数据上不可能设置清晰的产权,并构建以产权交易为核心的数据社会化配置和利用的体制(即传统的市场范式或产权范式)。
〔3〕这是因为,数据只是对客观事实的数字化记录,人类需要借助数据来认知客观世界,数据上不适合设置排他性支配权。
〔4〕同时数据本身具备可无限分享利用属性,也不适于传统的产权范式。在人类社会进入到利用底层数据(大数据)时代,我们既需要结束“凡是能爬取的皆可用”的无序利用局面,也需要防止通过先发优势(类似于
物权法的先占制度)而垄断使用数据的局面,以保护各社会主体获取和使用数据的权利。
自2015年《促进大数据发展行动纲要》发布之后,我国一直致力于部署行业性、地方性、区域性的国家数据中心建设。究其本质,是为构建未来的数据基础设施,以支撑数据的流通利用。与此同时,地方政府和社会资本也十分积极投资建设市场化运营的数据交易所(中心)。但是,这些数据基础设施在定位和运营机制方面均存在问题,导致数据流通实践并不符合预期,制约了我国数据社会化重用目标的实现。笔者认为,“数据二十条”所提出的以数据持有权为基础,通过数据使用权实现数据流通使用是适合数据资源特征的制度安排。在当下,关键是要找到实现数据社会化配置和利用的落地实施体制机制。为与传统资源的社会化利用相区别,本文将数据的社会化配置和利用称为“社会化重用”,实现社会化重用的方式就是数据流通(亦称为数据分享),
〔5〕数据流通就是数据要素市场——数据经济。若传统市场经济的高效和安全运行是建立在产权信赖基础上的一套制度体系,那么我们只要寻求到能够实现数据社会化重用的可信数据流通制度就可以实现相同的目的。因此,本文尝试提出可信数据流通的制度框架,围绕为什么、是什么、如何构建可信数据流通基础制度三个方面展开论述,以探索缺失可交易产权的数据社会化重用秩序的实现,构建与治理范式相适应的数据经济秩序。
二、为什么建立可信流通制度:
数据流通可信的重要性
数据流通是脱离原数据持有者控制环境,满足不特定社会主体在新场景下或为新目的使用。
〔6〕对于数据接受者(使用者)而言,数据提供者提供的数据要可信赖,获取和使用可信赖的数据,不仅可以做出正确的决策,也不会因使用给使用者带来麻烦;对于数据提供者而言,数据使用者要可信赖,即数据提供者可以信赖使用者遵守使用约定,以合乎道德和法律且安全和负责的方式使用数据,不会给数据提供者带来困扰或风险。要实现高效率、低成本地关联、汇集一定规模的可用数据,更加需要信用机制来填补数据社会化重用制度的空白;同时,数据本身又是来源于社会具体场景的多源异构性资源,其社会化重用(即数据重用或流通利用)面临传统资源所未有的独特难题。构建适合数据资源特征的社会信任机制,方能破解这些难题,实现数据的有序利用。
(一)缺失产权的数据流通
市场经济下,资源社会化配置和利用是建立在产权交易的基础上的,产权是资源持有者合法持有交易资源和有权处分(交易)的法律凭证,由此建立起了基于合法产权的信任机制。在现行
物权法体系下,物权取得以消灭物上权利为原则,所有权人可以通过买卖等将所有权转让给他人,每个物上只有一个权利和所有者。通过权利公示机制,可以建立一套物权公示和公信规则,指导购买人判断出卖方有无合法产权。与此同时,善意取得制度使善意且尽到合理注意义务仍不能发现出卖人无权或权利存在瑕疵的情形下的买受人得到保护。
实际上,即使构建起明确的产权信任,仍然不足以保障交易安全,还需要约束当事人诚信交易和遵守市场规则的监督机制。为此,人类社会建立起一套法律制度规则和执法体制,确保权威的法律制度及其当事人之间的合约能够得到执行;同时通过自然人和组织信用评估、公示等制度,建立信用约束机制,以约束行为人恪守规则和承诺。公平、透明和稳定的制度以及基于制度执行和社会信用的双重约束,塑造了市场经济的信任。
〔7〕显然,传统市场经济的制度约束和信用约束机制仍然可以适用于数据资源的社会化配置和利用,解决数据流通中机会主义行为的风险,确保有效达成的数据流通交易得到执行和交易目标的实现。
但是,数据资源的取得、控制和使用并不能消灭数据权益,数据上可以并存个人隐私利益、国家安全利益、社会公共利益等,数据持有者并不享有完全自主决定权。这样,数据合法控制并不能够产生持有者有处分权的信赖。即使实践中我们可以清晰界分数据持有者对特定数据的控制,但是单凭控制事实并不能产生产权信赖的效果。即使将传统的产权登记引入到数据资源,也不太可能解决登记的数据持有人享有什么数据的问题。当数据内容和价值相对固定时,如支撑特定科研项目或成果的数据集,登记可以起到公示数据持有关系的作用。但是,数据大多在不断产生、流动和汇集(混合或结合形成新数据),数据仅在某个主体的某个使用时点上是稳定的,总体上却是不断变动的。
〔8〕传统的占有(事实控制)权利推定和登记公示权利的机制并不能直接适用于数据资源,我们无法通过合法产权机制来建立对数据可流通的信任。因此,我们需要寻找确保数据可安全地流通利用的信任机制,弥补传统产权信任机制在数据流通方面的缺陷。
(二)可流通数据标准的缺失
产品技术规格的标准化造就了不断扩张的社会化分工生产和市场交易,产品质量标准化和产品质量监督管理体制使所有交易相对人或消费者可以依赖产品的品质,提升了市场交易主体对交易标的物(商品)的信赖。信息技术驱动第三次工业革命,其具有兼容性和互换性的特点,不仅涉及通信协议或网络协议的标准化,也涉及信息格式和操作系统的标准化。当数字技术发展到利用网络和传感器记录原始数据并形成机器智能的新阶段,可机读数据可社会化重用的标准成为支撑数据流通利用的必要前提。
大数据是社会活动和运营活动的产物,数据社会化重用所面临的主要问题就是在特定场景和业务或活动目的下产生的数据能否为他人使用(计算分析)的问题。数据的场景性导致数据存在多样性、异构性,脱离原场景数据几乎很难理解和使用,数据语义是否可理解、格式是否一致、机器是否可识读等成为数据可重用的主要技术障碍。只有具备可重用性的数据才能成为可流通的产品,在不断重用中的累积、聚合与增长使得基于海量数据的数据智能得以实现。由于数据重用是为满足机器学习或训练的目的,因而数据可重用性还要求存储、处理和传输数据的系统达到彼此兼容、连接的程度。这就要求可重用的数据一方面具有一致的描述框架或数据标准化记录规范,另一方面具有相同的数据表示格式。
〔9〕满足这两个方面的数据也被表达为具备数据互操作性(Interoperability)。电气与电子工程师协会(IEEE)将互操作性定义为两个或多个系统或组件交换信息和使用已交换信息的能力。
〔10〕互操作性使数据要素成为任何市场主体使用的产品,使数据要素具有市场化的可流通性。数据可重用问题实质演变为数据要素的标准化问题。
〔11〕大数据最大的特征是异构多源,因而要使来源于不同系统、不同主体的数据能够方便地相互连接起来,就需要建立清晰和一致定义的数据要素描述规则。
〔12〕这样,无论数据流通到哪里,无论想获得什么见解或想解决什么问题,都能够正确理解所获得的数据,与更多数据实现匹配和聚合。
〔13〕
一旦将数据视为可以为不同主体使用的可流通的“产品”,除了需要在技术上可互操作外,还需要数据具有可以满足使用者需求的质量。数据使用者要信任其接受的数据是准确、完整、最新的,能够满足其分析需求。只有构建可靠的数据治理体系,才能实现这一目标。数据提供者只有按照一致的标准才能将数据治理成为可重用的数据,并按照数据使用方协议要求提供适合合同目的需要的数据。现在已经有一些国际组织努力建立数据标准,涉及元数据和词汇表,以形成搜索和浏览可重用数据集系统。构建有效的治理和质量管控体系,才能确保对外提供的数据满足潜在的使用者的需求。
(三)数据的风险控制难题
数据是有风险的资源,数据上并存各种利益,数据泄露和滥用会侵害数据上权益,存在危害国家安全的风险。这是因为数据源于社会、用于社会,社会中各种利益均会关联或折射到数据或数据使用上,导致数据并不能完全被作为客体来对待。因此,数据持有者要使用数据并发挥数据要素价值,就必须保护数据上的合法利益,维护国家安全,防范数据泄露和滥用风险。数据安全问题是数据资源或资产化利用面临的较为独特的问题,也是数据使用和流通的前提。
数据流通意味着跨主体控制地域的使用,在这过程中可能会产生两种额外的风险。其一为流通过程中数据泄露的风险,即数据在移转(传输、调用等)过程中,被泄露或被不法(含超权限)访问的风险。其二为流通后数据使用者的道德风险。
〔14〕在数据交付使用过程中的泄露风险,源自数据本身特征,在某种程度上可借助安全传输或系统控制来降低或防范。但是,一旦脱离提供者可控制的系统环境由使用者完全控制使用后,是否超约定范围使用、滥用甚或违法使用就完全取决于使用者的诚信。
〔15〕尤其在数据有多重来源和多个使用主体的情形下,会增加使用者的冒险行为,进一步放大风险。如何控制流通后数据使用行为,让数据流通过程可追溯、使用行为可以追责,防范使用者道德风险是数据流通面临的主要问题。
因传统货物贸易的风险均被打包在产权之下得到解决,存在于数据流通中的风险在传统货物贸易中几乎不存在。在传统物权体制下,物权取得规则尽可能消灭物上他人利益,并形成一套清晰规则以判断物权是否清洁或是否涉及他人合法利益,货物的交付(运输)风险通过产权或货物移转风险移转规则得到清晰的界定。一旦成为新所有权人,则独立承担一切使用风险(一般不牵连到出卖人)。对比之下,数据要流通就必须正视数据流通风险,在没有产权工具界分责任/风险的情形下,需要建立数据流通过程可监督和责任可追溯机制,降低源自数据本身和流通交易的双重风险。
(四)数字化远程交易的主体信任问题
数据交互和分享使用是社会运行和交往的必然要素,因而即使在没有成熟的数据流通市场的情况下,也存在数据互换使用或合作,但一般限于具有商业往来或合作基础的组织之间。这是因为,在过往的相互了解或交往基础上形成的人际信任可以增加数据合作的机会。陌生人之间则缺失这样的基础,此时就需要契约型信任作为替代,而契约信任则需要法律制度提供保障。由于数据天然地具有可以被网络传输或处理的属性,数据流通往往通过网络进行,开展数字化的远程交易。因此,数据流通也面临所有网络交易同样具有的身份和行为安全问题。这是因为数字化远程交易给契约信任带来了新问题——主体信任问题。因为不管是身份信任还是契约信任,都以主体确定作为前提。然而在网络环境中,行为主体具有虚拟性,基于主体确定的传统信任关系受到严重挑战。
〔16〕因此,要在数字化平台实现数据的社会化流通,还必须解决主体的身份判断和真实性问题,解决将特定数据行为与特定主体关联起来的行为(责任)归属问题。
源自数据本身的特殊性影响了数据流通交易的安全和效率,可以借鉴人类在塑造市场经济信任体系方面的法律制度方法,运用法律执行、信用惩戒、交易担保等为数据流通保驾护航。因数据资源本身的特性,无法基于传统的产权制度构建社会化流通利用的制度体系。“数据对于构建有能力的人工智能和数字系统至关重要,值得信赖的数据生态系统能够实现安全无缝的数据流。”
〔17〕在进入智能时代之后,高效率、低成本、大规模汇集数据的需求迫切要求解决流通信任问题。这不仅需要解决流通交易过程的安全问题,更需要解决对实施数据流通的主体的信任问题。只有确保收集和使用数据的主体可信,才能开展后续的数据流通交易。
三、可信数据流通制度的内涵:可信流通框架
信任本质上是指信赖人对受信人未来行为和/或事件(在特定的外部/环境条件下)的发生的期望。在社会交往(包含商业交易)中,信任是人们交往和合作行为的基础,是传统市场经济的重要组成部分,可以减少机会主义、“搭便车”等道德风险。数据本身是有风险的资源,缺失基础制度、清晰产权、可流通数据和流通规则的情形下,数据流通面临着标的界定和制度规则双重的不确定性,因而数据流通迫切需要建立一套制度规则和治理机制,确保在不同主体之间数据流通的安全。在这里,信任的打造需要与数据流通交易的特征相适应(数据不确定性、产权不确定、远程交易、流通风险),同时也需要考虑数据流通制度范式的差异性。基于数据流通特征,可以从流通的数据可信、主体可信和过程可信三个方面来构建数据流通的信任,而对于数据流通制度范式的不同则需要考虑合作关系的信任问题。
(一)流通关系可信
数据持有权是数据流通交易的基础,而数据流通的内核是允许他人使用数据,数据流通往往是持续性合作关系。同时,这种合作关系又是在产权不清、利益分配较为模糊的情形下展开的。为此,数据流通依赖持续的治理,以协调利益相关者的需求,实现共同合作目标。任何数据流通组织都需要为所有参与主体持续开展治理数据、分享数据、使用数据、创造价值并公平分配价值提供条件和规则。
信任是所有交易和合作的基础,当然也是数据流通关系的基础。既有研究已经揭示信任的形成机制及其对合作关系的影响。信任对于处理不确定、不可控或有风险的情况至关重要。
〔18〕信任意味着“接受一些潜在伤害的风险,以换取合作的好处”,
〔19〕其既源于过程(与过去或预期的交换挂钩)和主体特征(与人的社会特征),也源于制度。“制度框架定义了不同行动者之间信任关系的性质和强度。”
〔20〕信任不仅仅是对人的信赖,还需要制度约束。传统的产权交易建立在对产权和契约的信任之上,同时通过相关法律制度和执法体系来保障产权和契约安全,最终实现制度信任。
但是,数据流通面临的信任和安全问题与传统商品交易不同。数据流通安全不仅仅是将确保符合品质要求的交易标的安全交付,它需要持续地管理整个过程以满足使用者的使用需求,消除提供者对数据使用者是否会越权使用、滥用或违法使用,进而给自己带来不利益或风险的担忧。因而,数据流通本质上是分享数据价值的合作关系,对于信任要求更高,实现路径更加复杂。
〔21〕因为对于合作而言,信任不仅是进入的前提,更依赖参与者对合作后果的稳定预期。如何经营和维护数据流通关系、让每个参与者有利可图,显然非常重要。这意味着,我们需要引入可信的数据治理框架和机制,使流通参与者信任并维持数据合作关系。
显然,在类似数据流通的协作关系中,信任是随着参与方反复互动而发展变化的。合作信任是一个复杂的系统过程,涉及同时对关系的多个维度进行持续评估和调整。因此,需要一种多维方法,同时关注信任在合作关系的不同阶段所扮演的不同、多向的角色,以及所涉及的不同类型和水平的信任。
〔22〕若把合作信任复杂过程的实现看作治理过程,那么良好的治理机制就成为促成合作关系成功的重要砝码。由此,我们可以得到初步的结论,即数据流通需要治理,而治理的可信度关系到数据流通的信任。
可信治理构建可信的合作,良好数据流通框架和机制成为可信数据流通制度的基础。如果在合作型关系中“需要把信任作为一种资源来加以认识、开发和利用”,
〔23〕那么数据治理就成为一种资源,甚至一种社会资本。21世纪产生的社会资本社会学理论认为,可以基于信任、合作规范和网络三个维度,发展出三种理想的社会资本类型:联结、桥接和链接(bonding,bridging and linking)社会资本。
〔24〕社会资本被视为不能被个人单独拥有的社会资源。
〔25〕数据持有权可以作为开启数据社会化重用的工具,但它本质上是依赖治理机制实现的制度安排。也就是说,它不是持有者说了算,而是在协同来源者、使用者、社会和国家利益的前提下发挥作用。数据持有权的作用在于构建数据社会化重用的秩序、实现数据社会价值,而不是持有者个体利益最大化。正是在这个意义上,数据持有权是治理范式的产权,数据流通是治理范式合作关系,数据经济是治理范式的经济。在这样的转变下,传统的产权信任被替换为数据流通治理机制的信任。可信的治理是与数据流通方式适配的制度信任机制。
(二)流通数据可信
在当今数据驱动发展的背景下,数据的完整性至关重要。确保数据的准确性、完整性和一致性对知情决策、法规遵从性以及分析和机器学习工作的有效性具有深远的影响。数据可信是指在特定流通环境中,数据提供者所提供的数据是合法的,是符合其特定数据标准和其描述的质量的可用数据。
〔26〕数据的可信是数据治理的结果,同时也有一种确保数据描述是直接可靠或可验证的机制。
从科学研究的角度,数据可重用性有三个标准:相关性、可理解性和可信度。
〔27〕相关性是指数据与研究问题的关联程度;可理解性是指数据的意图含义能否被理解;可信度是指能够在多大程度上信任他人(如不同学科的其他人)创建的数据。虽然数据的收集和分析利用需遵循严格的标准和规范,但是要实现数据的重用仍然需要重新构建现有的信任机制。不仅要约束生产数据者(研究者)以遵守某些规范,确保数据质量和可靠性,而且还要确保管理数据的主体(curators)负责地进行数据治理,确保重用数据的可信赖。
〔28〕在信息资源管理领域,数据整理(data curation)
〔29〕是实现数据可重用的基本措施。
数据整理的基本目的之一是支撑当前和未来的数据使用,因而是实现数据重用的前提条件。数字整理中心(The Digital Curation Centre)
〔30〕认为,数据整理的良好实践可以以多种方式支持数据重用,确保重用者能够长期可持续地访问他们可以信任的高质量数据等。一个完善的数据管理基础设施,通过公开数据以供重复使用,将有助于新的发现,并确保获得和保存学术成果。
〔31〕
大数据应用给数据重用带来了更大的挑战。在大数据生产周期管理中,一般以数据预处理或者数据清洗来表示将数据处理成为可用数据(一旦标准统一即可实现可重用),同时人们也使用数据质量来描述数据的可用或可重用性。实质上,这里的数据预处理(数据清洗)就是数据的整理,两者具有相同的功能和目的。因此,我们用“数据整理”来表示以数据可重用质量为目的的治理活动。但是,相对于数据重用治理而言,大数据重用治理面临两个独特的问题,影响到使用者对数据的信任。其一是数据的质量要求维度更多;其二是数据来源的可靠性及合法性问题。
关于数据的质量,一般理解为数据具备准确性、完整性、一致性、及时性和有效性。
〔32〕这些质量维度主要是为解决数据场景性、异构性带来的重用难题。数据真实性反映描述对象(客体)所处时段状态,完整性反映记录和元数据描述的全面性,使数据可用于计算分析,做出正确决策;数据格式一致、数据模型标准化,数据才好用,才能自动关联匹配,实现分析目的。
〔33〕因而数据的信赖本质上源于对数据质量的信赖。一般认为,只有实现来源可验证或可判断,才能对数据质量产生信赖。在这个意义上,来源可靠才是验证经过治理的、符合一定质量的数据可信的根本依据。大数据来源多样性给数据来源可靠性带来了新挑战,为实现流通的数据可信,需要建立闭环的数据流通环境,使数据流通过程可追溯、可审计,为数据可信性提供支撑。
数据的合法性也影响到数据信任。数据上并存各种利益,获取和持有数据并不能够完全消灭数据上的利益,因而数据持有者是否享有处分(流通)数据的权利、数据接受者是否可以取得特定数据使用权,均需要结合特定的场景加以判断。显然,如何判断数据的合法性,降低识别判断的成本和数据流通利用的风险,是所有数据接受者最为关注的重点,也是流通数据具有可信性的依据。
为了支撑流通主体对流通数据的信任,需要发挥各种数据中介机构的作用。比如开放数据研究院(ODI)提出了数据保证(Data assurance)概念,并将其定义为“提高人们对数据满足特定需求以及对各组织能以值得信赖的方式收集、访问、使用和分享数据的信心的过程”。
〔34〕为此,ODI开展了包括建立开放数据成熟度模型等大量工作,推进数据可信赖。
〔35〕为了确保人们对特定数据的信任,对于特定组织或特定行业的数据实施唯一“数字对象标识符”(Digital Object Identifier)编码,制定统一的标准,持续维护体系的数据质量,应当成为提升数据信任的重要措施。数字对象标识符标准不仅是一种命名方案,也是一种以可持续的方式来持久化引用的对象;不仅是唯一标识所指示的对象,也能够识别其转换的每个结果。
〔36〕因此,建立关于来源和信任的标准化体系对数据流通十分重要。
(三)流通主体可信
任何市场主体交易均需彼此建立信任,数据流通主体之间的相互信任是数据流通可信的重要组成部分。主体信任是市场经济的基础,是任何交易发生的基础。在缺失商业往来信任基础的情形下,交易主体之间的信任通常依赖审慎调查、信用报告或资信评估服务来弥补。这样的机制同样亦可以应用到数据流通之中。数据中介服务的一项服务内容是对进入流通交易的成员提出一定资质要求并建立相应的成员信任管理体系。一般来讲,需要了解对方的业务、资信、数据治理状况等,方能建立对交易相对人的信任。ODI在关于数据信任的调查报告中提出,在个人是否愿意分享数据方面,最为重要的是“是否信任要求分享数据的组织”,
〔37〕可见对使用者信任在数据分享或流通中的重要性。为解决主体信任问题,数据流通中介服务提供者通常的做法是,对进入数据流通市场的主体提出基本资质和资信要求,在加入时要求提供相应的证明,以使所有进入流通的主体具有良好的资质。与此同时,数据流通中介组织还可以建立数据流通主体的信用评价体系,根据数据流通主体基于业务往来的反馈和评价、外部投诉等信息形成数据流通主体的信用约束机制。这样,数据流通就可以形成从入门到后续流通行为的一套约束机制,解决数据流通主体的相互信任问题。
由于数据流通通常是在线远程交易,流通主体之间的信任首先要解决主体身份可信问题。在这方面,数据中介机构或治理结构的信任扮演一定角色。
〔38〕同时,随着我们从物理互动的工业时代进入到数字互动的数字化的时代,技术也成为解决网络交易的信任工具。比如,“区块链技术可以被视为信任中介机构从以人为中介的人际信任向技术中介转变”。
〔39〕不过,更为普遍和基础的是数字身份认证。数字身份不仅包括在任何地方都可以使用的唯一和不可伪造的凭据,还包括访问与身份相关的所有数据的能力以及控制不同情况下呈现的角色(persona)的能力。每个人均可以通过数字身份凭证享有不同的数据访问权限,为此需要有一套数字身份认证管理制度,以实现可信、可审计的数据分享,而不损害个人匿名性或安全性。
〔40〕
数字身份技术具有两个功能:一是确认主体的身份的真实性,确保对应现实中某个主体;二是将该身份下的行为归属于该主体,确保主体做出该行为后,不会抵赖或反悔。许多国家正在探索适应数字社会的数字身份认证管理体系。在美国,为配合“网络空间可信身份国家战略”,
〔41〕MIT组织了政企资深专家研讨提出“稳健身份”(Robust Identity)概念,
〔42〕形成“可信数据互联网”方案。
〔43〕英国于2021年发布了英国数字身份和属性信任框架(之后不断更新)
〔44〕,建立了英国数字身份产品信任的规则和标准。
〔45〕“科学、创新和技术部”负责通过提高数字身份的法律地位和为私营部门提供商的数字身份产品引入信任标志,使数字身份“像护照一样可信”。澳大利亚建立了可信数字身份框架,包括可信数字身份认证框架和流程,确保所有身份提供者都符合可用性、可访问性、隐私保护、安全性、风险管理、欺诈控制等方面的严格规则和标准。
〔46〕欧盟早期的欧洲数字身份(eID)只是为了实现国家电子身份方案的跨境互认,
〔47〕在2020年之后亦开始在全面的社会生活中应用。2021年3月,欧盟委员会发布《2030数字指南针:欧洲数字十年之路》,提出实现的一系列目标和里程碑。同年12月,委员会发布了建立“数字十年之路”政策计划的提案。
〔48〕欧盟理事会和议会于2022年12月签署了《欧洲数字权利和原则宣言》,
〔49〕设想“生活在欧盟的人们有可能使用可访问、自愿、安全和可信的数字身份,从而获得广泛的在线服务”。
〔50〕
以人为中心的身份认证体系也可以应用到组织,为组织管理员工的数字行为提供技术手段,支持数据资源的交换或流通。在不久的将来,可能需要对数字身份进行更广泛的定义,以解决虚拟实体、AI“机器人”和自然资源的身份问题,从而建立识别和认证的数字机制。
〔51〕例如,欧盟数据空间设计中,对设备、App等软硬件进行认证,是一种全面地解决数据流通环境安全的制度设计。
正如所有的身份系统存在隐私问题一样,数字身份系统会给数字隐私和数据保护带来风险。但是,数字身份系统也为加强保护提供了新的机会和技术手段。因此,数据隐私和安全措施应当嵌入到ID的整个生命周期。
〔52〕这也就是说,数字身份带来的隐私和安全保护问题可以通过数字技术和法律规制加以解决,采取组织、管理和技术的措施保护。
综上,为构建数据流通可信环境,需建立稳健的数据流通参与者数字身份认证和安全管理体系,确保身份唯一和不可伪造,实现主体行为可界定、数据访问权限可验证和访问过程可控和可审计。同时,对流通主体资质进入审核并对其流通行为开展信用管理,可构建数据流通主体的信任。
(四)流通过程可信
数据存储于特定系统之中,通过技术工具调用、传输、计算处理,不能脱离系统场景而存在和使用。数据持有者也是通过对系统的控制来实现对数据的控制,记录数据被调用、访问或处理的过程。数据流通意味着跨域使用,即数据由原持有者控制的系统域进入到使用者控制的系统域,由使用者控制使用。这相当于将数据的命运全部交到使用者之手。但是,由于存在以下两个原因,数据提供者(持有者)需要对数据接受者(使用者)的使用行为进行限定和控制。
其一,数据流通需要界定和控制接受者的数据使用权。一般而言,数据的价值多样,数据存在宽泛使用域,数据持有者提供数据给特定主体使用通常会通过数据流通协议或许可协议限定使用领域、场景、目的、方式、期限、频次等,清晰地界定接受者的数据使用权限。
〔53〕正因如此,数据流通被定义为数据使用权交易,而使用权则依赖当事人之间协议来界定。但是徒有协议约定不足以执行,还需要配合一定的监督和约束机制,约束接受者遵守协议,这便涉及数据流通中使用控制问题。
其二,数据流通需要控制数据流通的风险。数据是客观世界的映射,数据权益是多元主体间的复杂权益网络,
〔54〕社会主体既有的受法律保护的利益并不因为人们对数据的获取而丧失,因而无论是原持有者使用还是接受者使用,均必须遵守法律规范,保护数据上的合法利益。由于数据流通在数据提供者与数据使用者之间存在清晰的数据来源关系,所以数据流通会产生基于流通关系的独特风险:对于接受者而言,如何判断提供者的数据具备合法性(通常符合共识标准的治理后数据是可信的),如果不合法自己要不要承担责任;对于提供者而言,所面临的风险是数据接受者是否会依约定使用数据,是否可能滥用或违法使用且是否会牵连到自己。显然,这需要清晰地界定数据本身瑕疵(侵权或违法)责任和后续使用的责任,并建立清晰的责任分配规则。既需要有合理和透明的规则,也需要技术支撑责任的认定,否则双方就没有稳定和合理的预期,数据流通就难以开展。
数据流通可以仅有流通过程(交付)控制。数据提供者甲经过数据流通中介搭建的环境将特定的数据交付给接受者乙,乙在自己的系统中使用。数据中介可以证明乙从甲处合法获取了数据(证明乙的数据来源),而对乙获得数据的使用则无法记录和审核。这样数据流通仅适用于数据处理程度较高、用途单一、风险不大、对提供者市场没有直接影响的数据,通常不适用于原始数据,更不适用于敏感数据。
为了控制数据流通利用中的隐私风险,可以采取多种隐私保护技术使组织在不牺牲隐私的情况下进行数据利用,如同态加密、差分隐私和功能加密等密态计算方法。但这些技术仍存在两个潜在的问题:一方面,如果没有对数据治理和使用的控制,加密数据掌握在他人手中,仍然存在潜在的隐私或合规风险;
〔55〕另一方面,经过计算的结果仍然存在侵犯隐私或滥用的可能性。即使这些技术能够解决保护数据上利益相关者的权益,单纯的技术应用仍然不能解决提供者和接受者之间关于数据使用权的界定和使用的控制问题。
因此,这就需要使数据流通在全面受控的环境(系统)中完成,使流通过程和使用过程可记录、可控制、可审计,以便在出现违约或违法责任时能够查明事实,分配责任。显然,这样的系统不应当是为提供者或接受者一方控制的,而应当是为可信第三方控制或者共同控制。于是,由第三方构建数据流通系统环境,建立双方可信赖的数据流通规则,建立流通过程和使用过程日志,使过程可被控制、监督和审计,就成为数据流通的必然要求。与此同时,还会根据数据敏感性或流通控制的需要采取各种隐私增强技术或安全计算技术,形成不同的数据流通实现方式。也就是说,流通过程可信是通过基础环境建设加上不同技术支撑的流通方式来实现的。这些技术大致可以分为过程控制、公开控制、使用控制或者它们的混合体。本文以数据流通利用常用的API和安全计算环境(沙箱)为例,对数据使用的控制进行阐释。
API是一套基于功能的安全访问和数据交换的技术方法,是最常用的数据流通方式。从技术的角度,API是自动的计算机交互方式,是一台计算机(或智能工具)可直接访问或读取另一系统数据的通信协议。从法律的角度,API是一种契约,用以界定使用者使用的数据范围、权限或参数、使用时间等。通过API,可以实现实时和按需提供(或获取)数据。通过API的数据读取容易测量、计量和审计,使数据持有者可以确切知道谁、在何时、从何处及如何读取数据,实现对使用者的使用的精细控制。API已经从内部应用走向开放的、基于标准的集成应用,形成基于云的API服务平台,它可以联结不同的数据供应商或数据持有者,使开发人员和企业能够在不管理底层基础设施的情况下创建、部署和管理API。
沙箱是独立于原数据基础设施的受控和隔离的计算环境。
〔56〕