·主题研讨·
大数据分析中的相关性和因果关系
刘东亮 闫玥蓉
内容摘要:“大数据分析不追求因果关系而只关注相关性”是一种颇为流行但似是而非的说法。实际上,大数据分析并非完全放弃对因果关系的追求,其所关注的相关性是对因果关系的逼近和靠拢,是在无法确定因果关系时的一种折中,这与法律上的因果关系在大多数情况下属于统计的因果关系(强相关)并行不悖。大数据分析的结果可以在法律程序中适用,但受制于数据质量、建模错误等因素,其可靠性有时比较薄弱,从而导致其适用范围存在限制。大数据在法律程序中的作用主要是预警和佐证,仅在少数情况下才可以直接据以作出法律决定。大数据技术具有两面性,在充分利用大数据带来的便利的同时,也需要在观念上破除“大数据的神话”,特别是对大数据的伪相关性风险进行防范,避免可能的“大数据的悲剧”。
关键词:大数据;相关性;法律上的因果关系;伪相关性;数字政府
中图分类号:D90
文献标识码:A
文章编号:1004-9428(2023)02-0023-19
博士生张楚悦对本文所涉技术问题亦有贡献。
大数据正在深刻改变社会生活以及我们观察、理解世界的方式。
〔1〕利用大数据分析结果改进决策,不仅在商业领域得到应用(如各种各样的算法推荐系统),同时也在重塑法律的运作方式,如在疫情防控中广泛使用的“健康码”“一码通”等,即是政府运用大数据技术进行社会管理的鲜明例证。前不久,在引发社会关注的“獐子岛扇贝逃跑案”中,有关部门甚至使用到北斗导航系统,利用大数据分析比对涉案公司船只的定位信息和采捕作业轨迹,以此作为行政处罚的相关证据。
〔2〕《国务院关于加强数字政府建设的指导意见》更是将落实大数据战略提升到了推进国家治理体系和治理能力现代化的高度予以全面部署。
〔3〕
虽然大数据技术已经渗透到社会治理和法律领域,但还是有很多问题存疑。特别是,由于相关性并不等于因果关系,大数据分析强调的相关性与法律上的因果关系是否相抵牾?这一问题直接决定了大数据分析的结果能否在法律程序中适用及其适用的范围如何。也正因为该问题如此重要,或许可称之为“大数据时代的法律之问”。
一、相关还是因果:大数据应用的前提问题
有“大数据时代的预言家”之称的英国学者舍恩伯格(Viktor Mayer-Sch?nberger)指出,在大数据时代,数据处理的理念有三大转变:(1)大数据的模式是全样本分析,不依赖于随机采样;(2)允许混杂性,不追求精确性;(3)放弃对因果关系的追求,只需要关注相关性或相关关系。
〔4〕这几乎是当下关于大数据的一种通说。
众所周知,因果关系是法律实践中的重要问题。民事侵权行为和损害后果之间存在因果关系,才能要求相关主体承担赔偿责任。危害结果在客观上可归责为行为人的行为,即行为与危害结果之间存在引起与被引起的因果关系,才能对行为人科刑定罪。在行政法领域,行政处罚、行政赔偿等均需存在某种因果关系,才能够追究相关主体的行政法律责任。而相关关系并不等于因果关系。那么,接下来的问题是:大数据关注的相关关系和法律上的因果关系之间,究竟是一种什么样的关系?回答这一问题,首先需要从哲学和科学上的因果律说起。
(一)哲学和科学上的因果律
“凡事皆有因果”的说法在很多宗教、哲学乃至日常伦理观念中都有反映。相信万事万物存在因果关系,这种倾向有其深层的进化心理学基础:我们生活在一个纷繁复杂而充满不确定性的世界,风险与野性总是在伺机而动。为了生存,人类要像丛林中的动物一样保持警觉。出于降低复杂性、掌控外部世界和自身命运的类本能需要,对事物间因果关系的理解与把握成为不确定世界的理性选择。
〔5〕
在哲学上,因果律常常被视为一种普遍的自然法则。从古希腊的德谟克利特到近现代的康德、黑格尔等历代著名哲学家,几乎都参与过对因果关系的讨论。
〔6〕不过,大多数哲学家关于因果关系的理解都是建立在形而上的基础之上,他们的因果观主要是一种信念,是近乎玄学性质的主观判断,对我们研究法律上的因果关系帮助不大。仅有个别哲学家如休谟所说的“因果之被人发现不是凭借于理性,乃是凭借于经验”,因果观念主要是一种“概然推断”,
〔7〕这些认识对于我们理解法律上的因果关系有所裨益。
在科学上,早期原子论者相信万物都是依照因果律发生的。德谟克利特明确否认任何事物可以由于机缘而发生。另一原子论者留基波曾经说:“没有什么是可以无端发生的,万物都是有理由的,而且都是必然的。”
〔8〕这种观念逐渐演化为在科学史上长期占据支配地位的决定论(determinism)。决定论的思想基于因果律,可以说是因果律的强化版:世界上的任何事件,都有先已存在的充分原因。某原因决定了某事件必然发生。凭借这种原因,我们可以充分解释或理解该事件,不需要再引入其他外在的因素。这种观念是自然教导给我们的常识,也是自然科学不断取得成功的关键。
〔9〕
19世纪初,决定论在有着“法国的牛顿”之称的天文学家、数学家拉普拉斯那里达到了高潮。他放言:只要有适当的参数,就可以计算出宇宙包括其中任何一个原子的过去和未来。
〔10〕这一论断被称为“拉普拉斯之妖”(Laplace’s Demon)。然而,到了20世纪20年代,海森堡等人提出的“不确定性原理”粉碎了“拉普拉斯之妖”的虚幻缥缈:不可能同时精确测量出一个粒子的位置和动量。20世纪30年代初问世的“歌德尔不完备性定理”进一步昭示:不仅过去备受推崇的公理化的演绎方法存在缺陷,就连作为自然科学之基础的确定性最高的数学本身也宣告了“确定性的丧失”。
〔11〕
无所不在的不确定性把世界隐藏在迷雾中。一度被人们深信不疑的因果律,渐显模糊。
(二)经典统计学的相关性转向
有史以来,不确定性问题一直困扰着人类。基于对各种随机现象的观察,人们很早就有了零散的概率和统计思想。也就是说,统计学的起源可以追溯到原始社会。但是,直到近代它才逐渐成为一门在实践中极为重要的学科。
统计学的目的是从数据中获取信息以帮助人类作出决策。统计学的早期历史即以数据为中心。“统计学”(statistics)一词在18世纪中叶被创造出来时其词意为:由国家收集、处理和使用数据。
〔12〕不过,数据揭示的只是数量信息,数据本身并不具备表述因果关系的能力。并且,在统计学产生初期,由于当时尚缺乏一种能够描述和刻画复杂系统中因果关系的数学语言,因此,在经典统计学的奠基人高尔顿(Francis Galton)和皮尔逊(Karl Pearson)首次发现人口统计数据可以揭示一些科学问题的答案时,在这种关键性的时间节点上,统计学很遗憾地与因果关系失之交臂。
〔13〕
皮尔逊认为,在高尔顿之前每个人都没有充分注意到相关性分析。在其为高尔顿所写的传记中,皮尔逊指出:“高尔顿头脑中再三考虑着两个不同的问题,最终使他达到相关性的观念:A不是B的唯一原因,但却对B的产生有作用;也许还有其他多种或几种原因在起作用,这些原因有的我们不了解,有的可能永远也不了解……这种部分因果性的测量便是更大范畴的胚胎,即相关性分析的胚胎,这种分析方法不仅取代了我们许多人头脑中旧的因果关系范畴,而且深刻地影响到我们对宇宙的看法。因果性的观念开始崩解,尽管它曾为物理学家带来无限的利益。……今后,有关宇宙的哲学观将是一种相关的变量系统的哲学观,接近但绝非达到完全的相关即绝对的因果性。”
〔14〕在皮尔逊的眼中,相关性成为唯一值得关注的对象。因果关系被简化为仅仅是相关关系的一个特例。
〔15〕
应当说,高尔顿和皮尔逊对相关性和因果性之关系的理解,的确是值得称道的。他们把相关性理解为部分因果性的测量或者是对因果性的接近。但不幸的是,由于这两位开山祖师对相关性的强调,此后,因果关系从传统主流统计学家的字典中被驱逐出去,他们不关心甚至抵制对因果关系的讨论。这部分是因为,单凭数据无法回答因果关系问题,因果分析要求研究者作出主观判断,有时还需要借助于想象力。
〔16〕这无疑会影响到统计学自我标榜的客观性。自1834年3月15日伦敦统计学会成立伊始,客观性就被奉为统计学家的圣杯。该学会的创始章程规定,在任何情况下,数据都优先于观点和解释。数据是客观的;而观点是主观的。为客观性而奋斗,成为统计学家的信仰和目标。
〔17〕
长期以来,统计学都信奉“相关性不等于因果关系”,并逐步形成了闭口不谈因果关系的局面。直到今天,这种以数据为中心和只关注相关性的观念仍然阴魂不散。有统计学家相信,数据本身已经包含了所有的科学智慧,只要对其稍加打磨,数据便会吐出那些智慧的珍珠。
〔18〕——的确,相关性不等于因果关系。公鸡打鸣与日出高度相关,但其不是日出的原因,公鸡打鸣不会导致太阳升起。然而,经典统计学由于因果的复杂性和难以发现而忌讳讨论因果关系,则是典型的讳疾忌医,并让自己陷入了因果蒙昧的黑暗。
毕竟,因果关系思维是人类区别于其他物种进化出智能的关键。
〔19〕追问“为什么”几乎已成为人类的一种心理本能。即使《大数据时代》的作者舍恩伯格强调大数据对人类思维的变革是“需要放弃对因果关系的渴求,而仅需关注相关关系”,但他仍然同时承认:“人们习惯于从因果关系的视角来理解世界……在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道‘是什么’时,我们就会继续向更深层次研究因果关系,找出背后的‘为什么’。”
〔20〕该书译者、大数据知名学者周涛教授也明确指出:“认为相关重于因果,是某些有代表性的大数据分析手段(如机器学习)里面内禀的实用主义的魅影,绝非大数据自身的诉求。从小处讲,要避免‘数据的独裁’和‘错误的前提导致错误的结论’,其解决之道恰在于挖掘因果逻辑而非相关性;从大处讲,放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。”
〔21〕
当代著名统计学家劳(C.R.Rao)亦曾告诫:“统计学家常常要做侦探性质的工作,利用自己的想象力去寻找那些能够阐明数据背后所隐藏之秘密的蛛丝马迹。”
〔22〕易言之,统计学家(大数据时代称为“数据科学家”)绝不能满足于相关性,而需要像法律人一样,努力去寻找数据背后那些隐而不彰的规律及其线索。
(三)法律上的因果关系之内涵
法律上的因果关系既不同于哲学上的因果关系,也不同于科学上的因果关系,而是哈特所称的常识的因果关系。
〔23〕同时,法律上的因果关系是与确定性因果关系相对应的统计的因果关系,在大多数情况下,它都是一种强相关。
1.法律上的因果关系是常识的因果关系
一般认为,违法行为与损害后果之间存在因果关系,是确定法律责任的四项要件之一。法律上的因果关系通常指违法行为引起了某种损害事实。
〔24〕但这只是一般意义上的法律因果关系。广义的法律因果关系,是指各种事实之间的联系,可能涉及人的行为也可能涉及自然事件,并不限于违法行为和损害后果之间的关系。
〔25〕本文所指法律上的因果关系,即是指这种广义的法律因果关系。不难理解,证据法上所要求的环环相扣的证据链是由很多环节组成的,大多数的因果关系都同时包含多个因果链。
根据辩证法的普遍联系原理,世界上的一切事物都是相互联系的。因而,现实生活中的事件往往是多因一果。然而,如果按照普遍联系的观点追溯因果关系,就会陷入“A
2是A
1的原因,A
3是A
2的原因,A
4是……”这样没有穷尽的链条当中。这就如我们熟知的一种说法:“钉子缺,蹄铁卸,战马蹶;战马蹶,骑士绝,战事折;战事折,国家灭。”
〔26〕法律上的因果关系显然不能按照这种逻辑进行无穷追溯,而必须在某个区间进行截割。英美普通法上的近因原则——“法律审究近因,不问远因”这一拉丁法谚之智慧的体现,即是在这种无穷尽的因果链条上“砍一刀”。
〔27〕这一做法将具有重要法律意义的直接因果关系与不具有这种意义的间接联系区分开来。
法院经常主张,法律考虑的是普通人的因果观念(既非哲学家的也非科学家的)。比如,在火灾案件中,人们不会说起火的原因是由于氧气的存在,尽管缺少氧气就不会燃烧。人们总会把原因归结为人为纵火、电线短路、被丢弃的烟头或者闪电等偶发因素。
〔28〕
法律上的因果关系之所以属于常识的因果关系,源于法律活动的人间烟火气。法律活动不是依靠纯粹理性和形式逻辑进行推理的哲学思辨或科学研究,而是受实践理性和实践逻辑支配的实践活动。简言之,法律上的因果关系植根于社会实践,它来源于普通人的因果观念。对法律上的因果关系这一性质的认识,是哈特等人的巨大贡献。在其理论的基础上,我们还可以将法律上的因果关系归结为统计的因果关系。
2.法律上的因果关系是统计的因果关系(强相关)
在自然界和人类社会中存在两类因果关系:确定性因果关系和非确定性因果关系(或称统计的因果关系)。确定性因果关系出现的概率为1或接近于1。统计的因果关系所表现出的规律性,是对大量偶然事件进行统计平均的结果,与其中个别事件没有必然的因果联系。两相比较,因果关系更多的属于统计的因果关系。物理学家埃丁顿(A.S.Eddington)指出:“迄今为止,作为因果关系所接受的某些重要的法则经过仔细研究后,可认为这些均是具有统计学特征的。”
〔29〕
必须承认,在某些情况下,法律上的因果关系是确定性因果关系。比如“发生在法官眼皮底下的犯罪”(如藐视法庭罪),这类不法行为和损害后果之间的因果关系是确定的,法官不需要其他证据即可直接依据“三段论”定罪科刑。但这类案件通常都是简单案件,并且仅是法律实践中的少数情形,是特例而非常态。法律上的因果关系更多地属于与确定性因果关系相对的统计的因果关系。
在大多数情况下,案件事实都是发生在过去的事实,弄清楚这些事实在某种意义上类似历史学家的考古活动,要证明不法行为和损害后果之间存在100%确定的必然联系非常困难。有学者指出,“预测是非常困难的,尤其是对未来的预测”。与预测相比,“后测”过去的事件并不会更容易。
〔30〕我们无法穿越回过去,正如同我们无法穿越到未来。从认知科学的视角而言,预测和后测是一回事,它们都是根据有限的证据提供的信息进行推断。法律系统作为一种典型的复杂的人文系统(humanistic system),
〔31〕其中的非线性特征、因果关系的隐蔽性和大量混杂因子(confounding bias)的存在,使得所有简单的因果解释都变得行不通。也正因为如此,长期以来,人们在法律因果关系问题上聚讼纷纭、莫衷一是。
〔32〕
法律实践当然不能等到理论争议有了结果才付诸行动。笛卡尔曾经说:“当我们不具备决定什么是真理的力量时,我们应当遵从什么是最可能的,这是千真万确的真理。”
〔33〕的确,法律实践不会一味寻求确定性因果关系,而是灵活运用统计的因果关系,有时还使用非因果关系标准。
〔34〕前述普通法上的近因理论和大陆法系的相当因果关系,实际上都是统计的因果关系的不同称谓。波斯纳法官指出,“事实认定是概率的而不是确定的”;
〔35〕证据法学家威格莫尔(J.H.Wigmore)声称“因果关系通常只是意味着高度的概然性或明显的趋势”,
〔36〕即是对这种统计的因果关系之性质的更明确的解释。
为什么说法律上的因果关系在大多数情况下是一种强相关?无疑,有相关不一定成立因果,但无相关一定不存在因果。统计的因果关系之前提是存在相关性。而相关性是一个等级化的程度概念。相关性描述了两个事物之间的关联强度,它通常用“皮尔逊相关系数”(Pearson correlation coefficient)来表示,并简写为r,其值介于±1之间。r=0时表示两个属性(线性)不相关;r=1表示两个属性具有完全的正相关性,r=-1表示两个属性具有完全的负相关性。解释皮尔逊相关系数的一般原则是:当r≈±0.7时表示属性之间存在强相关,r≈±0.3时表示弱相关,r≈±0.5表示中等相关关系。
〔37〕有人对纽约东部地区法院的法官运用证据标准的情况作调查后发现:尽管不同法官之间存在些许差异,但基本上其概率表示非常接近。“占优势的证据”是50+%,“清楚的、令人信服的证据”是60-70%,“清楚的、明确的、令人信服的证据”是70+%,“排除合理怀疑”是85-90%。
〔38〕将这种四种证据标准的概率表示和皮尔逊相关系数联系起来看,可以明确地说,法律上的因果关系在大多数情况下都是一种强相关。尽管不同案件类型有所差异,但几种证据标准的概率表示基本上分布在70%左右。
〔39〕这也从一个侧面说明,法律推理属于非必然性推理,法律论证并非普通形式逻辑学意义上的有效论证(valid argument),而是一种前提可以为结论提供有意义支持的强论证(strong argument)。
〔40〕著名数学家波利亚(George Polya)将法律推理称为“合情推理”(pausible reasoning),认为它与适用于数学和自然科学领域、受形式逻辑支配的“论证推理”有显著不同。
〔41〕
由于法律上的因果关系是一种统计的因果关系,它在大多数情况下是一种强相关,因而,大数据分析得出的统计学意义上的相关性(强相关)与法律上的因果关系并行不悖。这意味着,大数据分析的结果可以适用于法律领域。并且,由于在行政程序中适用范围最广的证据标准“实质性证据” (“清楚的、明确的、令人信服的标准”)其概率表示为70%左右,
〔42〕与皮尔逊相关系数的强相关非常接近,因此,相较于其他法律程序而言,大数据分析尤其适合于行政程序(后文的分析主要以行政程序为例兼及其他程序)。
需要说明的是,仅仅厘清大数据分析的相关性和法律上的因果关系之关系而止步于此是远远不够的。本文主旨是解析大数据在法律领域的可适用范围,提醒学界在大数据研究的热潮中,不能夸大甚至无限拔高大数据的功能和作用(法律人工智能的研究中已有这种倾向),而必须从实际出发,理性地对待大数据分析结果,尤其要注意防范各种可能的伪相关性,避免形成“数据的独裁”。
二、大数据分析在法律领域的可适用范围
大数据分析结果可以适用于法律领域,但其适用并不是无条件的,而是有适用范围上的约束和限制。这种约束和限制缘于大数据分析结果的相关性不一定是真实的相关性,并受制于数据质量、建模错误等因素,有时存在比较高的偏差可能性。
(一)大数据分析相关性的再认识
1.相关性分析:对不确定性的度量
相关性是涉及多个学科的研究主题。例如证据法学就涉及对证据“三性”之中关联性的研究(证据与待证事实密切相关)。当人们利用信息技术开展信息活动时,相关性是首要的主导因素。
〔43〕
每个人好像都知道相关性,但它究竟是什么,又很难解释清楚。因为相关性是一个同时具有客观性和主观性的概念。或者说,相关性是一个依人而存的概念。信息是否具有相关性取决于人们的评估或者判断,是人们将当前信息与自身所处环境或面临的问题进行关联得出的主观评价。——统计学界有人以强调客观性为由,主张只关注相关性而放弃对因果关系的追求,实际上是对相关性属性的片面理解。
在信息科学领域,人们认为相关性是一种关系,关系的一方是信息或信息对象,另一方是包含认知与情感状态的各种情境。前文指出,人们可以用计算的方法度量这种关系的强度并用“皮尔逊相关系数”予以表示。因此,信息科学领域中的相关性既代表一种关系又代表对关系的度量。
〔44〕
对相关性的度量具有非同寻常的意义。尽管人类根据经验法则(rules of thumb)获得的很多知识都具有不确定性,但在掌握了度量不确定性的方法之后,我们就能将具有不确定性的知识转化成可用的知识。易言之,通过相关性度量,我们可以找到驾驭不确定性的办法,从无序中寻找有序,从混沌中寻找方向。这种新的思维方法将人类从祭司和巫师手中解放出来,不再听任偶然性的摆布。
〔45〕
在致力于不确定条件下的决策这一目标和任务上,大数据分析与传统的统计学并无二致。从分析的角度看,大数据分析是统计分析的延伸。
〔46〕大数据只是利用了机器学习特别是深度学习等先进算法模型来分析在可接受的时间范围内使用传统算法无法处理的海量数据。大数据的科学基础是信息论,其本质是利用信息消除不确定性。即使是相关性信息也有助于消除或减少不确定性。
〔47〕申言之,虽然大数据揭示的相关关系属于非确定性的关系,但仍然有助于降低不确定性,拨开将世界的真相隐藏起来的迷雾。
不过,必须牢记,相关性并不意味着真实性。相关性和真实性没有必然关联。比如,冰淇淋的销量和森林火灾是两个相关变量,两者都会在炎热的夏季出现,但两者之间没有因果关系:当你买了一盒哈根达斯冰淇淋时,并没有点燃蒙大拿的灌木丛。
〔48〕
2.大数据分析的错误可能性:破除“大数据的神话”
近年来,大数据的应用特别是其在商业领域的成功实践,给人们造成了大数据无所不能的错觉。很多人认为,大数据可以揭示一切问题。这显然是一种关于数据科学的“神话”。
〔49〕
大数据分析的结果可能出现错误,其原因是多方面的。数据收集和选择的非客观性,
〔50〕数据本身的质量问题等等,
〔51〕都会造成大数据分析结果出现偏差。其中,尤以大数据分析的建模最易出现错误,这种错误之源也最为隐蔽而不易为人所知。
大数据分析的过程大致可分为六个阶段:(1)业务理解;(2)数据理解;(3)数据准备;(4)建模;(5)评估;(6)部署。
〔52〕其中,建模最为关键。可以说,除了部署应用之外,其他环节都是围绕建模而展开。建模,简单地说,就是对现实世界数据特征的抽象。
著名统计学家伯克斯(George Box)有一句名言:“所有模型都是错的,但有些是有用的。”
〔53〕所有模型都是错的,盖因模型是对世界的简化,而简化难免造成某些重要信息的丢失、遗漏,特别是把非线性问题简化为线性问题时,常常导致事实的扭曲和变形。易言之,模型只是对真实世界的模拟,而不是对真实世界的复制,输出值可能与真实世界中的实际值存在差异,因此我们不能期望模型尽善尽美。也正因为如此,大数据分析结果需要经过严格检验才能付诸应用,并且只能适用于有限的场景。商业领域的算法推荐系统给用户推荐几本书或几条新闻,与法律领域的自动化决策系统对公民人身、财产的生杀予夺,两相比较,其容错性要求显然是不一样的。
(二)大数据分析在法律领域中的作用
大数据技术已经在很多领域得到应用。整体来看,大数据分析的任务基本上可以归类为:分类、聚类、回归、关联规则挖掘等等。
〔54〕与此相应,在法律实践中,大数据分析能够发挥的作用可以划分为三类:佐证、预警和直接作出决定。这三方面的作用,在行政程序和司法程序中的表现有所不同,行政程序中三者均有体现,司法程序中则主要表现为佐证。
1.佐证
由于统计方法无法直接确定因果关系,在法律程序中,大数据分析的结果通常不能作为直接证据,但这并不妨碍其成为逻辑学家图尔敏(Stephen E.Toulmin)所说的佐证(backing),以加强作为法律主张之基础的理据(data)和依据(warrant)的说服力,使法律论证成为可接受的强论证。
〔55〕