论算法创作 - 法信 - 懂法，更懂法律人

首页 > 期刊论文 > 法学核心期刊 > 正文

论算法创作

期刊名称：《华东政法大学学报》

期刊年份： 2019年

期号： 6

页码： 46-59

作者：梁志文;李忠诚

作者单位：广东外语外贸大学华南知识产权研究院;南京师范大学法学院

摘要：

关键词：

算法数据驱动创作浪漫主义作者著作财产权合理使用

英文摘要：

英文关键词：

论算法创作

梁志文李忠诚*

目次
　　一、算法创作疏离作者与作品之间的联系
　　二、算法创作需要合理使用制度的保障
　　三、算法创作再塑版权制度的基本取向
　　四、算法创作的负面效应及其规制
　　五、结论
摘要　“数据驱动创作”现象，即算法广泛用于版权产品的定制与营销决策，它建立在精准发现消费需求的基础上，必将深刻影响版权制度的发展。当内容创作越来越依赖于投资，而非天才作者的灵感时，传统的浪漫主义理论就无法为作者与作品的保护提供有说服力的支持，这既将促成著作人格权与“创作”这一作品要件的制度变革，也使得投资保护将发挥更为重要的作用。算法创作的质量受数据偏见、算法偏见的影响，故应适度扩张适用合理使用制度；而算法精准发现消费需求，降低了版权产品的市场风险，也需要重新构建版权法的利益平衡机制。最后，算法创作具有一些负面的社会效应，对算法创作的适度监管和反垄断审查将保障版权产业的技术进步、服务于促进社会进步的目标。
关键词　算法　数据驱动创作　浪漫主义作者　著作财产权　合理使用
　　从技术层面来看，人工智能的技术基础体现为算法、算力和数据三个方面。机器学习的基本算法，以及影响人工智能产出（或应用）的输入层的大数据，是人工智能技术开发中涉及版权法律的技术。相比于现阶段尚处于弱人工智能技术条件下其生成物的法律定性，广为版权产业所使用的、被称之为“数据驱动的创作”（Data-Driven Creativity）或算法创作（Algorithm for Authorship）才是真正值得版权法律理论关注的重点问题。从更广义的角度来看，它是“数据驱动创新”（Data-driven innovation）在版权产业中的重要体现。即，数据在增加产品（服务）价值，或对方法、产品、营销的创新或改进方面具有基础资源或资本的地位。〔1〕同样，数据在版权产品的创作、营销以及产品增值方面具有重要的价值。由数据驱动的算法创作成为版权产品的重要来源，它主要体现为三大情形：第一，算法通过对用户数据的分析来发现版权产品的消费需求，并以此来定制满足该需求的版权产品；第二，大量的数据构成机器学习的训练数据库，成为算法创作（如新闻写作、音乐制作）的主要原料与素材；第三，算法通过对用户数据的分析来实现版权产品的精准营销，引导并创造版权产品的消费需求。毋庸置疑，“数据驱动创作”这一现象将对整个版权制度产生根本性的冲击。为此，本文分析算法和数据如何影响版权产业的内容提供，并试图探析算法如何从数据中获得增值价值，并如何驱动创作。
一、算法创作疏离作者与作品之间的联系
　　在数字经济时代，数据不仅是经济发展的“石油”资源，还是经济主体最为重要的金融资本。〔2〕数据的价值通过数据挖掘技术而得以实现。所谓数据挖掘，是指“通过统计、在线分析处理、情报检索、机器学习、专家系统（依靠过去的经验法则）和模式识别”等诸多方法，“从大量的数据中通过算法发现隐藏其中的信息的过程”。〔3〕用户画像技术是一种常见的数据挖掘技术，它对用户等原始数据二次计算后重构新的数据，通过对用户的生活场景、使用场景、用户心智等进行分析，精准地抽象出用户性质与特征，其目的在于“勾画用户（包括用户背景、特征、性格标签、行为场景等），联系用户需求与产品设计”，〔4〕进而将数据转化为商业价值。搜索引擎、视频网站、零售业、制造业乃至金融业都广泛使用用户画像技术，发现消费需求，并为消费者提供定制产品、提升用户体验等个性化服务。〔5〕
　　在版权产业中，内容生产者也常常使用用户画像技术，通过收集、分析用户的数据，可以事先获取用户偏好，再进行内容的创作。这改变了原有的版权产品制作模式，提高了版权产品的制作效率，也使得内容生产者之间的竞争指向对数据资源的争夺。美国奈飞（Netflix）公司在电视剧《纸牌屋》的制作过程中，通过对其数据库内的三千多万用户、四百多万评论以及三百多万条主题搜索等数据进行分析，利用数据挖掘技术选择导演、演员阵容。不仅如此，奈飞公司还将大数据分析用于剧情设置，例如，为了获得中国粉丝的青睐，该剧多处涉及中日海军对峙、汇率、网络安全冲突等中国元素。〔6〕该剧受到了观众的追捧，在市场上大获成功。在我国，内容生产者也开始尝试改变内容创作的方式。在系列电影《小时代》的创作过程中，制作方通过定期对粉丝数据做整理、对比，分析电影的百度指数、话题讨论、相关搜索量和点击排行等方式，找准观众的消费需求，并将其利用到电影创作的情节设置、角色选定等方面。〔7〕通过数据挖掘设定符合目标用户偏好的情节，《小时代》系列电影总票房超过10亿元，成为同时期票房最高的、现象级的系列电影。
　　上述例子典型地体现了内容生产者通过用户画像等大数据技术来发现版权产品的消费需求，并进而直接定制版权产品。这表明，“数据驱动创作”引导版权产业的内容创作方式从“供给导向”向“需求导向”转变。〔8〕传统“供给导向”模式下，创作者没有获取用户需求的直接路径，内容的生产只能依靠创作者自身的创作意愿或预设的市场需求进行。以“用户需求”为导向的数据驱动创作形式实现了内容生产者与内容需求者的双向互动。这是因为观众在观看影视作品过程中产生了大量承载用户偏好的数据，内容生产者分析、挖掘观众对内容的需求数据，并将其融入到作品的创作中。
　　数据驱动创作模式提高了内容创作的效率以及版权产品的市场成功率。首先，在数据驱动创作模式下，内容生产者可以通过大数据分析用户偏好，确定版权产品的创意方向，与传统创作方式相比，降低了版权产品的创作成本。其次，它改变了传统的“先生产、后销售”的模式，版权产品始终以用户需求为导向，降低了市场失败的风险，提高了其市场成功率。电视剧试播集是传统确定版权市场消费需求的重要方法，它是在电视剧制作之前，制作公司判断电视剧是否具有市场价值的“样品集”。试播集的制作成本非常高，每30分钟平均时长的试播片需要花费200万美元，并且需要对观众进行广泛的调研。〔9〕但奈飞公司在电视剧《纸牌屋》制作时突破了传统的版权产品制作模式，未发行任何试播片就投资近1亿美元，这种模式不仅节省了试播片的制作成本，也节省了创作的时间，它是奈飞公司在2016年能够比其他公司生产更多创造性内容的原因所在。〔10〕
　　逐渐流行的“数据驱动创作”正在改变作品的创作方式，它疏离了作者与作品之间的联系，对著作人格权制度及其理论基础产生了极大的冲击。作品不再是天才的创作，而是“圆形监狱”技术的产物；〔11〕或者说，它只是内容生产者根据用户画像技术精准发现消费需求并予以定制的产物。在“圆形监狱”模型中，版权产品的创造者不再是那些把不为人知的信息从天堂带到人间的“普罗米修斯式的天才”；相反，他们仅是“不睡觉的观察者”。〔12〕质言之，在“数据驱动创作”模式下，创作者为了取得市场成功，通过不断收集用户的偏好数据，根据用户需求和偏好定制版权产品。在这一过程中，创作者的“天才”和“个性”遭到极大的削弱，作品的创作不再是浪漫主义作者的专属。
　　而在传统版权理论上，无论是大陆法系的作者权体系还是英美法系的版权体系，著作人格权制度的正当性在于强调作者与作品之间的某种联系。受个人理想主义、浪漫主义、天赋人权学说等理论的影响，作者被认为是“孤独的天才”，是作品的唯一来源；作品是作者个性的“镜子”，是作者人格的延伸和精神的体现；甚至，作者与作品的关系如同“父子”。〔13〕建构在浪漫主义创作理论基础上的著作人格权制度，强调作品是作者人格的延伸和精神活动的体现。其在版权制度上最为重要的体现是，强调作品必须是人类作者的创作；〔14〕后现代主义解构了传统文学理论上的作者观。其基本主张是：作品是存在于作者之外的生命，在作品创作完成的瞬间，作者与作品的关系即宣告结束；同时，提出“可写作文本”的概念，要求读者参与到作品意义的生产过程中。作品的解读权回归于读者手中，这打破了原有的、静态的结构观和系统观，象征着作者已死、读者重生。〔15〕按照这一观点，读者对作品意义的生产也是创造性活动，这使得作者和读者的界限逐渐模糊，浪漫主义理论一直以来所坚持的“以作者为中心”的创作主体地位受到挑战，并向“以读者为中心”转变。
　　后现代主义的文学理论质疑浪漫主义的作者观；而“数据驱动创作”模式则必将加速文学创作理论的变革过程，并给传统的浪漫主义创作理论和“作者中心主义”创作理论带来致命一击。算法创作对创作理论变革的影响主要集中于作品文本的形成过程。在数据驱动创作模式下，为了获得市场竞争力，作品文本的创作始终围绕读者的需求展开，创作者的个人创作意愿通常要屈服于读者的集体需求。创作者通过采集用户的数据分析用户需求和偏好，并将这种用户偏好融入到作品的创作过程。此时，作品不再是康德口中的“作者对读者所说的话”，而是“圆形监狱”模式下信息的相互传递，是读者对读者所说的话；它也不是“创作者人格的延伸和精神的体现”，而是读者集体创作的结果；它更不是“天才作者激怒读者的方式”，而是作者取悦、迎合读者的产物。正如后现代主义所质疑的那样，所谓的创作者，更像是作品的“生产者”（producer）〔16〕、“书写者”（scripter），〔17〕而非“作者”（author）。
　　在这一背景下，淡化甚至取消“人类创作”作为作品受版权保护的要件，建立以人类读者为中心的作品可版权性要件，〔18〕这是版权制度适时回应技术发展的必然需求，也是保护数据驱动创作之投资的现实需求。算法创作已成为现实，这改变了人类作者为作品的唯一创造者的传统观念。即便学者们仍将其视为人类进行创作的辅助工具，但无论人工智能的法律地位如何，事实上，人工智能已经深入参与到内容创作的过程中，成为作品产生的来源之一。当人们不再假设作品中所有的变化都来自于人类之手，“劳动财产学说”所主张的“作者通过劳动获得版权”的观点便将遭到质疑。〔19〕在“数据驱动创作”模式中，付出“辛勤创造性劳动”的主体并非只有人类，还包括人工智能系统。甚至，随着人工智能技术的不断发展，在“数据驱动创作”过程中，人工智能已经可以起到关键作用或者独立进行版权产品的制作。按照“劳动财产学说”的逻辑，人工智能付出了创造性劳动，其理应取得著作人格权，但这显然与自然权利理论所主张的“作者是作品的唯一来源”的观点相悖。
二、算法创作需要合理使用制度的保障
　　被广为报道的新闻机器人撰写新闻等人工智能应用场景，是典型的算法创作，即通过算法演算数据所获得的输出结果或变量结果。例如，创立于2012年的音乐科技公司点乐台（Jukedeck）正式推出了基于人工智能合成技术的在线音乐创作应用。用户通过设定音乐类型（如摇滚、流行等）、心情（如愉悦、忧郁等）、乐器和节奏等参数，便可以在不到10分钟的时间内自动生成MP3格式的音乐，并根据用户类型和音乐用途的不同而提供不同的付费下载。〔20〕算法创作是机器学习的产物。机器学习是指在完成任务的过程中改进其性能的计算机系统，主要是用于预测的技术，其完成的任务主要包括两类：分类定性与回归分析。前者是将输入的信息与预设的标签（label）进行关联，后者是指根据给定的影响变量的数据来持续预测变量结果。而这些变量结果（即机器学习的产物）涉及范围非常广泛，如语言翻译、癌变筛查、面部识别、自动驾驶、音乐创作、新闻报道等。数据的使用（学习）也主要有两类：监督学习和无监督学习，主要区别在于前者所输入的数据是有标签的。
　　从技术发展来看，机器学习在近期得到迅猛发展的重要原因是出现了能够处理大数据计算能力的硬件设备。〔21〕面向应用的人工智能开发能否取得实质的进步，往往取决于相应数据的完整性。即使人工智能的算法非常先进，但如果用于机器学习的数据库（trained dataset）是不完整的，则其输出结果极有可能不正确，就会产生极大的误差，即“计算机科学家们常常直白地将其描述为：输入垃圾，输出的也是垃圾。”〔22〕以监督学习为例，开发一款识别猫的人工智能就需要研究人员在数据库中建立猫的标签（即猫所具有的一系列具体特征），其学习过程就类似于父母教育小孩，将什么是猫告诉小孩，并确认或纠正其对猫的生物特征的理解。软件能否准确识别不同形态的猫，关键在于其能否从数据库中正确抽象出猫的个性特征及整体特征；而这又取决于训练数据是否足够多、足够全。〔23〕例如，如果数据库只有玳瑁猫这一品种的图片，则暹罗猫、孟买猫等品种就有可能难以被系统识别出来。为了实现其功能，数据库就必须有大量的不同品种猫的素材。
　　算法偏见的现象常常为媒体所报道，如一位华裔学生在更新其澳大利亚护照时，因为眼睛较小而被系统判定照片是闭着眼的，要求其“重新上传照片，并确保自己的眼睛是睁开的”。〔24〕这个错误实质上是人工智能数据库偏见（biases）所造成的，其产生的原因在于训练人工智能的大数据存在量和质的问题。即这些数据库通常在性别、种族以及地域等方面存在数据不全面的缺陷。当越来越多的人工智能被银行、民用交通工具、车站、法院乃至军队采用时，人工智能必须要克服数据导致的“偏见问题”。如果构成机器学习的大数据是不完整的或存在偏见，人工智能的产出将会放大其负面效应。
　　除了数据存在的固有偏见问题，训练数据库的标注过程也可能影响数据的质量。适合机器学习的良好训练数据库不仅要求数据的规模大，还要求对数据的标注准确。数据标注属于劳动密集型产业，成本高昂，通常需要大量数据标注员的参与，但目前数据标注从业人员的素质参差不齐。〔25〕在数据标注过程中，数据标注员的偏见可能会影响数据的质量，进而影响产出内容的质量。例如，数据标注员与接受数据服务的人关于美好假期的看法可能存在很大差异，对于从事图像标注的东南亚工人而言，“海滩和大海意味着艰苦的捕鱼或者清理工作，而不是在太阳椅上放松”。〔26〕
　　之所以发生数据偏见的问题，除了开发资金有限之外，还由于数据的收集、存储和使用过程中涉及重要的伦理困境和法律风险。〔27〕例如，如果开发视觉识别类的人工智能，通过网络就可以找到足够多的数据，如关于人种、肤色和性别的人类照片和视频。然而，这些图片或视频通常受版权的保护，随意使用存在着侵权的风险。不只是视频、照片，各类作品都有可能被处理为人工智能开发的重要数据、作为机器学习的初始素材。例如，语言类人工智能（如口译机器人）需要使用大量的书面语言和口头语言作为素材，这需要将大量的书籍、视频、录音等处理为学习数据。
　　人工智能的开发者有可能利用其特有的市场地位获得一些版权材料的授权，如分享平台提供者通常会在服务协议中约定其可享有用户版权材料的使用权，有些甚至强制用户转让版权。但是，并不是所有的人工智能开发者都能够有这样的便利条件。有些人工智能开发者通过购买数据库的方式来获得作为机器学习数据的版权材料。例如，BM公司开发的人工智能“沃森”（Watson）就是通过与纪念斯隆—凯特琳癌症中心的合作而获得了超过1200万页的医学文献，其中大部分文献都享有版权。尽管IBM公司并未公开其具体费用，但从其与麻省理工学院和哈佛大学的合作费用高达五千万美元来看，该种方式的数据获取成本非常高。〔28〕即使如此，这样获取的数据样本仍然可能是不全面的，如YouTube的用户主要是白人，微信的主要用户是华人，极易导致“算法偏见”的产生。
　　版权法提高了数据获取的成本，这是造成“算法偏见”的原因之一。当训练数据的使用成本提高时，人工智能系统开发者更倾向于使用那些处于公有领域、不受版权法保护的版权材料，以降低开发成本，但这些版权材料往往充满偏见。例如，我国《著作权法》规定的作品保护期为作者终身加死后50年，假设作者35岁时发表作品而在75岁时去世，则作品的自由利用时间离发表时间就相差近百年之久。在漫长的时代变迁过程中，语义可能发生变化，有些词汇已成历史。如果人工智能系统的开发者把这些具有时代局限性、缺乏全面性和客观性的版权材料作为训练数据，那么生产的内容也将带有偏见。这不仅可能导致市场失败，还有可能固化那些已经逐渐消失的社会偏见。
　　“算法偏见”问题在现存版权法框架下难以得到解决。这主要体现在三个方面。〔29〕第一，版权法禁止规避技术措施，限制了反向工程等减少偏见技术的实施和更优化的人工智能系统的开发。〔30〕第二，版权法通过对作品的垄断，主要通过版权法默认的“选择加入”（opt-in）作品利用机制，记者、研究者以及竞争对手基于披露算法偏见目的使用作品的行为也被排除在外，限制了算法问责制的实施。第三，占据主导地位的人工智能开发者通常依靠其产品获取数据，产品所针对用户群体的单一性造成获取的数据具有一定偏见。而且，获取数据需要大量投资，新兴的市场竞争者几乎不太可能获得类似IBM协议的作品使用许可。
　　解决“数据驱动创作”版权困境的方案主要包括“选择退出”“有条件例外”“无条件例外”〔31〕及“法定许可”模式。〔32〕具体而言，“选择退出”（opt-out）模式是指在法律规定的特定情形下，未经事前授权的版权材料使用者只要支付了合理报酬，其行为并不违法；但如果权利人将不愿授权的意愿告知使用者，使用者即不能再予利用。〔33〕“有条件例外”模式以英国《1988年版权、设计与专利法》（第29A条）为代表，作为版权侵权例外的数据挖掘限定在非商业性使用的范围内。〔34〕以美国和日本为代表的“无条件例外”模式则允许基于商业目的之数据挖掘适用合理使用制度，但二者也因立法模式不同而存在一些区别。美国常常通过解释合理使用的一般条款，将基于数据挖掘目的使用他人作品的行为纳入其中。〔35〕日本则采取“列举主义”的方式扩张了合理使用的范围，其《著作权法》（2018年）第47条之五将所有信息处理（“情報処理”）行为纳入侵权例外，不考虑是否具有商业目的，其条件是该使用行为属于轻微利用（“軽微利用”）且不得不合理地损害版权人利益（“著作権者の利益を不当に害”），这为数据挖掘、机器学习、反向工程等技术的应用扫清了制度障碍。〔36〕欧盟《数字单一市场版权指令》也有类似规定，其第4条规定：“以文本和数据挖掘为目的，对合法获取的作品或其他内容进行复制与提取的行为”，属于著作权例外。最后，“法定许可模式”允许人工智能系统开发者无需事先获得作品权利人的许可而直接使用作品，但需向权利人支付合理报酬。〔37〕
　　在上述模式中，合理使用制度的扩张是克服“算法偏见”的可行路径。虽然上述四种模式都简化了作品的许可成本，但相较于“选择退出”和“法定许可”模式，在“无条件例外”模式下，人工智能系统的开发者无须支付任何费用即可将受版权法保护的作品用作训练数据。这不仅可以增加训练数据的数量，也可以提高训练数据的质量。同时，相较于“有条件例外”模式，“无条件例外”模式则将合理使用的适用范围扩张到商业使用目的，更有利于推动算法创作的广泛使用，提高内容行业的生产力。
　　更重要的是，基于机器学习目的使用他人作品满足合理使用制度的构成要件，不会造成利益失衡。版权法不仅应坚持“人类读者”的可版权性条件，也应坚持“人类读者”的合理使用标准。算法创作并不一定利用原作的表达进行创作，而是将原作作为数据提供给机器使用或“阅读”。即，人工智能开发所利用的作品在性质上只是机器学习的数据；它完全不会像人类读者一样去欣赏、体验作品，或像人类作者一样去再创作。在机器学习过程中，“最畅销的小说仅仅是人类如何使用书面语言的数据，自拍照只是人脸特征的数据，电影中的对白也只是人类声音的数据罢了。”〔38〕因此，版权法应该区分人类读者和机器读者。对于面向人类读者的作品使用行为，“必须要予以严格、详细地审查，以确保属于版权人的作品市场不被侵蚀，但属于机器读者的使用行为，则应属于合理使用”。〔39〕
　　这体现了合理使用中转换性使用的重要转向。通常认为，合理使用制度意图克服“过宽的版权保护阻碍科学技术的进步”之弊端，以确保其作为“表达自由的引擎”，而不是相反。〔40〕在新技术引发的合理使用纠纷案件中，美国法上发展出来的转换性使用常常被用作判断的主要标准。转换性使用为美国勒瓦尔法官所系统阐释，他认为“如果二次使用行为给原作品增加了新的价值，如将其作为原始素材（raw material）而引用，或在新信息的创作中进行了转换，或增加了新的审美、洞见和知识，这些行为就是合理使用制度意欲增进社会发展的使用类型”。〔41〕在数字技术时代，这一阐释广泛用于功能转换性使用的情形，比如图片搜索、论文抄袭检测等。在这些类型的案件中，被告常常没有进行任何的创作行为。有的学者将功能转换性使用的合理使用称之为“非表达型”（non-expressive use）合理使用；〔42〕也有的学者称之为“技术型合理使用”，并将二次使用作品的行为分为创作型、操作型和输出型三种。〔43〕
　　我国现行《著作权法》并未规定美国式因素主义的合理使用制度，但《著作权法实施条例》第21条的规定借鉴了《伯尔尼公约》的三步测试法，具有因素主义的特征。该条规定，在特定情形下可“不经著作权人许可使用已发表作品，（但）不得影响该作品的正常使用，也不得不合理地损害著作权人的合法权益”。那么，机器读者的作品使用行为是否影响“作品的正常使用”？是否“不合理地损害著作权人的合法权益”？问题的回答取决于以下事实：用于机器学习的数据（作品）是否属于作品的传统市场、合理预期的许可市场以及极有可能开发出来的潜在市场？
　　很明显，机器学习需要获得大数据的支持，但单一作品对人工智能开发的价值和意义不大，它与作品本身的艺术价值或表达价值无关。事实上，作为数据的作品只是关于人物的基本特征、画作的一般元素、语言的共同属性等事实的载体。质言之，人工智能使用作品的目的是为了获取有关语言或图片等事物的抽象或原则概念。因此，这并不属于一般意义上版权人的作品市场。在计算机软件的版权保护中，法律早已承认有些复制行为受合理使用庇护，这就是反向工程中的“中间性复制”（intermediate copying）问题。作为获取版权软件中的设计思想和功能要素的手段，“中间性复制”为竞争者开发出与原作品功能相兼容的新软件所必须，故构成转换性使用。〔44〕为机器学习复制作品的行为类似于软件开发时的“中间性复制”，即使是对作品的完整复制，它也只是机器学习时输入的一项数据，并非在作品表达意义上来阅读作品。功能性的转换性使用不属于面向传统人类读者的范围。因此，它不属于版权人控制的作品市场。
三、算法创作再塑版权制度的基本取向

作者其他论文

论实用艺术作品的独创性判断标准

知识产权侵权损害赔偿计算方法的制度重构

论知识产权法中理性人标准的价值基础

促进药价可支付性的知识产权制度改进路径

笔记