11
2020 年 第 6 期 学术研究 Academic 机器学习作品的著作权法分析 ——非作品性使用、合理使用与侵权使用 / 李安 摘要:新一代人工智能技术的核心是以数据训练算法为特征的机器学习。受著作权保 护的作品是算法训练的重要数据资源,机器批量化学习作品面临着著作权侵权问题。仅以 合理使用制度来消解机器学习作品的著作权责任,是对复杂问题的简单处理,存在不足。 未经许可的作品使用分为“非作品性使用、合理使用、侵权使用”三种类型,机器学习有 “非表达型、普通的表达型、特殊的表达型”三个类别。非表达型机器学习不是在著作权法 意义上使用作品(非作品性使用),不负著作权侵权责任;表达型机器学习虽是在著作权法 意义上使用作品,但原则上可构成合理使用免除著作权侵权责任;不过,以模仿特定作者 为目的的表达型机器学习除外,未经授权使用作品应负侵权责任。 基金项目:中南财经政法大学中央高校基本科研业务费专项资金资助(编号:202011501)。 作者简介:李安,中南财经政法大学知识产权研究中心博士研究生。 1. 参见刘康:《未来媒体行业的新常态是“人机协同”——腾讯机器人写手 Dreamwriter 的“大白”定位》,载《南方传 媒研究》2017 年第 1 期,第 184-187 页。 2. 参见陈世哲:《浅谈人工智能技术在音乐创作中的应用》,载《音乐探索》2020 年第 1 期,第 130 页。 3. 参见姜奇平:《智能机器人小冰出版了一本诗集 < 阳光失了玻璃窗 >》,载《互联网周刊》2017 年第 12 期,第 6-7 页; 霍思伊:《或然世界:AI 和艺术的短兵相接》,载《中国新闻周刊》2019 年第 26 期,第 66-71 页。 关键词:人工智能;机器学习;非作品性使用;合理使用;侵权使用 人工智能技术对文化产业带来了巨大冲击。 腾讯机器人写手“Dreamwriter”在 2016 年里 约奥运会期间写出 3600 多篇新闻稿。 1 IBM 司的人工智能系统“Waston Beat”参与创作的 歌曲“Not Easy”,在全球著名音乐在线服务商 Spotify”平台的 2017 年全球音乐榜中排名第 二。 2 微软智能机器人“小冰”,于 2017 年创作 并出版了诗集《阳光失了玻璃窗》,于 2019 创作并举办了个人画展《或然世界》。 3 在欢呼人 工智能创作的同时,我们必须认识到,人工智 能技术对文化产业造成的冲击,不局限于文化 生产,还波及到文化消费。人工智能在成为一 个“作者”之前,首先是一个“读者”;并非所 有的人工智能都从事“创作”,但几乎所有的人 60

机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

  • Upload
    others

  • View
    2

  • Download
    0

Embed Size (px)

Citation preview

Page 1: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

机器学习作品的著作权法分析——非作品性使用、合理使用与侵权使用

文 / 李安

摘要:新一代人工智能技术的核心是以数据训练算法为特征的机器学习。受著作权保

护的作品是算法训练的重要数据资源,机器批量化学习作品面临着著作权侵权问题。仅以

合理使用制度来消解机器学习作品的著作权责任,是对复杂问题的简单处理,存在不足。

未经许可的作品使用分为“非作品性使用、合理使用、侵权使用”三种类型,机器学习有

“非表达型、普通的表达型、特殊的表达型”三个类别。非表达型机器学习不是在著作权法

意义上使用作品(非作品性使用),不负著作权侵权责任;表达型机器学习虽是在著作权法

意义上使用作品,但原则上可构成合理使用免除著作权侵权责任;不过,以模仿特定作者

为目的的表达型机器学习除外,未经授权使用作品应负侵权责任。

基金项目:中南财经政法大学中央高校基本科研业务费专项资金资助(编号:202011501)。作者简介:李安,中南财经政法大学知识产权研究中心博士研究生。

1. 参见刘康:《未来媒体行业的新常态是“人机协同”——腾讯机器人写手 Dreamwriter 的“大白”定位》,载《南方传

媒研究》2017 年第 1 期,第 184-187 页。

2. 参见陈世哲:《浅谈人工智能技术在音乐创作中的应用》,载《音乐探索》2020 年第 1 期,第 130 页。

3. 参见姜奇平:《智能机器人小冰出版了一本诗集 < 阳光失了玻璃窗 >》,载《互联网周刊》2017 年第 12 期,第 6-7 页;

霍思伊:《或然世界:AI 和艺术的短兵相接》,载《中国新闻周刊》2019 年第 26 期,第 66-71 页。

关键词:人工智能;机器学习;非作品性使用;合理使用;侵权使用

人工智能技术对文化产业带来了巨大冲击。

腾讯机器人写手“Dreamwriter”在 2016 年里

约奥运会期间写出 3600 多篇新闻稿。1 IBM 公

司的人工智能系统“Waston Beat”参与创作的

歌曲“Not Easy”,在全球著名音乐在线服务商

“Spotify”平台的 2017 年全球音乐榜中排名第

二。2 微软智能机器人“小冰”,于 2017 年创作

并出版了诗集《阳光失了玻璃窗》,于 2019 年

创作并举办了个人画展《或然世界》。3 在欢呼人

工智能创作的同时,我们必须认识到,人工智

能技术对文化产业造成的冲击,不局限于文化

生产,还波及到文化消费。人工智能在成为一

个“作者”之前,首先是一个“读者”;并非所

有的人工智能都从事“创作”,但几乎所有的人

60

Page 2: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

工智能都需要“阅读”。与人工智能输出端的著

作权研究相比,人工智能输入端的著作权研究

显得比较薄弱。基于此,本文拟分析机器学习

作品的著作权问题,并讨论机器学习的三种类

型及其著作权责任。

一、机器学习作品的著作权困境

人工智能技术发端于 1956 年的达特茅斯

(Dartmouth)会议。与认识论的两种传统即“理

性主义”和“经验主义”相对应,60 多年来人

工智能的技术进路有“代码定义”和“数据训

练”两种。得益于 21 世纪初出现的大数据(具

有“4V”特征的数据集),4 新一代人工智能技

术的核心是以数据训练算法为特征的机器学习。

供机器学习(算法训练)的原料是数据,5 而如何

处理数据之上的权利,如隐私权、个人信息权、

商业秘密权等,是人工智能技术发展所面临的

一个重大法律问题。其中,如果用于机器学习

的数据之上存在有他人的著作权,这就会引起

机器学习作品的著作权问题。

(一)机器学习作品面临著作权侵权风险

机器学习作品具有著作权侵权风险,这种

风险是现实存在的:

首先,供机器学习的数据资源会涉及大量

的版权作品。一方面,现有司法实践中的作品

独创性标准,增加了许多碎片化网络内容获得

版权保护的可能性,进而也加大了机器学习过

程中发生著作权纠纷的可能性。以 2015 年谷

4. 4V 指“volume、veracity、variety、velocity”,即“大量、准确、多样、速率快”。也有“5V”的观点,即在 4V之外加上“价值”(Value)。See Jaideep Khanduja, “Big Data 5Vs —— Volume, Velocity, Variety, Veracity, and Value”, TechTarget, 2016, https://itknowledgeexchange.techtarget.com/quality-assurance/big-data/. Last visited time on May 30, 2020.5. 参见李安:《人工智能时代数据竞争行为的法律边界》,载《科技以法律》2019 年第 1 期,第 62-63 页。

6. See Anjuli Kannan et al., “Smart Reply: Automated Response Suggestion for Email”, Proceedings of the 22nd ACM Sigkdd International Conference on Knowledge Discovery and Data Mining, 2016, pp. 955-964.7. 参见北京市海淀区人民法院(2008)海民初字第 16204 号民事判决书。

8. See Richard Lea, “Google swallows 11,000 novels to improve AI's conversation”, THEGUARDIAN, 2016, https://perma.cc/LG94-ZXZA. Last visited time on May 30, 2020.9. See Matthew Sag, “Copyright and Copy-Reliant Technology”, Northwestern University Law Review, Vol. 103, No. 4, 2009, p. 1608.

歌公司旗下邮箱产品“Inbox”推出的“智能回

复”(Smart Reply)功能为例,为了能依据收件

内容写出对应的回信,上亿条过往邮件内容被

用来训练自动回复算法。6 这些内容简单、语句

单调、篇幅短小的邮件内容,虽不是作品的典

型,但有被认定为作品的可能。如在“大众点

评诉爱帮网”案中,法院认定大众点评网站内

部分网民的点评内容构成作品,网站对点评内

容进行整理排序可形成汇编作品。7 另一方面,

相比其他数据资源,作品更加系统化、规范化,

因此具有无与伦比的算法训练价值。仍以谷歌

“Inbox”邮箱的“智能回复”功能为例,用数以

亿计的过往邮件内容训练出来的算法只能自动

生成一些语气生硬、句式单一的回信内容。为

了进一步改良算法,研发人员选取 11000 余本

爱情小说来喂养算法,以期该服务产品能够写

出语句活泼、风格多变,甚至幽默诙谐的语句。

美国作家协会(Authors Guild)怒称谷歌此举是

对版权法的“无耻侵犯”。8

其次,机器学习作品的前提是复制作品,

也就是说,机器学习作品有可能触及作品权

利人以复制权为核心的专有权。学者 Matthew

Sag 将以复制作品内容信息为必要前提的技

术统称为“复制依赖型技术”(Copy-reliant

Technology)。9 传统的“复制依赖型技术”,如

网络搜索引擎,该技术的运作需要经常地、自

动地、批量地复制网页信息内容以便制作索引

清单、网页快照等;再如论文抄袭检测软件,

该技术的运作需要大量复制作品以便构建待检

61

Page 3: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

论文查重的对比数据库。最新的“复制依赖型

技术”当属机器学习的内在技术即“文本数据

挖掘”,其大致包括“接触、提取(复制)、挖

掘、使用”四个环节。以机器学习纸质作品为

例,第一步使用照相或影印技术将书本页面转

换为电子图像,第二步使用光学字符识别技术

从电子图像中提取文字并将其转换为以二进制

数字形态存在的数据集,第三步将包含作品的

数据集拷贝至算法所在的计算机系统作进一步

的挖掘分析。可见,在机器学习作品的过程中,

作品复制是必不可少的环节。此外,在文本数

据加工处理过程中还可能涉及作品的改编、汇

编等演绎行为,这些行为均有可能触及作品权

利人以复制权为核心的专有权。

因为供机器学习的数据资源会涉及大量的

版权作品,且机器学习作品有可能触及作品权

利人以复制权为核心的专有权,所以机器学习

作品面临着著作权侵权风险。不过,需要明确

的是,这里的侵权只是一种可能的风险,并非

所有机器学习中的作品使用行为都受著作权法

规制。具体分析详见后文。

(二)著作权侵权风险影响人工智能技术

发展

著作权侵权风险会对人工智能发展产生负

面影响,尤其表现为以下两点:

第一,著作权会减少可供机器自由学习的

作品集,而片面的作品集会导致算法偏见。算

法偏见是人工智能技术发展中的一个重大问题,

取向于公正的算法是人工智能技术发展的努力

10. See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem”, Washington Law Review, Vol. 93, No. 2, 2018, pp. 583-584.11. The White House (Executive Office of the President), “Preparing for the Future of Artificial Intelligence”, 2016, https://obamawhitehouse.archives.gov/sites/default/files/whitehouse_files/microsites/ostp/NSTC/preparing_for_the_future_of_ai.pdf, Last visited time on May 30, 2020, p. 30.12. See Amanda Levendowski, “How Copyright Law Can Fix Artificial Intelligence’s Implicit Bias Problem”, Washington Law Review, Vol. 93, No. 2, 2018, p. 589.

方向。出现算法偏见的主要原因除了算法设计

缺陷、算法设计者身份同质化之外,另一个重

要的原因是训练算法的数据集不充足、不完

整。102016 年,美国奥巴马政府在白皮书《为未

来的人工智能做好准备》中指出“人工智能系

统需要好的训练数据。如果训练数据不完整或

者带有偏见,那么人工智能会加剧这种片面所

带来的问题”。11 可见,数据的好坏直接关系人

工智能的好坏。前文已述,作品是系统化、规

范化的高质量数据集。不过,著作权会增加高

质量作品数据集的获取难度,进而促使人工智

能开发者使用“获取限制较低但带有偏见的数

据集”(biased, low-friction data)来训练算法,

这是出现算法偏见的一个重要原因。12

第二,机器学习作品如果需要事前授权,

会产生较高的权利交易成本,这会一定程度上

抑制人工智能技术的发展。与人类学习作品不

同,机器是自动地、批量地、无差别地学习作

品,其作品学习集数量巨大、种类多样、范围

广阔,包含着受版权保护的作品和不受版权保

护处于公共领域的作品,受版权保护的作品中

还有采取公共许可协议(如 CC 协议)的版权

作品和保留所有权利的版权作品的区别。将作

品类数据从机器学习的数据集中剥离出来,并

一一识别版权、请求授权,这无疑是一件成本

巨大的工作。畸高的权利交易成本会加大人工

智能的研发成本,更会吓阻一些初创型人工智

能研发主体。在著作权法的经济学分析中,交

易成本经常被用来解说著作权限制制度(如合

62

Page 4: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

理使用、法定许可、强制许可等)的合理性。13

对于机器学习作品而言,畸高的交易成本也是

诉求限缩著作权的一个原因。

在历史上,著作权与科学技术一直处于互

动之中。著作权与科技的互动关系可以概括为

以下两个方面:其一,科技进步孕育出著作权

并促使著作权不断扩张,如照相技术催生照片

这一类新作品,再如网络传播技术引来信息网

络传播权这一新权利。其二,著作权法又一定

程度上制约新兴技术特别是“复制依赖型技术”

的发展,如1908年的自动卷轴钢琴案 14、1984年

的索尼案 15、2005 年至 2016 年的谷歌图书案 16,

反映的都是作品著作权保护与新兴技术发展之

间的紧张关系。对于机器学习而言,一方面机

器学习扩展了作品的使用方式,另一方面作品

版权影响到机器学习技术的发展。在一个大的

创新系统里面,著作权法不仅要激励文化创新,

也要保障技术创新;文化创新需要严格的著作

权保护,而技术创新往往诉求宽松的著作权环

境。机器学习作品就面临这样一个两难困境:

既要维持作品著作权保护,又要促进人工智能

技术发展。

在以往的著作权实践中,解决上述两难困

境的常见做法是:在不损害作品创作激励机制

的前提下,为新兴技术的发展提供一个较为宽

松的著作权环境。如美国《千禧年数字版权法》

13. 譬如,学者 Gordon 于 1982 年提出因过高交易成本而出现的市场失灵是合理使用制度存在的经济学原因。See Wendy J. Gordon, “Fair Use as Market Failure: A Structural and Economic Analysis of the Betamax Case and Its Predecessors”, Columbia Law Review, Vol. 82, No. 8, 1982, pp. 1600-1657. 再譬如,在学者 Calabresi 和 Melamed 提出的“卡 - 梅分析框架”

中,以交易成本的大小区别出财产规则和责任规则,而责任规则经常被用来解说著作权法定许可制度的合理性。See Calabresi & Melamed, “Property Rules, Liability Rules, and Inalienability: One View of the Cathedral”, Harvard Law Review, Vol. 85, No. 6, 1972, pp. 1089-112885.14. See White Smith Music Publ'g Co. v. Apollo CO., 209 U.S. 1 (1908).15. See Sony Corporation of America v. Universal City Studios, 464 U.S. 417 (1984).16. See Authors Guild v. Google Inc., 770 F.Supp.2d 666 (2011); Authors Guild v. Google Inc., 954 F. Supp. 2d. 282 (2013), affirmed by 804 F.3d 202 (2nd Cir. 2015), cert. denied, 136 S. Ct. 1658 (2016).17. See Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146 (9th Cit. 2007);A.V. ex rel. Vanderhye v. iParadigms, LLC, 562 F.3d 630 (4th Cir. 2009).18. 参见刘友华、魏远山:《机器学习的著作权侵权问题及其解决》,载《华东政法大学学报》2019 年第 2 期,第 68-79 页;

华劼:《合理使用制度运用于人工智能创作的两难及出路》,载《电子知识产权》2019 年第 4 期,第 37-38 页;Benjamin L. W. Sobel, “Artificial Intelligence's Fair Use Crisis”, Columbia Journal of Law & the Arts, Vol. 41, No. 1, 2017, pp. 90-93.

(DMCA)第 512 条所规定的“避风港”规则,

极大地促进了美国互联网技术及其相关产业的

发展;再如法院将网络搜索引擎、论文检测软

件等新技术对作品的使用认定为合理使用。17 在

无特殊情况下,机器学习作品似可因循前例,

即著作权法可在维持作品保护的前提下侧重于

促进技术发展。

二、机器学习作品合理使用观点的梳理

与检讨

适宜于人工智能发展的著作权环境主要着

眼于以下两点:一是适当地缩小机器学习的著

作权责任范围;二是尽可能地明晰机器学习的

著作权责任界限。较小的著作权责任范围和较

为清晰的著作权责任界限,可以为人工智能开

发者提供更大的、更明确的行动自由。那么,

接下来的问题是:人工智能学习作品的著作权

制度该怎么安排?

在现有文献中存在以下两种观点:第一,

主张机器学习作品构成侵权使用,应以法定许

可、著作权集体管理、补偿金等权利限制制度

来解决机器学习作品的权利许可问题;18 第二,

主张机器学习作品不构成侵权,应以合理使用

制度解决机器学习作品的著作权问题。现有的

立法司法实践似乎倾向于合理使用制度,如欧

63

Page 5: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

盟 2019 年《单一数字市场版权指令》中的文本

数据挖掘例外(第 3、4、7 条),美国法院认

定文本数据挖掘构成合理使用而驳回作家协会

(Authors Guild)针对谷歌图书项目的一系列侵

权之诉。19 与此相应,国内外的大多数学者也主

张采用合理使用制度解决机器学习作品的著作

权问题。

(一)机器学习作品合理使用观点的梳理

国外有很多与机器学习作品相关的合理使

用分析文献,以下是几个较有代表性的观点:

(1)学者 Grimmelmann 在区别“人类阅读”和

“机器阅读”的基础上,赞同“机器阅读”作品

基于合理使用制度不构成著作权侵权。20(2)学

者 Lee 提出“技术性合理使用”(Technological

Fair Use)概念,认为包括文本数据挖掘在内

的“技术性合理使用”像“戏仿合理使用”一

样,是一个较为稳定的合理使用类型。21(3)学

者 Karapapa 等从“作家协会诉谷歌图书”达成

的和解协议(司法认定阶段被认定无效)中援

引并阐述了“非展示性使用”(Non-display Use)

概念,并以此解读 Google 图书计划中对数以万

计作品的使用(包括文本数据挖掘)为何构成

合理使用。22(4)学者 Sag 主张文本数据挖掘以

及机器学习是对作品的“非表达性使用”(Non-

Expressive Use),属于在目的 / 功能层面转换性

使用(Transformative Use)作品,可认定为合

理使用,不构成著作权侵权。23(5)学者 Sobel

以是否有作品表达性内容输出为标准,将人工

19. 主要有两个案例:一是“Authors Guild v. Google Inc.”案,see Authors Guild v. Google Inc., 954 F. Supp. 2d. 282 (2013), affirmed by 804 F.3d 202 (2nd Cir. 2015), cert. denied, 136 S. Ct. 1658 (2016); 二是 “Authors Guild v. HathiTrust”案 , see Authors Guild, Inc. v. HathiTrust, 902 F. Supp. 2d 445, 460 (S.D.N.Y. 2012), affirmed by 755 F.3d 87, 97 (2d Cir. 2014).20. See James Grimmelmann, “Copyright for Literate Robots”, Iowa Law Review, Vol. 101, No. 2, 2016, pp.657-681.21. See Edward Lee, “Technological Fair Use”, Southern California Law Review, Vol. 83, No. 4, 2010, p. 808.22. See Borghi & Karapapa, “Non-display uses of copyright works: Google Books and beyond”, Queen Mary Journal of Intellectual Property, Vol. 1, No. 1, April 2011, pp. 21–52.23. See Matthew Sag, “The New Legal Landscape for Text Mining and Machine Learning”, Journal of the Copyright Society of the USA, Vol. 66, No. 2, 2019, pp. 346-365.24. See Benjamin L. W. Sobel, “Artificial Intelligence's Fair Use Crisis”, Columbia Journal of Law & the Arts, Vol. 41, No. 1, 2017, pp. 49-79.25. 参见张金平:《人工智能作品合理使用困境及其解决》,载《环球法律评论》2019 年第 3 期,第 130-132 页。

26. 参见徐小奔等:《论人工智能深度学习中著作权的合理使用》,载《交大法学》2019 年第 3 期,第 38-41 页。

智能分为“表达型”和“非表达型”两种,并

认为“非表达型人工智能”学习作品可认定为

合理使用,而“表达型人工智能”学习作品认

定为合理使用的可能性较小。24

国内也有很多学者运用合理使用制度来分

析机器学习作品的著作权问题。在我国,机器

学习或其内在技术文本数据挖掘不属于《著作

权法》第 23 条所列举的十二种合理使用情形。

对此,有两类具有代表性的观点:其一,借鉴

欧盟 2019 年《单一数字市场版权指令》中的文

本数据挖掘例外,建议我国《著作权法》第三

次修改将文本数据挖掘新增为一项新的法定合

理使用类型。25 其二,引用美国司法实践中的转

换性使用概念及其理论,主张机器学习是对作

品的转换性使用,可在司法实践中认定为合理

使用,并建议我国《著作权法》第三次修改增

加合理使用认定的一般规则。26

现有关于机器学习作品的合理使用分析是

积极有益的,体现出了为人工智能发展营造宽

松著作权环境的努力。更为重要的是,这些研

究提出了一些非常具有建设性意义的概念,这

些思维工具为后续研究留下了宝贵遗产。不过,

仅以合理使用制度来消解机器学习作品的著作

权责任,是对复杂问题的简单处理。机器学习

作品的著作权问题需要更加精细化的分析,其

中的一个方法就是类型化分析。这里的类型划

分既包括作品使用的类型划分,也包括机器学

习的类型划分;后者将在下文中详细说明,前

64

Page 6: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

者是本节分析的重点。

(二)机器学习作品合理使用观点的检讨

现有研究把机器学习作品要么归类为合理

使用,要么归类为侵权使用,这种分类在逻辑

上不够完整。与侵权使用相对,未经许可且合

法的作品自由使用,除了合理使用,还有非作

品性使用。在现有文献中,机器学习作品所构

成的合理使用不一定都是合理使用。合理使用

的分析适用是以侵权行为存在为前提的,如果

没有侵权行为则没有讨论合理使用的必要。以

“梦幻西游 2”案的一二审判决为例,其说理逻

辑为:第一,涉案电子游戏画面构成作品;第

二,网络直播行为受作品专有权控制;第三,

电子游戏网络直播不是对游戏画面的合理使用;

第四,电子游戏网络直播侵犯游戏画面的著作

权。27 可见,侵权行为分析先于合理使用分析。

进一步来说,如果不在著作权法意义上使用作

品,那么这种作品使用不受著作权规制,因此

无侵犯著作权之可能,更无合理使用分析之必

要。以商标为例,商标符号本身(符号能指)

的描述性使用,并不涉及商标符号识别商品来

源、区别同类商品的作用,也即并不是对商标

符号之识别区别功能(符号所指)的使用,因

此,商标的描述性使用不是在商标意义上使用

商标,也就不存在商标合理使用分析的前提。

对于商标的描述性使用而言,商标的合理使用

是一个伪概念。28 作品和商标一样,需要先行判

断作品使用是否是在著作权法意义上使用作品;

27. 参见广州知识产权法院 (2015) 粤知法著民初字第 16 号民事判决书;广东省高级人民法院(2018)粤民终 137 号民

事判决书。

28. 参见何鹏:《商标合理使用理论之反思》,载《理论界》2009 年第 4 期,第 91-93 页;凌洪斌:《叙述性商标合理使

用之证伪》,载《西安电子科技大学学报》2015 年第 1 期,第 57-62 页。

29. See Abraham Drassinower, What’s Wrong with Copying? Harvard University Press, 2015. P. 87, 94.30. See Abraham Drassinower, What’s Wrong with Copying? Harvard University Press, 2015. P. 8.31. See Daniel Schönberger, “Deep Copyright: Up- and Downstream - Questions Related to Artificial Intelligence (AI) and Machine Learning (ML)”, in DE WERRA Jacques, Droit d’auteur 4.0 / Copyright 4.0, Geneva / Zurich: Schulthess Editions Romandes, 2018, pp. 163-167.32. See L. Ray Patterson, Stanley W. Lindberg, The Nature of Copyright: A Law of Users’ Right, The University of Georgia Press,1991, p. 153.

如果是,才有进一步分析该作品是否构成合理

使用的必要。

学 者 Drassinower 将 未 经 许 可 但 合 法 的

作品自由使用区分为两类,一是“非作品性

使 用 ”(Nonuse), 二 是“ 合 理 使 用 ”(Fair

Use)。其中,“非作品性使用”是将作品不作

为作品使用,也即不在著作权法意义上使用作

品。29Drassinower 主张著作权所保护的作品不是

一个“物”(thing,既非有形物,也非无形物)

而是一个“行为”,即以人类欣赏或理解为目的

的思想表达行为和表达传播行为。30 类似地,学

者 Schönberger 指出机器学习作品不需要进行

合理使用抗辩,因为复制作品用于机器学习不

属于著作权法意义上的复制行为。31 且不论该

主张是否正确,其对非著作权法意义上作品使

用的认识是值得赞许的。我们需要认识到,不

能机械地孤立地认定复制作品就是侵犯作品复

制权,而应该在一定的语境和场景中分析作品

复制行为是否侵犯作品复制权。学者 Patterson

和 Lindberg 曾指出著作权法中的复制权是一个

“依附性权利”(Dependent Right),即单纯的作

品复制行为并不构成复制权侵犯,当复制行为

之后有销售(发行)、表演、展示等作品公众化

传播行为发生(或有发生的可能)时,才构成

侵犯复制权在内的作品著作权。32 在著作权不断

扩张的今天,应当明确,文化的持续创新和科

技的快速发展需要一定的复制自由,并非所有

的作品复制都应该被推定为侵犯著作权法。“著

65

Page 7: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

作权法不是一个旨在禁止作品复制的法律,而

是一个区别非法复制和合法复制的法律。”33

为了保留一定的复制自由,应取向于目的

来界定作品专有权,即对作品专有权采取与传

统“本体式定义”不同的“功能式定义”。34 作

品专有权的目的是,确保作者独创性地表达自

己的思想,以及将自己的独创性表达传递给社

会大众。35 因此,著作专有权不是旨在控制所

有类型的作品使用,而仅仅规制以公众化传播

作品表达性内容为目的的作品使用行为。据此,

可以说,取向于公众化思想表达或表达性内容

传播的作品复制等行为,是在著作权法意义上

使用作品;反之,则不是在著作权法意义上使

用作品。不在著作权法意义上使用作品,可认

定为自由使用,无侵权之风险;而在著作权法

意义上使用作品,可推定为侵权使用;但是,

这种推定可以经由合理使用认定而推翻。作品

使用的分类如下图 1 所示:

图 1

33. Abraham Drassinower, What’s Wrong with Copying? Harvard University Press, 2015. P. 2.34. Drassinower 的 原 文 是“the purpose-driven definition of the right”,see Abraham Drassinower, What’s Wrong with Copying? Harvard University Press, 2015. p. 109. 笔者认为,“the purpose-driven definition”可翻译为“功能式定义”。法

的定义,通常有本体式定义、功能式定义等多种方法。参见张文显主编:《法理学》,高等教育出版社 2018 年版,第

81-83 页。彭学龙教授在其博士论文中,将商标的定义也分为“本体式定义”和“功能式定义”。参见彭学龙:《商标法

的符号学分析》,法律出版社 2007 年版,第 22 页脚注③,第 78-81 页。实际上,目的和功能具有相近的含义,只不过

目的偏向主观意图,功能偏向客观效果。

35. 这里有一个例外,即软件作品。软件作为作品纳入著作权法保护,其实并不符合著作权法的内在逻辑,因为软件

程序归根结底是供计算机“阅读”的作品。See James Grimmelmann, “Copyright for Literate Robots”, Iowa Law Review, Vol. 101, No. 2016, p. 669.36. See Sony Corporation of America v. Universal City Studios, Inc., 464 U.S. 417, 442 (1984). 在 Sony 案中,法官 Blackmun在异议意见中区分了作品的“生产性使用”(productive use)和“普通的消费性使用”(consumptive use,也即非生产性

使用),之后这个区分演变为转换性使用与非转换性使用。

37. See Pierre N. Leval, “Toward a Fair Use Standard”, Harvard Law Review, Vol. 103, No. 5, 1990, p. 1111.38. See Campbell v. Acuff-Rose Music, Inc., 510 U.S. 569, 577 (1994).39. 据美国学者 Beebe 的实证分析,在美国合理使用四要素中,第一要素和第四要素最为重要。转换性使用理论提出之

前,第四要素的影响力比第一要素更为显著;转换性使用理论提出之后,第一要素的影响力开始逐渐大于第四要素。

See Barton Beebe, “An Empirical Study of U.S. Copyright Fair Use Opinions,1978-2005”, University of Pennsylvania Law Review, Vol. 156, No. 3, 2008, pp. 549-624.

综上所述,机器学习所涉及的作品使用如

图所示可分为三类:其一,不涉及作品独创性

表达和表达公众化传播的作品使用是非著作权

法意义的作品使用,即非作品性使用,不负著

作权责任;其二,涉及作品表达和表达公众化

传播的作品使用,如果构成合理使用,可免除

著作权责任;其三,涉及作品表达和表达公众

化传播的作品使用,如果不构成合理使用,则

属于侵权使用,应负著作权责任。

可能有异议观点认为,既然非作品使用和

合理使用的结果都是自由使用,那么有必要对

两者作出区分吗?笔者认为这种区分是必要的。

上文已述,国内国外的一些观点主张,借助转

换性使用理论在现有的合理使用制度框架内处

理机器学习作品之非作品性使用。不过,这会

引起一系列问题。转换性使用是合理使用四要

素中第一要素即作品使用的性质和目的的延伸

概念,萌芽于 1984 年的 Sony 案,361990 年被法

官 Leval 首次明确提出,371994 年在 Campbell 案

中被首次引用,38 之后逐渐成为左右合理使用判

断的一个主导因素。39 早期转换性使用仅指在内

容层面的转换性使用,即在内容上对原作品添

加了新元素、新价值,具有生产性,符合版权

66

Page 8: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

法促进文化艺术创新的立法目的,因此构成合

理使用予以责任豁免。但是,后期以 Google 缩

略图案为代表,40 对作品内容原封不动地使用行

为也被纳入转换性使用,即在目的层面的转换

性使用。从内容转换性到目的转换性,转换性

使用理论逐渐从处理戏仿等表达性作品使用扩

张至解决制作缩略图索引等非表达性作品使用。

这种扩张被认为是转换性使用理论的滥用,特

别是在目的层面几乎所有的作品使用都具有或

多或少的转换性,许多学者对此作出批评。41 基

于此,可以说,将机器学习作品之非作品性使

用纳入转换性使用理论框架进行处理,有以下

两点问题:第一,进一步激起人们对转换性使

用理论泛化滥用的质疑,这会侵蚀转换性使用

理论的正当性基础;第二,机器在非著作权法

意义上对作品的使用,基于合理使用而被认定

为自由使用不容易形成牢固共识,因为其立足

点,即目的层面的转换性使用,自身根基就不

牢靠。综上,笔者认为,在逻辑和实践层面均

有必要在合理使用之外提出非作品性使用。至

于非作品性使用与目的层面的转换性使用之间

的关系,因问题复杂,需另外撰文讨论。

三、机器学习作品的三种类型及其著作

权责任

以上述“非作品性使用、合理使用、侵权

使用”的分类为基础,笔者尝试提出一个新的

分析框架,来探讨机器学习作品的著作权责任

问题。目前常见的人工智能分类,是在时间维

度上将人工智能纵向地分为:弱人工智能、强

人工智能、超人工智能。与此不同,哈佛大学

40. See Perfect 10, Inc. v. Amazon.com, Inc., 508 F.3d 1146, 1165 (9th Cir.2007).41. See Matthew D. Bunker, “Eroding Fair Use: the ‘Transformative’ Use Doctrine After Campbell”, Communication Law and Policy, Vol. 7, No. 1, 2002, pp. 1-24.42. Benjamin L. W. Sobel, “Artificial Intelligence’s Fair Use Crisis”, Columbia Journal of Law & the Arts, Vol. 41, No. 1, 2017, p. 49.43. See Tamara L. Berg, et al., “Names and faces in the news”, Proceedings of the 2004 IEEE computer society conference on Computer vision and pattern recognition, 2004, pp. 848.

学者 Sobel 根据人工智能性质的不同对人工智能

作出横向分类,即以是否有表达性内容输出为

标准,将机器学习分为“表达型机器学习”和

“非表达型机器学习”两类。42 笔者赞同这两种

分类,并以机器学习的作品是否来源于特定作

者为标准,将“表达型机器学习”进一步地划

分为“普通的表达型机器学习”和“特殊的表

达型机器学习”。因此,如下图 2 所示,本文所

要讨论的机器学习有以下三种类型:

图 2

第一,“非表达型机器学习”,指没有表达

性内容输出的机器学习。有许多人工智能都属

于“非表达型机器学习”,如自然语言处理系

统、人脸面部识别系统等等,本文选取一个名

为“LFW”( 户 外 人 脸 识 别,Labeled Faces in

the Wild)的人工智能产品作为讨论对象。技

术人员为了开发该系统,将雅虎网站新闻报道

(2002 年至 2003 年)中出现的大约 50 万张新闻

图片作为学习材料,从中提取 44773 张人脸图

像用于训练其人脸识别算法。43 除此之外,该系

统还将原生的和已加工的人脸数据集开放给其

他人脸识别系统开发主体使用。毋庸置疑,这

些新闻中的绝大部分新闻图片是享有著作权的,

不过,该类型机器学习对作品的使用是自由的,

原因不是该类机器学习属于对作品的合理使用,

而是该类作品使用属于在非著作权法意义上使

67

Page 9: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

用作品。的确,人工智能为了搜集人脸数据,

对具有著作权的新闻图片进行了大批量复制;

然而,其作品复制的目的不是为了使用作品中

的表达性要素。人脸识别人工智能从版权图片

中提取的内容仅仅是显示人类五官的脸部特征,

这些被提取利用的人脸特征在版权照片中属于

不具有创造性的内容,更多的是事实信息而不

是受著作权保护的表达。换句话说,该类人工

智能既没有表达性内容输入,也没有表达性内

容输出,机器学习过程中的作品复制没有后续

作品表达性内容公众化传播的结果。因此,该

类机器学习作品是一种非作品性使用,不负著

作权侵权责任。

第二,“普通的表达型机器学习”,指机器

学习旨在输出表达性内容,且用于算法训练的

作品来自数量众多的作者。例如,微软小冰为

了开发其绘画能力,筛选出人类近四百年出现

的较为知名的画家 236 位,将他 / 她们的画作数

字化为算法训练数据。经过机器学习,2019 年,

微软小冰成功举办了名为“或然世界”的个人

画展。44 再如前文所述,2015 年,谷歌“Inbox”

邮箱推出的“智能回复”服务产品在经过上亿

条来往邮件内容的训练后,选取 11000 余本爱

情小说来训练算法,以期该服务产品能够写出

语句活泼、风格多变,甚至幽默诙谐的语句。

无论是微软小冰,还是谷歌邮箱,都有表达性

内容的输入以及表达性内容的输出,因此该类

机器学习过程中的作品复制属于在著作权法意

义上使用作品,但是这种作品使用可以构成合

理使用而免责。首先,该类人工智能从被学习

作品中提取的内容不是其核心的独创性表达。

人工智能对数据进行统计分析和数学建模,本

质上是对数据进行“求同去异”,即保留重复率

44. 参见《在学习 236 位画家之后微软小冰开了个个人画展》,载《高科技与产业化》2019 年第 7 期,第 9 页。

45. Sega Enters. v. Accolade, Inc., 977 F.2d 1510, 1518-1519 (9th Cir. 1992).46. See Shlomit Yanisky-Ravid, “Generating Rembrandt: Artificial Intelligence, Copyright, and Accountability in the 3A Era”, Michigan State Law Review, Vol. 2017, No. 4, 2017, p. 663.

高的数据,排除重复率低的数据。所以,该类

人工智能从大批量复制的作品集中提取利用的

数据信息是所有作品文本中高频率出现的语句

模型,这些常用语句模型基本上是不同作者之

间(或作者共同体内部)通用的大众化表达,

不具有独创性,通常处于公共领域不受受著作

权保护。其次,该类人工智能的创作内容不会

因挪用独创性表达而对被学习作品的市场产生

替代后果。此类机器学习过程中的作品复制属

于“中介性复制”(Intermediate Copying),45 最终

输出的表达性内容是对被学习作品之表达性内

容的整理和混编,但是不包括被学习作品中的

独创性表达,因此该类机器学习不会实质性影

响被学习作品的市场;就算客观上,影响到被

学习作品的市场,也不是因为挪用独创性表达,

而是因为机器创作的作品具有有别于原作的新

价值,这正是著作权法意图促进的文化发展。

综上,该类机器学习虽是在著作权法意义上使

用作品,但构成合理使用,可免除著作权侵权

责任。

第三,“特殊的表达型机器学习”,指机器

学习旨在输出表达性内容,且用于算法训练的

作品全部来自于特定作者。例如,2014 年微软

公司开发一款名为“下一个伦勃朗”(The Next

Rembrandt)的人工智能产品,技术人员将画家

伦勃朗的 346 副画作转换为 150GB 的图像数据

用以训练其人工智能系统,之后该系统“独立

地创作出了模仿伦勃朗画作但又与其不同的,

具有新颖性、创造性的绘画作品”。46 再如巴黎

索尼计算机科学实验室用音乐家巴赫(Bach)

的 300 首歌曲来训练其人工智能系统,之后

“创作”出具有巴赫风格的音乐作品,经测评有

超过一半的听众将人工智能创作的作品误认为

68

Page 10: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

是巴赫本人创作的作品。47 伦勃朗于 1669 年去

世,巴赫于 1750 年作古,毫无疑问,他们的作

品如果有著作权也早已到期进入公共领域了,

因此机器学习两位音乐大师的作品不会有什么

著作权争议。不过,如果该类人工智能技术利

用在世艺术家的作品,势必会引起著作权侵权

问题。从“作者权”传统理论来看,作品财产

权源于作者人格的延伸,作品的独创性在于作

者的个性化表达。48 首先,旨在模仿和重现某一

作者作品的表达型机器学习,是以无限接近该

作者的创作风格为技术目标的,因此这种人工

智能从作品中提取的信息本质上是某一作家一

贯的个性化表达,这是作者版权作品的核心部

分。其次,这些个性化表达还会出现在该人工

智能的生成内容中,这会对被学习作家的作品

市场产生替代效果。因此,此类表达型机器学

习是在著作权法意义上使用作品,且不构成合

理使用,属于对作品的侵权使用,应负相应的

著作权侵权责任。反而言之,该类机器学习在

使用作品之前,应积极寻求作品权利的许可并

支付报酬。

四、结语

新一代人工智能技术的核心是以数据训练

算法为特征的机器学习,其技术运作大致分为

“数据输入、机器学习、结果输出”三个阶段。

47. See Colin Marsshall, et al., “Artificial Intelligence Writes a Piece in the Style of Bach: Can You Tell the Difference Between JS Bach and AI Bach?” OPENCULTURE, http://www.openculture.com/2018/01/artificial-intelligence-writes-a-piece-in-the-style-of-bach.html. Last visited time on May 30, 2020.48. 参见 [ 德 ] 康德:《康德著作全集(第 8 卷)》,李秋零译,中国人民大学出版社 2013 年版,第 85-86 页。

人工智能输入端的著作权法问题值得我们深入

研究,因为受著作权保护的数字化作品是训练

算法的重要数据类型,机器批量化地学习作品

面临着著作权侵权风险。人工智能时代的著作

权法需要在兼顾作品保护和技术发展的前提下,

同时偏重于促进新兴技术发展。以作品使用的

三种类别即“非作品性使用、合理使用、侵权

使用”为分析框架,机器学习作品的著作权责

任如下图 3 所示:(1)非表达型机器学习不是

在著作权法意义上使用作品,因此不负著作权

侵权责任;(2)普通的表达型机器学习虽是在

著作权法意义上使用作品,但原则上可构成合

理使用免除著作权侵权责任;(3)以模仿特定

作者为目的的表达型机器学习是在著作权法意

义上使用作品,且不构成合理使用,属于对作

品的侵权使用,应负著作权侵权责任。

图 3

69

Page 11: 机器学习作品的著作权法分析2020/08/24  · 参见北京市海淀区人民法院(2008)海民初字第16204 号民事判决书。 8. See Richard Lea, “Google swallows

2020 年 第 6 期 学术研究 Academic

Copyright Law Analysis of Machine Learning Works——Nonuse, Fair Use and Infringing Use

Abstract:The core of the new generation of artificial intelligence technology is machine learning, which is characterized

by data training algorithm. The works protected by copyright are important data resources for training algorithms, so the mass

learning of works by machines faces the risk of copyright infringement. Resolving the copyright liability of machine learning

works only by the fair use institution is a simple way to deal with the complex problems and there are some shortcomings. The

use of unlicensed works can be divided into three types: nonuse, fair use and infringing use, while machine learning can also be

divided into three types: non-expressive machine learning, ordinary expressive machine learning and special expressive machine

learning. Non-expressive machine learning does not use works in the sense of copyright law and does not bear the liability for

copyright infringement; although expressive machine learning uses works in the sense of copyright law, in principle, it can

constitute a fair use to exempt the liability for copyright infringement; however, except for expressive machine learning for the

purpose of imitating specific authors, unauthorized use of works should bear the liability for copyright infringement.

Key words: Artificial Intelligence; Machine Learning; Nonuse; Fair Use; Infringing Use

70