文本数据挖掘【欧盟文本与数据挖掘新策解析】

欧盟文本与数据挖掘新策解析

欧盟文本与数据挖掘新策解析 1引言 欧盟委员会(European Commission)于2016年9月14日正式发布《欧 盟数字化单一市场之著作权指令提案》(Proposal for a Directive of the European Parliament and of the Council on Copyright in the Digital Single Market)(以下简称 “欧盟新策”),主要以条款形式就欧盟范围内著作权及相关权利的维护以及著作 权限制与例外提出宗旨性建议。其中,科研领域的文本与数据挖掘(Text and Data Mining,简称TDM)作为3项著作权限制与例外条款之一,获得了详细的梳理及 广泛的认可。

目前,理论界对文本与数据挖掘已有一定程度的梳理,部分国家就该 议题已形成立法或司法层面的认可,国际图书馆界也已提出相应的立场声明。然 而,理论界尚未就欧盟新策中文本与数据挖掘所持态度及其详细条款展开解读。

欧盟新策提出文本与数据挖掘的议题背景及驱动力是什么?欧盟新策对于该议 题的考虑视角及相应提出的方案又包括哪些?欧盟新策最终采纳哪一种方案规 范欧盟领域内的文本与数据挖掘?欧盟新策确定的文本与数据挖掘战略对于我 国图书馆建设有什么启示?笔者认为有必要对上述问题进行详细梳理。

2欧盟提出文本与数据挖掘议题的原因 2.1背景 近年来,文本与数据挖掘在欧盟领域内的研究成逐年缓慢增长趋势。

自2010年至2014年,世界范围内文本与数据挖掘研究数量以逐年10%的速度递增, 欧盟成员国在该领域的研究数量也在以相似的比例逐年上升。同时,欧盟成员国 占全球范围内文本与数据挖掘研究的比例约为28.2%。实践中,文本与数据挖掘 各方相关权利人普遍认为,文本与数据挖掘仍是一种新兴的技术,尤其对于非商 业部门(如高校研究机构及公共图书馆等)来说,这种新兴技术存在着极大的发 展空间,同时也面临诸多挑战。换言之,研究人员及图书馆员虽然意识到文本与 数据挖掘的潜力,但在实践中,由于存在多重原因,这种新兴技术的潜力无法得 到有效、合理的发挥。有调查数据显示,世界范围内使用文本与数据挖掘的研究 人員所占比例为24%,而在欧盟成员国仅有不足20%的研究人员使用文本与数据 挖掘。2.2驱动力 欧盟委员会基于下列3项具体事实及原因的考虑,最终决定将文本与 数据挖掘纳入欧盟新策的讨论议题中。

其次,许可模式的多样化特征致使文本与数据挖掘产生不合理的交易 成本。目前,高校研究机构(通常为其下属的图书馆)及公共图书馆在订阅期刊 时存在众多许可模式。有部分模式允许文本与数据挖掘,有部分模式仍然禁止文 本与数据挖掘,也有部分模式对此未表明态度。作为2013年“欧洲许可对话” (Licenses for Europe)的重要成果,科技医药出版商(scientific,Technical and Medical Publishers,简称STM Publisher)逐渐开始将基于非商业目的的文本与数 据挖掘纳入学术机构订阅许可的范围内,并且开发共同的基础设施以促进文本与 数据挖掘的开展。然而,高校研究机构及公共图书馆等并不完全认可这一进展。

相反的,他们认为唯有通过立法才能彻底解决上述问题。他们指出,事实上,不 同出版商就文本与数据挖掘所制定的许可条款及政策千差万别,这对于科学研究 中需要对大规模文本与数据进行挖掘的科研人员存在着明显的阻力,图书馆在提 供相应服务时处于非常被动的局面。高校研究机构及公共图书馆等在原有订阅许 可的基础上需要通过进一步协商来明确在何种程度上被允许使用文本与数据挖 掘技术,或者需要单独就文本与数据挖掘许可进行协商来明确科研人员的相应权 利,这将大大增加高校研究机构的研究成本以及公共图书馆的服务成本。例如, 英国通过立法颁布文本与数据挖掘著作权例外条款之前,伦敦大学学院 (University College London,简称UCL)每年要花费高达50万英镑用于获取不同 程度的文本与数据挖掘许可。

再次,欧盟单一市场规则碎片化现象不利于保障实现《欧盟条约》 (The Treaty on European Union)“建立及协调欧盟内部市场的可持续性发展”这 一宗旨。如果欧盟不针对文本与数据挖掘提出总体协调政策,各成员国将采纳适 合于自身国情的法律及政策,从而导致欧盟范围内形成该领域规则碎片化的后果, 这与欧盟协调单一市场的可持续发展宗旨明显是冲突的。自英国颁布文本与数据 挖掘条款后,其他成员国也相继提出相关立法及政策,而成员国未经欧盟协调各 自形成的文本与数据挖掘立法与政策显然具有较大的差别。

3欧盟新策考虑文本与数据挖掘的视角及方案比较 3.1考虑视角欧盟委员会基于如下4个视角就文本与数据挖掘展开详细梳理及考 量:①法律效力;
②经济效益;
③相关权利人利益;
④社会或基本权利影响。

就法律效力而言,欧盟委员会希望通过指令在欧盟层面提出宗旨性建 议,加强及协调欧盟成员国关于文本与数据挖掘的立法修订,改善目前因立法空 白或立法不一导致的法律不确定性。就经济效益而言,欧盟委员会认识到欧盟内 部市场多样化许可模式产生了高额交易成本,非常不利于欧盟科研及经济的整体 增长。由此,欧盟委员会希望通过指令协调的方式普遍认可文本与数据挖掘的合 法合理性,大幅降低许可交易成本,积极将这一新型研究方式广泛嵌入至各个研 究领域,从而助力欧盟整体创新性研究,促进欧盟经济的有效增长。就相关权利 人利益而言,欧盟委员会希望从法理角度论证各方权利人在文本与数据挖掘中的 利益分配及平衡问题,从而进一步排除文本与数据挖掘可能给相关权利人带来的 疑虑。就社会或基本权利影响而言,欧盟委员会希望就文本与数据挖掘对欧盟整 体社会或者民众基本权利可能产生的影响作出宏观判断及论证。社会或基本权利 影响的考虑旨在确保公共利益的维护及实现。

3.2可行性方案比较论证 欧盟委员会就文本与数据挖掘提出如下4项可行性方案,并分别从法 律效力、经济效益、相关权利人利益以及社会或基本权利影响4个视角就4项方案 展开多重比较论证,最终达成最佳可行性政策方案。

3.2.1方案一:非欧盟立法框架下的行业自律协调机制 方案一提出,文本与数据挖掘应当通过培养行业的自律机制进行协调, 无需改变欧盟现有立法框架。具体而言,欧盟委员会鼓励相关权利人(主要指出 版商和研究人员)共同协商达成解决方案。实践谈判中,研究人员通常不会单独 与出版商进行协商,而是由其所在研究机构的图书馆与出版商展开协商。出于自 身研究及服务所需,公共图书馆在实践中也会就该问题与出版商展开协商。欧盟 委员会认为,这一方式不仅有助于表达各方权利人自身的观点,尤其是研究人员 的切身需求和出版商的技术保护需求,而且不会对研究人员造成不必要或者不合 理的负担。基于该方案,出版商承诺允许出于科研目的开展文本与数据挖掘,并 且逐一修改现行许可条款。欧盟委员会就出版商上述承诺的实施进行监管。如果 该方案无法使欧盟市场的文本与数据挖掘得到实质性改进,欧盟委员会将考虑采 用立法修改的方式予以协调。从法律效力角度分析,基于现有立法框架,相关权利人很难通过自行 协商的方式有效达成自律机制,由此不能从实质上提高文本与数据挖掘在欧盟领 域的法律确定性。从经济效益角度分析,出版商与研究人员协商后如达成一致意 见,会就现有许可协议中相应条款进行修改,进而产生一定的合理起草业务费用。

从相关权利人利益角度分析,出版商认为,该方案有效延续了“欧洲许可对话”, 是一项较为平衡的解决方案,能够有效解决欧盟领域内文本与数据挖掘的现有问 题。然而,研究人员则认为,不通过立法改革将无法有效解决文本与数据挖掘问 题。事实上,该方案是否对权利人产生影响取决于双方是否能够最终达成协商。

从社会或基本权利影响角度分析,尽管该方案对于著作权没有影响,且从一定程 度上有利于艺术和科学权利的自由表达,但其实质上不能有效解決欧盟目前在文 本与数据挖掘中存在的不确定现状,仍然阻碍欧盟总体科研的有效发展。

3.2.2方案二:通过欧盟立法修订允许基于非商业性科学研究目的开展 文本与数据挖掘 方案二提出,欧盟应当在立法层面上允许基于非商业性科学研究目的 开展文本与数据挖掘,将其视为合理使用。依据方案二,任何合法获取订阅作品 或公共领域作品的用户都可以成为受益人。只要用户出于非商业性科学研究目的, 即可对合法获取的作品进行必要的复制,用于文本与数据挖掘研究中。实践中, 许可市场常常通过合同来规避合理使用例外条款。为确保用户利益,欧盟通过立 法明确任何规避文本与数据挖掘合理使用的合同条款均为无效条款。同时,为确 保出版商利益,欧盟将通过立法鼓励相关权利人进行协商,就作品的安全问题达 成最佳实践方案。当然,出版商不能基于文本与数据挖掘这一合理使用获得额外 的补偿,因为其在订阅许可中已经获得了相应的报酬。如果该方案通过,目前欧 盟范围内现有例外的有效性及执行不会受到影响。

从立法效力角度分析,方案二大力提升了基于非商业性科学研究目的 开展文本与数据挖掘的法律确定性,但并未改善基于商业性科学研究目的开展文 本与数据挖掘的法律确定性。从经济效益角度分析,出版商依据该方案调整现有 许可条款时可能会产生一定的费用,但该费用可以控制在合理范围内。从相关权 利人利益角度分析,研究人员所在研究机构的图书馆以及公共图书馆无需与出版 商就文本与数据挖掘进行单独协商达成许可事宜,大量减少了由此产生的许可费 用。然而,对于基于政府和社会资本合作(Public-Private Partnerships,简称PPP) 开展的文本与数据挖掘研究,因其具有商业本质,方案二并不能提升相应的法律 确定性。对于出版商而言,他们认为该方案将引发大量的不合理使用和著作权侵权问题,由此对许可市场产生较大不良影响,使其丧失大量商机。从社会或基本 权利影响角度分析,方案二不仅能够提升欧盟科研领域的全球竞争力,而且能够 加强艺术和科学权利的自由表达。尽管方案二可能会对作品的财产权产生一定不 良影响,但这一影响是非常有限的。

3.2.3方案三:通过欧盟立法修订允许公共利益研究机构基于商业性或 者非商业性科学研究目的开展文本与数据挖掘 方案三提出,欧盟应当在立法层面上允许公共利益研究机构(Public Interest Research Organization)基于商业性或非商业性科学研究目的开展文本与 数据挖掘。该方案仅允许公共利益研究机构(不包括商业性机构)成为受益人, 主要包括以非营利科研目的或者公共利益使命为主要宗旨的研究机构(如高等院 校、研究机构)以及公共图书馆等。区别于方案二,方案三在受益人范围上做出 了进一步明确及限定,但是在文本与数据挖掘的目的上却变得更为宽泛了。换言 之,只要是公共利益研究机构,不论出于何种科学研究目的,都应当有权开展文 本与数据挖掘工作。方案三有利于基于社会与资本合作形成的研究项目开展文本 与数据挖掘工作,而这些项目常常具有商业产出。与方案二相似,欧盟承诺就许 可合同规避法律例外以及出版商数据安全问题建立立法机制展开有效监管。

从法律效力角度分析,方案三极大程度地提升了文本与数据挖掘的法律确 定性。不论出于商业性科学研究目的还是出于非商业性科学研究目的,公共利益 研究机构所开展的文本与数据挖掘都可以在欧盟范围内依托该例外得到支持。从 经济效益角度分析,出版商依据该方案调整现有许可条款时可能会产生一定的费 用,但费用仍然可以控制在有限范围内。从相关权利人利益角度分析,方案三不 仅将受益人进一步明确为公共利益研究机构,而且允许这类机构基于任何科学研 究目的开展文本与数据挖掘工作,非常有利于提升该类机构开展文本与数据挖掘 工作的法律确定性。事实上,研究人员甚至提出,由于公共利益研究机构在实践 中较难界定,立法应当将受益人扩大至任何合法获得作品及数据的用户。对于出 版商而言,方案三将对出版许可市场产生较为明显的不良影响,因而遭到出版商 的极力反对。同时,出版商强调,如果采用方案三,在受益人范围上做出上述限 定是非常必要的。從社会或基本权利影响角度分析,方案三与方案二相似,尽管 其在一定程度上对作品的财产权产生不良影响,但在很大程度上可以提升欧盟的 科研竞争力,同时可以加强艺术和科学权利的自由表达。

3.2.4方案四:通过欧盟立法修订允许任何合法获取作品的用户基于商 业性或者非商业性科学研究目的开展文本与数据挖掘方案四提出,欧盟应当在立法层面上允许任何合法获取作品的用户基 于商业性或非商业性科学研究目的开展文本与数据挖掘工作。依据该方案,任何 合法获取作品的用户都可以成为受益人。换言之,不论是公共利益研究机构的研 究人员还是营利性机构的研究人员都可以就合法获取的作品开展文本与数据挖 掘,且无需表明科学研究的性质。与上述3种方案相比较,方案四最大程度地认 可了文本与数据挖掘的法律确定性。方案四既没有将例外限定于非商业性科学研 究目的的使用(如方案二),也没有将例外的受益人限定于公共利益研究机构(如 方案三)。与方案二相似,欧盟同样明确就许可合同规避法律例外以及出版商数 据安全问题建立立法机制展开有效监管。

从法律效力角度分析,方案四对所有合法获取作品的用户就文本与数 据挖掘提供最大程度的法律确定性。不论是出于商业性科学研究目的还是非商业 性科学研究目的,合法获取作品的用户均可以依据该方案开展文本与数据挖掘工 作。从经济效益角度分析,出版商需要与商业用户就文本与数据挖掘许可进行重 新协调、修改现有许可框架,无疑将产生一笔较大的费用。从相关权利人利益角 度分析,方案四能够大力提升文本与数据挖掘的法律确定性,研究人员出于任何 目的均可就合法获取的作品开展文本与数据挖掘研究。然而,出版商(尤其是科 技医药出版商)极力反对方案四的实施,因为方案四将致使其失去一个非常可观 的市场,尤其在生命科学和医药行业,预计到2019年欧盟领域内该市场的商业价 值高达5600万欧元。两个主要的科技医药出版商目前在欧盟领域内与生命科学领 域公司拥有302项文本与挖掘许可。从社会或基本权利影响角度分析,方案四与 方案二以及方案三相似,尽管其在一定程度上对作品的财产权产生不良影响,但 在很大程度上可以提升欧盟的科研竞争力,也可以加强艺术和科学权利的自由表 达。

3.2.5 4项可行性方案的比较论证 笔者从法律效力、经济效益、相关权利人利益以及社会或基本权利影 响4个视角对上述4项可行性方案展开比较性论证(见表1)。

笔者通过对表1的比较性梳理及综合考量可知,欧盟委员会认为,方 案三可以作为最为可行的方案支撑欧盟领域的文本与数据挖掘。该方案不仅能够 大力提升文本与数据挖掘在欧盟领域内的法律确定性,为公共利益研究机构的研 究人员提供最大限度的文本与数据挖掘支撑,而且不会因为修订现有商业许可条 款产生高额费用。由于公共利益研究机构较难界定,欧盟新策最终将受益人表述为“研究机构”,而“研究机构”的具体界定将留给成员国最终确定。此外,尽管方 案三对于著作权财产权会产生一定不利影响,但其能够大力提升欧盟科研总体竞 争力,有效保障艺术科学权利的自由表达。方案三在确保法律确定性的前提下, 有效考虑交易成本,充分衡量相关权利人的利益平衡,综合提升了欧盟整体竞争 力,高度符合欧盟建立的宗旨,因而最终被采纳至欧盟新策中。

在方案三的基础上,欧盟新策在其第3款提出文本与数据挖掘合理使 用条款,具体如下:为了科学研究的需要,成员国应当在立法中明确允许研究机 构为开展文本与数据挖掘工作所需的各种复制及数据提取活动;
任何通过合同条 款阻止文本与数据挖掘例外的行为都应当视为无效行为;
著作权人有权就文本与 数据挖掘所需数据在合理范围内采取必要的措施确保其安全及完整性;
此外,该 条款建议成员国通过鼓励著作权人与研究机构协商的方式达成双方认可的最佳 实践方法。

4欧盟新策对我国图书馆建设的启示 4.1欧盟新策对我国图书馆的借鉴意义 欧盟认可公共利益研究机构大力开展文本与数据挖掘工作的立法新 策对于我国图书馆积极开展文本与数据挖掘工作意义深远。

首先,图书馆是各类高等院校及科研机构的知识提供中心,而高等院 校和科研机构又是国家教育科研发展的重要引擎,由此,图书馆的有效建设对于 我国教育科研工作的快速发展至关重要。

其次,尽管图书馆已经在一定程度上认识到文本与数据挖掘在教育科 研中的重要作用,但由于缺乏直接立法及司法支撑,图书馆界针对文本与数据挖 掘所开展的实践良莠不齐,较为被动。目前,我国一些图书馆基于文本与数据挖 掘技术已经开始着手个性化服务建设。然而,由于缺乏直接明确的政策指引,图 书馆在该领域的发展仍然相对缓慢,在很大程度上受限于数据库许可谈判,且在 数据库许可订购中不专门针对文本与数据挖掘进行协商。

再次,欧盟新策以指令提案形式出现,对欧盟成员国提供原则性立法 建议,其在保障该领域欧盟战略宗旨一致的基础上允许成员国在各自立法修订中 展开进一步梳理及延伸。这一原则性政策指引从形式、内容上均对于我国建立图 书馆文本与数据挖掘政策联盟具有一定的参考价值。此外,欧盟新策在指引成员国立法修订的同时,对于欧盟领域内的出版商具有直接的约束力。我国图书馆每 年与欧洲出版商签订大量数据库许可协议,其中包括文本与数据挖掘相关事宜的 协商。欧盟新策的提出对于我国图书馆与欧盟出版商以及其他国内外出版商协商 文本与数据挖掘事宜具有积极的促进及引证作用。

4.2欧盟新策对于我国图书馆建设的具体启示 欧盟新策对于我国图书馆建设的具体启示可以从以下3个方面进行归 纳。

第一,在态度上,图书馆应当积极主动,正确认识自身开展文本与数 据挖掘的法理合理性,广泛引证国外立法、司法以及同行就此表明的态度,将文 本与数据挖掘作为“互联网+”环境中自身工作的重心之一。实践中,图书馆与国 内外出版商签订数据库许可协议时常常处于较为被动的局面,没有真正意识到文 本与数据挖掘这种新兴技术在教育科研领域中的发展潜力,由此并未主动就该领 域的合理使用与数据库商进行协商。这一现状必须得到有效改善。主动加强同行 交流,共享国外先进战略,积极将文本与数据挖掘的合理使用提上自身建设议程 是图书馆界应当立即采取的行动。

第二,在政策上,图书馆应当加速建立联盟,主动表明自身在文本与 数据挖掘方面的主导地位。由于立法修订和司法解释需要较长周期,具有一定的 滞后性,在一定程度上不能有效支撑图书馆开展文本与数据挖掘的实践工作。因 此,图书馆应当积极学习国外立法及司法以及同行就文本与数据挖掘提出的先进 例证,结合目前实践需求,达成图书馆文本与数据挖掘政策联盟,提出倡议,扩 大影响。

第三,在实践上,图书馆应当有理有节地将文本与数据挖掘嵌入至自 身工作中,在有效向科研人员提供科研支撑的同时积极拓展业务,开展多元化服 务建设。具体而言,图书馆的实践工作应该从以下3个方面开展:
其一,图书馆应当在与国内外出版商进行数据库许可谈判的实践中, 主动与对方就文本与数据挖掘进行协商,引证国外先进立法及司法支撑,表明立 场,最大程度地为科研人员争取相应权利。

其二,在科研人员需要通过文本与数据挖掘开展科研工作时,图书馆 应当采取主动协助态度,就该类科研提供力所能及的帮助,告知科研人员目前国内外立法及司法支撑,正确引导、促进科研人员开展相关研究工作。

其三,在自身开展文本与数据挖掘的实践工作中,图书馆应该互相交 流、合作,在政策联盟的基础上建立实践联盟,加强数据利用及建设,全面开展、 丰富基于非商业性科学研究目的的个性化服务,将文本与数据挖掘技术有效应用 至检索查新、参考咨询等相关实践工作中。此外,鉴于在文本与数据挖掘技术上 可能存在一定的局限及不足,图书馆可以适度加强商业性合作。欧盟新策中政府 和社会资本合作开展的文本与数据挖掘研究可以作为图书馆认真考虑的发展方 向,用以加强自身文本与数据挖掘的综合能力。事实上,高等院校及科研机构早 有与商业机构建立横向合作的实践基础,图书馆可以大胆引证欧盟新策认可公共 利益研究机构基于商业性科学研究开展文本与数据挖掘的先进做法,积极效仿, 夯实自身业务,从而更好地为我国的教育科研事业提供支撑。

5结语 文本与数据挖掘作为3项著作权限制与例外之一获得了欧盟新策的广 泛认可。欧盟委员会就該议题从法律效力、经济效益、相关权利人利益以及社会 或基本权利影响4个视角展开比较性论证,最终提出,研究机构可以基于科学研 究目的就合法获取的作品展开文本与数据挖掘研究。这一新策对于图书馆建设具 有多重启示。作为知识提供中心,图书馆应当采取积极主动的态度,认真学习国 外先进立法、司法及同行声明,加强国内同行交流并建立政策联盟,扩大宣传, 表明立场,确立自身在文本与数据研究中的主导地位。同时,在实践中,图书馆 应当在许可谈判中积极争取基于文本与数据挖掘的合理使用,通过国外立法、司 法、政策力证为科研人员开展文本与数据挖掘工作提供建议指导,加强图书馆间 彼此合作以及自身与商业机构的合作,基于文本与数据挖掘丰富自身多元化建设, 积极提升我国的整体科研竞争力。