数据驱动的图书馆精细化管理与服务
数据驱动的图书馆精细化管理与服务 大数据的概念一经提出就被广泛应用在社交网络、电子商务等各个领 域。互联网时代,大数据对于数据的处理有别于传统的数据处理。传统数据以样 本处理结果为依据,而大数据强调数据的大而全、数据之间的相关关系及对未来 的预测作用,对大数据的挖掘和分析影响着行业的发展。图书馆作为信息与文献 资源中心,不可避免地受到了大数据环境的影响,如何正确认识和利用图书馆的 海量数据,为科研服务、为图书馆发展服务,是图书馆的任务和使命。1大数据时代的图书馆 在数字化的信息环境中,越来越多的文献资源、科研成果、学术交流, 都以数据的形式存在和呈现。图书馆的数据也呈现大数据的大容量、多样性的特 点,包括结构化数据、HTML等形式的半结构化数据和图像、视频、文本等形式 的非结构化数据,图书馆各类用户信息数据、阅读数据等也是图书馆大数据的组 成部分。随着图书馆的不断发展,数据总量还会不断上升,数据与数据之间存在 着可挖掘的关联性和价值性。
大数据时代,数据发布的成本更加低廉,任何人都可作为信息发布的 节点,每个节点都是一个数据源,在这个开放共享的信息环境中发挥作用。数据 可以覆盖所有的用户,在用户间共享、交流或增值。社交网络媒体、移动终端等 都是数据发布的渠道,这些开放性数据也是大数据的组成部分。图书馆各类资源 丰富、具有专业的信息组织技术,是大数据时代开放与整合的最佳实践者。
面对海量的数据,图书馆的基本职能也有所延伸,不仅要整理结构化 数据,更要整理半结构化和非结构化数据。未来图书馆间的竞争不仅仅是馆藏资 源、建筑空间、服务水平的竞争,大数据的拥有量及对庞大的各类数据的挖掘与 分析能力将成为大数据时代的图书馆竞争的一大关键指标。数据监管、数据挖掘、 数据分析等将会成为图书馆的特色服务之一,从而也会衍生出专业的数据处理人 员,即数据馆员,图书馆对于数据的处理能力决定着图书馆的发展方向和前景。
2图书馆利用各种数据开展管理与服务 2.1书目数据 第一个书目数据库在1964年由MEDLARS开发成功并投入检索服务。此后,世界各国建立了各种类型书目数据库,进行书目数据的管理与服务,如世 界最大书目数据库worldcat、美国国会图书馆书目数据库、中国的CALIS书目数 据库等,书目涵盖量巨大。书目数据是图书馆传统的数据资源,包含在图书馆所 有的业务工作流程当中,发展比较成熟。对读者而言,利用OPAC系统,可以获 取到所需的书目,了解本地馆藏和联合馆藏信息,根据实际情况进行借阅、荐购 或馆际互借。利用联合书目数据库,读者选择_个查询入口就可以了解不同图书 馆的馆藏信息。对图书馆而言,可以根据书目数据库进行查重、合并、新建书目 等操作,优化了图书入馆流程,避免了书目的重复建设,提高馆藏书目质量。同 时,读者使用书目数据的信息会记录在OPAC系统中,通过对读者的借阅量、借 阅历史、借阅类型、热门书目等各类数据的分析,掌握读者阅读习惯和阅读内容, 分析读者未来需求,并为读者提供个性化服务。
2.2数字资源 2.3整合系统 图书馆信息资源整合系统是将图书馆各种类型的信息资源通过技术 处理,统一整合在一个平台上提供一站式服务,具有集成检索功能[3]。常用的 资源整合系统有UnionSearchPlatform(联合检索平台)、Metalib/SFX等。北京交 通大学图书馆、清华大学图书馆、复旦大学图书馆等都采用了Mealib/SFX技术, 构建了图书馆信息检索与获取系统,称之为学术资源门户,整合图书馆所有的中 外文数据库、电子期刊、电子图书、多媒体资源、本地馆藏目录等数字资源,可 实现异构资源检索,提供跨库检索、期刊导航、数据库导航并以统一格式加以呈 现,可以获取资源内容及全文(如图1、图2所示)。整合系统的跨库检索功能是 其核心功能,极大地节约了用户的检索时间,同时提高了查全率,避免用户一个 一个登录数据库检索。整合系统的使用是图书馆服务创新和优化的重要体现。事 实上,整合系统要融合各类异构数据库,端口接入,协调各种类型数字资源,难 度较大,需要不断进行维护,才能使整合系统真正发挥作用。除跨库检索外,信 息资源整合系统还呈现多样的具体形态,如学科信息门户整合、学科导航、学科 馆员制度,其中学科馆员制度从馆员角度,整合某一学科信息和资源,提供学科 服务,与计算机智能服务相结合,弥补不足。
2.4知识发现系统 知识发现是指从大量数据中获得有效的、新颖的、有潜在应用价值的 和最终可理解的模式的高级处理过程。基于知识发现的理念开发出知识发现系统,又称为资源发现系统,是对数据的深入处理和挖掘,融合本地馆藏数据,并对数 字资源进行元数据描述及呈现。国内高校图书馆大多引进了知识发现系统,目前 常见的有EBSCODiscoveryService、Summon、PrimoCentral、Find+知识发现平台 以及超星中文发现系统等。图书馆可以利用知识发现系统为用户提供一站式学术 检索服务,知识发现系统是图书馆的搜索引擎。南京大学使用的是与EB-SCO合 作开发的indplus知识发现系统,包含7亿多条外文学术资源、超过100〇〇〇种期 刊资源、600多万册外文图书的MARC数据、覆盖20000多家期刊出版社、60000 多家图书出版社等资源内容,可以以邮件的方式提供智能的原文传递服务,并支 持手机APP访问,资源检索界面(如图3所示)。东南大学使用的是Summon知识 发现系统,提供基本检索及高级检索,检索结果可以根据相关性及时间排序,其 显示范围包括:在线全文、电子书全文、期刊全文等学术资料(包括同行评审内 容),纸本馆藏目录。知识发现系统为图书馆用户提供了极大便利,是图书馆智 慧服务的重要体现。图书馆也通过知识发现系统的检索记录等数据,掌握用户的 学术需求,优化检索结果质量。
3.1客户关系管理与图书馆 客户关系管理是企业利用信息技术,通过对客户的跟踪、管理和服务, 从而吸引客户、保留客户、发展客户的一种手段和方法,在企业管理决策中起到 了关键作用。客户关系管理的相关理论及技术运用到图书馆管理与服务当中,又 称之为用户关系管理或读者关系管理。对图书馆用户基本特征、信息行为数据、 阅读数据、阅读相关性等一系列用户关系数据的掌握,有利于图书馆针对性地开 展服务,从而从根本上提高服务的质量与效果。通过用户关系管理的一些新技术, 如数据仓库技术、数据挖掘技术和知识发现技术等,有效地使数字图书馆用户数 据的获取、模式发现、数据的积累、传播和共享更为快捷有效。
数据驱动图书馆管理与服务 大数据环境下,图书馆利用大数据来推动和提高图书馆的服务与管理 水平,促使管理与服务向更加精细化方向发展。
32.1图书馆管理的精细化。大数据环境最大的 特点即数据量巨大,其主要的价值在于预测,通过对数据高效化、精 细化处理,达到预测未来行为和趋势的效果。图书馆在运用书目数据、知识发现 系统、数字资源等各类数据进行管理过程中,通过数据获取、数据挖掘、知识服务技术的分析,掌握图书馆未来的资源利用趋向,从而调节管理行为,调整资金 投入、资源分布结构及服务方式。
32.2图书馆服务的整体化与个性化的统一。
图书馆使用整合系统、知识发现系统等来提高图书馆的一站式服务能 力,大数据的聚类技术、数据挖掘技术可以实现对图书馆服务系统的分析与优化, 使图书馆整合服务真正得到利用。用户的信息行为数据记录在图书馆的集成管理 系统、数据库系统当中,通过大数据挖掘用户的阅读数据、内容等,深层次分析 读者的特点、阅读行为及需求,对读者进行聚类分析,通过对不同读者需求的跟 踪与预测,进行信息推送、定制及个性化服务,提高读者满意度。
3.2.3图书馆增值服务。大数据促使图书馆不断增值,实现知识化、智 慧化。通过对数据的监管,从海量数据中发现价值,发挥数据馆员及学科馆员的 作用,为提供个性化服务做好基础。随着高校科研与教学任务的加剧,图书馆不 仅要做好校内的科研教学辅助工作,更需要向社会拓展,提高在社会数据环境下 的数据挖掘分析能力与竞争力。同时,与图书馆外的联盟、通信运营商、第三方 增值服务商等合作,为用户提供大数据增值服务,如微信服务、微博服务等,拓 展大数据时代图书馆的用户服务模式。
2图书馆用户数据应用案例 41用户信息行为数据应用 42学者身份标识系统 图书馆的用户群体包括高校的教师、科研人员及学生等,其中教师、 科研人员作为研究的主力人员,其用户行为及信息需求数据是图书馆需要掌握的。
图书馆应该积极推动大学学者标识系统建设和服务,这也体现了图书馆的深度创 新和知识服务。ResearcherlD即学术研究社区身份标识号,通过ISIWebofscience 平台进行注册,注册后即可以得到一个全球唯一的标识号,将个人科研成果与国 际同行进行分享、交流,自动生成引文报告,包括总被引频次、篇被引频次、H 指数等,研究人员可以对个人科研成果在国际的影响力有一个清晰的掌握和深入 分析。
ThuRID是清华大学图书馆推出的目标学者身份标识系统,运用大数 据的数据挖掘与知识服务理念,清华大学图书馆尝试对这些数据集合做一些分析工作,即从元数据仓储中提取关键词等信息,分析关键词走向,分析作者与合作 者的关系,建立以人为中心的知识关联网络。①基于时间轴进行趋势分析。研究 某学科领域在一个时间段的发展趋势对了解该学科的发展脉络、预测未来的发展 方向至关重要。清华大学图书馆采用提取文章关键词并分析关键词在时间轴上分 布的方法来给出该领域的发展趋势。②建立以学者为中心的知识关联网络。通过 分析海量文献数据的特点,自动甄别出清华大学目标学者,获取目标学者的学术 出版物、与其紧密关联的合作者、期刊会议等信息,应用开放链接技术准确定位 清华学者学术出版物的全文,采用可视化视图的方式直观展示学者的学术历程, 以及以学者为中心的科研网络。
ResearcherID及ThuRID等学者身份标识的优势在于通过海量数据,掌 握学者的科研动态,分析科研成果的影响力、科研人员之间的相关关系,以及科 研成果之间的合作关系,预测未来的科研趋向及科研需求,是做好科研人员管理 的信息库及知识库。
5结束语 大数据与传统数据的主要区别在于,对数据的分析和预测功能,大数 据更加关注未来的发展趋向,根据趋向调整决策。图书馆需要积极融入大数据环 境,利用大数据的理念及技术,精细和优化图书馆的管理与服务。图书馆海量的 结构化数据及用户信息行为等非结构化数据,包含着什么样的价值信息,需要图 书馆进行分析和挖掘,以海量数据为支撑,进行图书馆管理与服务,使图书馆管 理与服务更加科学、有效。
严潮红 (盐城工学院图书馆,江苏盐城224051)