图书馆对学生学业成效贡献的大数据分析平台构
图书馆对学生学业成效贡献的大数据分析平台构 高校图书馆因拥有丰富的数字资源和良好的学习环境,成为学校师生 学习和休闲的重要场所.学生作为高校图书馆服务对象主体之一,其学业和高校 图书馆所提供的服务必然存在一定的关系,因此图书馆对学生学业成效贡献研究 是指导高校图书馆投入产出的重要组成部分 大数据技术作为一种新兴的海量数据分析工具越来越受到各行各业 的重视.互联网企业Google及Facebook之所以取得令人瞩目的成绩,其核心的本质 就是其公司记录和分析了用户的行为大数据,从而精确掌握用户行为并形成预 判. 由此可见,大数据技术对于海量、高速发展的数据具有很好的分析和 管理能力,它被用来研究图书馆用户行为的“大数据”是最佳选择,研究成果可以 为高校图书馆服务决策提供客观的依据,具有重要理论研究意义和实际应用价 值. 1大数据技术 大数据技术是一系列收集、存储、管理、处理、分析、共享和可视化 技术的集合.大数据的关键技术有很多,如借鉴生物界的进化规律演化的随机化 搜索方法已被人们广泛应用于组合优化、机器学习、信号处理、自适应控制等领 域;再如分布式技术包含分布式文件系统、分布式数据库、分布式计算框架等, 其已经全面运用于各类大数据应用中.大数据价值的完整体现则需要多种技术的 协同,总的来说可以归纳为以下几种:(1)分布式技术.最典型的是Apache基金会的Hadoop大数据分布式处 理软件框架,主要延续了Google分布式文件系统GFS的开源思想、分布式计算框 架MapReduce和分布式数据库BigTable的实现机理,开发了自有的产品--HDFS分 布式文件系统、MapReduce分布式编程框架和HBase分布式数据库. (2)大数据预处理技术.大数据的一个重要特点是多样性,这就意味着 数据来源极其广泛、数据类型极为繁杂,这种复杂的数据环境给大数据处理带来 了极大的挑战.所以在分析大数据前,首先必须对海量数据源进行预处理,以保 证数据质量及可信性. 大数据挖掘技术.数据挖掘是整个大数据处理流程的核心,因为大数据的价值产生于挖掘过程.数据挖掘就是从大量的、不完全的、有噪声的、模糊 的、P逭机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是 潜在有用的信息和知识的过程.大数据挖掘的算法众多,其中(1)以分类算法、聚 类挖掘算法、关联挖掘算法、序列挖掘算法最为主流. 2围书馆大数据分析面临的问题及数据构成 2.1图书馆大数据分析面临的问题 大数据时代的图书馆读者行为大数据具有数据海量、类型复杂、处理 速度快和价值密度低的特点,要对这些大数据进行统一的存储与分析,对图书馆 来说有着极大的挑战性.以下是3个亟待解决问题:⑴数据的存储能九学生在图书 馆的所有行为活动都将产生数据,数据量已由TB级升至PB级,而且还在源源不 断地增加,数据量的增长速度已远远大于存储能力的增长速度.(2)数据类型复杂 繁多.学生对图书馆的利用行为数据不仅仅是简单的二维表格式存储的结构化数 据,还有以文本、图片、XML文档、JSON文档、日志文件和音频/视频等半结构 化和非结构化数据,关系型数据库已经无法有效管理这些数据.(3)数据处理的实 时性.大数据时代强调的是数据处理的及时有效,图书馆要求大数据分析平台可 以快速地获取、存储和分析学生的行为数据,为图书馆提供快速的决策支持. 面对上述问题,传统数据分析工具已不再适合,而Hadoop大数据分 布式存储与计算框架能很好地解决了这些问题,因此基于Hadoop建立统一的图 书馆大数据存储和分析平台变得尤为迫切. 2.2图书馆大数据的构成分析 针对目前宁波大学在校的本科学生,将其对图书馆利用行为和学业成 效相关数据(20102014年)作为此次实验的数据源.经过分析,确定数据源由学生个 人信息、学生学业相关数据及图书馆利用行为数据三部分组成,数据类型包括结 构化的二维表数据和非结构化的日志数据,数据总量共计6108万条记录.其中, 学生学业相关完整数据有120万条记录;
图书馆利用行为数据包括从图书馆门禁 系统(357万)、阅览室座位管理系统(320万)、图书借阅系统(247万)、数字资源访 问日志(5064万)等途径获取学生的图书馆服务数据共计5988万条记录,为图书馆 服务对学生学业成效贡献研究提供基础的大数据参考样本. 从上述统计来看,实验涉及到的数据量级已在十亿字节以上,而且还在随着时间的推移成线性增长,因此定期将相关系统中每天生成的数据导入 Hadoop大数据平台成为必然的选择.目前此次实验数据的收集整理工作已经基本 完成,初步拟定大数据主题分析的内容见表1. 高校大学生学业成效主要由学业成绩、奖励情况和科研能力三部分组 成.学业成绩主要是学生的在校的各类专业课和选修课的考试成绩积点分,奖励 情况是在校期间参加社团活动、校级活动等获得的奖励或荣誉称号,科研能力是 指参与科研项目或发表论文等.