构建Hadoop高校教育资源云存储平台
构建Hadoop高校教育资源云存储平台 摘要:云计算在整合高校教育资源方面的关键是海量的 数据存储,把云存储的技术和方法运用到高校教育资源整合 的建设中,节约高校教育资源,有效地提高校教育资源的利 用率,从而提高高校的教学水平。本文阐述了云计算和云存 储的概念和特点,介绍了高校教育资源中存在的问题和优势, 简单的介绍了主流的云计算平台,重点介绍了Hadoop的HDFS 存储系统的特点和结构,结合基于云体系结构,设计出高校 教育云体系结构,实现基于Hadoop平台的高校教育资源网架 构,使用Hadoop平台进行数据的存储和传输。实验结果表明, 利用Hadoop云计算平台,为大规模高效数据处理提供良好的 解决方法,有效提高海量数据的处理速度。关键词:云计算;
Hadoop;
云存储;
HDFS;
教育资源 中图分类号:G64文献标识码:A文章编号:
0.引言 整合教育资源,有效合理的使用教育资源,有利于高等 教育的发展。云计算时代的来临,对于建立一个统一、开放 和灵活的教育资源平台,实现资源共享,缩小教育信息化差 距具有深远的影响。把云存储技术和方法,运用到高校教育 资源的整合建设中,有效地节约高校教育资源,提高高校资 源的利用率。
1.云计算和云存储的概述 1.1云计算的概念和特点云计算作为一种新型的服务交付和使用模式,是基于互 联网的计算方式,通过这种方式可以按需的,能够向用户提 供所需的软硬件平台和网络资源[1]。(1)可扩展性:为满 足用户的增长和需要,云计算的规模可以动态扩展和伸缩。
(2)虚拟化:用户通过终端设备登录到Internet中的云服 务平台,即可得到所需要的服务,不需要知道资源的具体所 在位置。云计算将虚拟化的异构分布式的数字和物理资源, 通过虚拟化技术统一存储在数字中心。(3)稳定性:用户 可将自己的数字资源放心存储在云服务平台,云计算通过虚 拟化技术将数据资源存储在虚拟资源池中,有效地保证数据 的安全性。(4)通用性:云计算的支持下可以支撑不同应 用的运行,构造出各种功能的应用。(5)运行成本低:用 其廉价的节点构成云体系,通过云计算的特殊容错措施。云 计算的通用性和公用性有效地提升物理资源的利用率,由于 云计算的自动化管理,也使其管理中心数据的成本大幅度的 降低。
1.2云存储的概念和特点 云存储把存储设备看作一个资源池,通过虚拟化技术, 根据需要分配这些资源。云存储将庞大的数据自动拆分成若 干个小数据块,并进行分布式存储,最后,交由存储资源组 成的计算机集群系统[2]。云存储是将网络不同类型的存储 设备,通过应用软件集合来协同工作,通过分布式文件系统、 网格技术或集群应用等功能,来共同对外提供的业务访问和数据存储功能的系统[3]。(1)可靠性:云存储把数据备份 到多个硬件存储设备中,保证数据的安全可靠性。(2)服 务性:云当中的数据是进行分布式存储的,能够有效地进行 分担存储和访问过程中的压力,提高系统性能。(3)存储 效率:云存储为避免个别服务器由于工作量过大造成的瓶颈 问题,能够将工作量很好均匀的分配在不同的存储服务器上, 使存储系统发挥最大的效能。(4)硬件冗余:云存储将文 件复制并保存到不同的服务器,来解决硬件损坏所带来的难 题[4]。在硬件发生损坏时,云存储知道文件具体存放的位 置,而保持服务的继续。(5)管理性:将高校教育资源统 一存储在云中,方便教育资源的管理,节省了人力和物力[5]。
2高校教育资源存在的主要问题 (1)教育资源分布不均匀。对有充足资金提供支持的 著名大学,就有更好的教育资源。地方院校由于设备老化, 资金有限,资源不足等问题。(2)基础设施的闲置。由于 多方面原因,对多数高校在基础设施购入后,设备在多数情 况下一直处于闲置和浪费,不仅对设备本身也是一种浪费 [7]。也提高设备的运行成本,极大的浪费电力资源、资金 等。(3)软硬件投入的不均衡。是多数高校教育资源建设 过程中,所普遍存在面临的共同问题[6]。(4)基础设施重 复购置。因高校自身教育资源建设的需要等原因,重新建立 或者更换陈旧的基础设施,都需要花费大量资金购入新设施。
(5)教育资源共享程度低。各院校、职能部门之间的资源共享手段较单一,效率也比较低,跨部门、院系的教学和科 研合作受制于教育资源管理水平。
3云计算在资源平台建设的优势 3.1云计算技术 云计算构建的目的在于同时为许多用户服务,云计算系 统运用很多技术,以虚拟化、数据存储、云计算平台管理最 为关键。云计算系统用冗余存储方式保证数据的可靠性,采 用分布式存储方式有效存储数据[8-9]。(1)数据存储技术。
为满足用户需要,云计算系统并行为用户提供服务。云计算 的数据存储技术需具有较高的传输率、吞吐率和分布式的特 点。(2)虚拟化技术。虚拟化技术能够实现底层硬件与软 件应用之间的隔离,包括聚合模式,是把多个资源整合成一 个虚拟资源;
裂分模式,是将单个资源划分成多个虚拟资源 [10]。(2)云计算平台管理技术。云计算系统平台管理能 使多个服务器协同工作,快速发现系统故障和恢复系统,方 便进行工作部署和开通,系统通过智能化、自动化的方法达 到可靠运营。
3.2可行性分析 基于云计算的开放性教育资源平台的建设,率先迈出了 重要的一步,云计算为高校教育资源的建设提供了重要机遇。
其可行性分析如下:(1)扩大教育资源的共享度,避免资 源重复建设,有效地提高基础设施利用率。由于云计算对终 端设备支持跨平台,可以随时随地使用网络共享资源[11]。(2)提高教育资源管理。通过分布式和并行计算,云计算 对高校教育资源进行分析管理、存储和计算,高可靠性能够 保证开放教育资源平台高效运行。
4云计算平台 目前云计算平台:微软Azure平台、Hadoop(Apache基 金会)、阿里巴巴的阿里云、AbiCloud(Abiquo公司)、谷 歌GoogleAppEngine、Amazon的EC2和中国移动的BigCloud等 [12]。本文采用Hadoop平台,实现分布式文件系统,简称HDFS。
HDFS具有高容错性,使其可在廉价的硬件设备上部署,不仅 提供了适合那些有大数据集的应用平台,而且还提供了高吞 吐率的数据读写。1.HDFS文件系统特点:(1)HDFS源代码 是全球开发者共同研究探讨,是开放的,不收取任何费用。
(2)支持超大规模数据集。HDFS经过yahoo公司的验证,能 够支持大规模数据集合[13]。HDFS上的文件由几GB到几TB, 甚至到PB级别大小不等。(3)HDFS认为硬件错误不是异常, 是常态。对每个部分都有出现错误的可能性,HDFS的一个重 要特点是它的故障检测和快速自动恢复[14]。(4)具有很 强的扩展性。HDFS中的节点增加、退出时,都不会影响用户 的正常使用。(5)HDFS容错能力很强。HDFS以块序列形式 存储每一个文件,HDFS存储众多的文件,设计在集群中的大 量机器之间。(6)HDFS平台移植性。HDFS运行在Windows和 Linux等操作平台,是由Java语言实现的,具有很好的可移 植性[15]。(7)提高数据访问性能。HDFS设计不是用户交互处理,从而提高吞吐量,节约收发数据的时间,数据就不 会在网络上造成堵塞。(8)HDFS简化文件访问模型。文件 一旦被创建,就不能再进行修改,以提高吞吐量,增加文件 的一致性[16]。2.HDFS系统架构HDFS集群是一种典型的主从 式架构,是由多个DataNode的数据节点和一个NameNode的控 制节点组成。HDFS群中还有一个SecondaryNameNode,它配 合NameNode进行检查点(checkpoint)操作,不与DataNode 或Client交互。NameNode将文件系统的元数据存储在内存之 中,维护整个文件系统的命名空间,以控制和管理文件的相 关操作,如下图1。HDFS的系统架构,单一控制节点NameNode 提供一个统一文件命名空间,负责对文件系统树、目录和文 件等元数据信息进行维护和管理;
众多数量的数据节点 DataNode具有计算能力管理自身携带的存储资源,具有存储 能力。在HDFS中,一个文件将被分成若干个数据块,数据块 能够通过DataNode相互之间进行复制,这些数据块被分散在 不同的DataNode上存储。DataNode与NameNode定期保持联系, 以便NameNode掌握自身的工作状态[18]。由NameNode向 DataNode发送控制指令,比如,对文件数据块的创建、复制 和删除等操作。
5云存储在整合高校资源的体系结构 5.1云存储体系结构 云存储的体系结构由应用层,平台层,资源层三层组成。
如图2所示。(1)应用层,主要为用户提供相关软件服务。(2)资源层,主要是指基础架构的云计算服务,用户可以 基于这些服务来搭建自己的应用,它把基础架构的各种功能 都提供给用户。这种服务隐藏物理资源的复杂性,可提供虚 拟化的资源。(3)平台层,中间件服务为用户提供可扩展 的事务处理中间件等服务。数据库服务为用户提供可扩展的 数据库处理能力。
5.2高校教育资源云结构 首先建立云计算数据中心,来进行整合高校教育资源, 通过虚拟化技术来提高虚拟化资源池和硬件设备的利用率。
文中采用Hadoop平台实现数据传输[19]。具体如图3所示。
5.3基于Hadoop平台的高校教育资源网架构 用户想从高校教育资源网上得到自己要的资源,首先要 向云计算服务的提供商发送请求,从云存储里通过NameNode 找到相应的Block的ID,并根据Block的ID获得自己所要的数 据资源。具体如图4所示。根据图4中看到,高等学校相当于 DataNode,由所在高等学校管理员向云存储服务系统发送数 据,为节省高校服务器的存储空间,由管理员决定是否删除 已发送的数据。NameNode把数据发送给云服务提供商的 DataNode,同时由NameNode进行记录,来保存到映像文件里, 由SecondaryNameNode来对NameNode中的元数据进行相应备 份,并把数据备份文件更新在NameNode中,保存最新的映射 文件和事务日志。当用户需要所要数据时,要向云服务提供 商发送数据请求,NameNode根据映射文件找到Block编号,发送给Client,以上代码,进行了描写一个DataNode来向 NameNode进行发送数据和接受数据的过程,与高校向云服务 提供商发送数据的基本原理相同。
6结语 云存储作为一个新兴的概念,运用云存储的技术和方法 整合高校资源,能够有效地提高高校资源的利用率,节约高 校教育资源。构建高校教育资源共享云平台,结合云计算技 术,对其体系架构和实现进行深入剖析,在Hadoop平台下, 实现数据的传输与存储。该平台的实现借助于现有较成熟的 云平台应用实例,需要多租户、分布式计算和虚拟化等多种 技术之间的协同,构建高校教育资源共享云服务平台,此设 计方案能够为高校资源的共建和共享提供一个新的思路。