大数据时代网络学习环境的数据的发展理念|

大数据时代网络学习环境的数据的发展理念

大数据时代网络学习环境的数据的发展理念 一、前言 传媒学家麦克卢汉认为,“任何技术都倾向于创造一个 新的人类环境”。而IT技术在经历了大型主机、小型计算机、 PC/微处理器、联网/分布式计算几个时代之后,现在处于第 五次浪潮。其总体特征是以云计算为基础架构,支撑大数据 处理和应用,从“以计算为中心”向“以数据为中心”转变。

对于当前大数据处理,中国社会科学院信息化研究中心 秘书长、《互联网周刊》主编姜奇平认为“大数据就是云计 算本身”,“两者都是数据的大规模集聚与定制化分布的结 合”。

云计算,尤其是大数据的运用,给网络学习带来最大福 利是成本降低,使计算机资源使用模式得以改变。根据谷歌 的云计算模式,网络学习的用户所需的应用程序并不运行在 用户的个人计算机、手机等终端设备上,而是运行在互联网 上大规模的服务器集群中。用户所处理的数据也并不存储在 本地,而是保存在互联网上的资料中心里,由云计算将分散 的资源集中利用。然而大数据时代真正要让现有分散的网络 学习平台和资源“无缝链接”,真正使用户使用有“直通车” 效果,却面临着数据异构带来的挑战。

二、大数据时代异构数据的挑战 所谓大数据是数据本身连同采集工具、平台和分析系统 的总称。通常认为大数据有四大特征,称为“四V”特征:(1)量大(Volume Big)。数据量级已从TB发展至PB 乃至ZB,可称海量、巨量乃至超量。

(2)多样化(VariableType)。数据类型繁多,涉及 文本、图片、视频、图像与位置信息等半结构化和非结构化 数据信息。

(3)快速化(Velocity Fast)。数据流往往为高速实 时数据流,而且往往需要快速、持续的实时处理;
处理工具 涵盖软件工程及人工智能等。

(4)价值高和密度低(Value High and Low Density)。

以视频安全监控为例,连续不断的监控流中,有重大价值者 可能仅为一两秒的数据流;
360°全方位视频监控的“死角” 处,可能会挖掘出最有价值的图像信息。

在大数据时代,数据库趋向集中化、大型化,但应用向 着分散化、小型化的方向延伸。对于当前网络学习平台而言, 所需数据源来自许多分布的数据库,但实际操作数据只是涉 及其中紧密相关的少量数据。这些数据又必须与中心数据库 保持数据一致,这就带来数据一体化更新维护的困难。因此 让互联网这片“云”成为每一个学习者的资料中心和计算中 心,必须提供安全、快速、便捷的数据存储和网络计算服务, 可见数据存储与网络计算一样在整个云体系中扮演着种要 的角色。因此在大数据运用中,快捷方便的云存储是实现有 效云计算的关键。一般来讲,云存储一般包含两个含义:
(1)云存储是云计算的存储部分,即虚拟化的、易于扩展的存储资源池。用户通过云计算使用存储资源池:
(2)云存储指作为一种服务,通过开放互联网接口, 使得第三方网站可以通过云存储提供的服务为用户提供完 整的Web服务,包括用户直接使用存储相关的在线服务。

尽管大数据时代的云存储和云计算为网络学习创造了 机会,目前的情况是,各网络学习系统和资源库多平台运行、 数据库模式各不相同、用户的数据分散的,数据被割裂在不 同的设备上、多方式种运行等弊端,不仅造成资源浪费重叠, 同时也造成网络资源和数据无法共享,平台之间信息交流和 共享十分困难,以致形成信息孤岛,这些阻碍了云计算环境 下网络学习的进一步开展。

1.数据的多源异构性 专家发现,互联网中以关系数据库的方式存在的数据只 占全部数据的10%,许多数据分布的形式如文件系统、数据 库系统、分布在Web中的数据等等,网络中存在着各种分布 式具有异构性的数据源。

所谓的异构数据是指在数据管理和访问中存在的异构 性问题,如系统异构、数据源异构、语义异构等。多源异构 数据产生原因及表现形式主要有以下几点:
(1)系统异构性,即数据源所依赖的业务应用系统、 数据库管理系统乃至操作系统之间的不同构成了系统异构。

(2)模式异构性,即数据源在存储模式上的不同。目 前数据存储模式以关系模式为主,此外还有对象模式、对象关系模式和文档嵌套模式等几种,不同的模式在结构上存在 着差异,即便是同一类存储模式,模式结构可能也存在着差 异。例如不同的关系数据管理系统的数据类型等方面并不是 完全一致的,如DB2、Oracle、Sybase、Informix、SQL Server、 Foxpro等。

(3)数据来源和存储结构多样性。数据源异构是指数 据来源不仅是结构化的数据,还包括半结构化和非结构化的 数据,如XML文档和图片等数据。此外数据获取方式多样性 也会造成内部数据源和外部数据源之间的异构,此外,存储 媒介的不同也会造成数据在存储结构表现形式上呈现多样 性特征。

(4)多语义性,研究对象的多种类型决定了数据的多 语义性。在现实世界中,即是相同的业务对象在侧重不同问 题的重点时,往往会导致语义多样性。如相同概念用不同的 词汇来表示,如同一个属性,有的系统中定义为姓名、有的 定义为名字:相同数据资源结构不同,如有的系统中姓名保 存为一个字段,有的系统中姓、名分为两个字段;
语义的异 构可能会引起表冲突、值冲突、属性冲突等问题。

(5)多时空性和多尺度性,有些数据具有较强的时空 特性,一些数据源可能是不同时间和不同空间的数据集成。

2.物联网技术崛起对异构数据采集的挑战 传统的基于互联网资料查找和分析的学习中,往往存在 着因学生过度依赖网络资源而造成的独立思考不完全、科学探究不充分和证据获取不可靠等问题,因此无法达到通过探 究性学习培养良好科学素养和创新精神的最终目标。而物联 网技术通过采用技术手段唯一标识探究对象、以无线传感器 感知探究对象、通过社交网络分享和讨论探究对象变化细节 等环节,可以更好地感知世界,从而完成探究性学习的目标。

物联网是在任何时间,任何地点,任何互联网络上,通 过Web应用程序转移和对更广泛的数据的集成,为用户提供 无障碍服务的概念。伴随着物联网应用及其关键技术的不断 涌现,物联网数据采集的感知设备种类、用户终端的种类日 益繁多,用户与平台的交互模式也日益丰富。

由于云存储系统是基于互联网技术而生,都是以小图片 流、小视频流等小文件数据为主要存储对象。但在物联网中, 需要对海量的图片流及视频流等数据进行反复的存取,因此 物联网中数据异构型体现在以下几个方面:
(1)各个独立的数据源具有不同的获取方式,且分布 在不同地理位置的,具有自治性。

(2)这些数据源在存储模式、结构和意义上存在巨大 差异。由于物联网业务平台中各种传感器网络日益增多,如 掌上电脑、智能手机等等,且各种传感网提供不同格式的数 据。但是目前没有统一定义的格式标准,不同厂家传感器收 集的数据格式不尽相同。同时每个数据源即使用于相同的应 用领域,也既存在结构化数据,也有半结构化数据,不同的 存储模式,其结构的差异也很大。因此必须随时根据各个数据包的不同格式,解决语义和语法上的差异性,然后再集成 并融合数据源。

(3)数据源不仅是海量的,而且常常是实时的和动态 的。因此,收集所有数据到一个集中的位置来分析变得非常 困难。

由此可以看出,物联网数据异构性问题更加突出,问题 更为复杂,对其产生的海量异构数据造成的信息冗余进行及 时的处理变得尤为关键。

三、关键技术和策略 可见,云计算时代,由于各种原因造成的网络学习平台 中存在的数据异构对用户的数据存储和计算造成极大不便。

一方面,由于包括物联网在内大量新技术的采用,导致 数据来源不同,数据表达方式多样:其次,各个信息管理系 统相对独立运行,致使不同网络教学平台数据更新不一致。

这样,针对同一信息的查询就出现了差异,难以确保信息的 准确性,从而导致信息的有效性受到影响。

另一方面,信息共享困难。由于各网络学习平台的物理 相对独立性、数据库系统的不一致、没有统一的数字接口等 诸多因素,使得各网络学习系统之间不能实现信息的共享。

数据实时采集、处理及融合的目的就是针对各种分布异 构的信息系统中的数据信息进行抽取、转换与融合,建立一 个稳定的集成环境,为用户提供统一信息存取接口。如果不 能将异构数据源中的冗余数据进行完整、正确、实时处理,不仅仅浪费了大量学习资源,还导致用户多样性、个性化学 习需求无法得到满足。

1.系统构成 集成后的异构数据对学习者来说是统一的和无差异的, 它为用户提供统一的访问数据源访问接口,执行用户的访问 请求,透明有效地对数据进行操作,进而实现全面的数据共 享需求实现数据集成的系统称为数据集成系统, 因此异构数据共享系统的建设,关键在于共享平台的建 设。数据共享平台架构由数据层、数据服务层和应用层组成。

如图1所示:
数据层包括异构的各种数据源,数据服务层提供各种数 据服务,应用层则包括浏览器、业务系统和第三方系统等。

拥有数据资源的部门或个人可以往平台上提交自己的 数据资源,需要数据资源的一方可以到该平台上挑选自己需 要的数据,包括如下部分:
(1)数据层:这个库用来收集并存放用户的共享数据, 包括小型的文件数据和结构化数据,大型文件数据存放在数 据拥有者的机器里。

(2)数据服务层,即数据统一服务系统,是该平台的 核心,包括三个主要部分:
元数据库:其任务是通过数据采集服务,将底层数据资 源的描述信息注册到平台中形成元数据库,用来存放用户的 共享数据的元数据。内容对所有部门和个人开放,需要数据的人在这个库里进行信息检索。

数据统一规范系统:为了保证提交数据是有效的,还承 担着对提交共享数据的用户,检查数据的完整性和合法性的 任务。该系统包括服务器、数据检查软件。

安全控制系统:为了保障共享数据和元数据的安全,需 要建设相应的保障体系。保障体系包括硬件设备和制度措施。

(3)应用层则包括浏览器、业务系统和第三方系统等。

2.相关理论和关键技术 随着学习者的需要,特别是多媒体技术的广泛采用,在 学习过程中需要把电子邮件、多媒体文件、附件等等都包含 在一个系统中,以减少系统的重复投资。在以前的数据库中, 一直强调数据的标准化。在以前,数据库主要管理的是结构 化的数据,数据是以行与列的二维形式进行存储。若需要实 现三维数据,如数据仓库等等,都要根据一定的规则对数据 库进行叠加才能够完成。

因此解决异构数据,最突出的表现就是完成从二维表存 储方式到多维数组的存储方式的转变。采用多维数组技术, 不但可以把语音文件等异构数据存入到数据库中,而且数据 库管理员可以利用SQL语句,像管理同构数据那样,对多媒 体文件、附件等异构数据进行操作,使得异构数据能够像结 构化数据那样进行管理、查询等包括新建、删除、更新等等。

当前大数据处理系统不管结构如何复杂,采用的技术如 何千差万别,但是总体上总可以分为以下的几个重要部分。如图2所示。

从图中的流程可以看到,在大数据环境下需要的关键技 术主要针对海量数据的存储和海量数据的运算。由于当前绝 大部分网络学习平台是基于关系数据库开发的,其关系数据 库模型难以表达复杂的嵌套需要以及支持数据类型有限,因 此研究者从数据模型入手而提出非结构化数据库。

(1)noSQL技术的崛起 与传统的关系数据库模型相比,非结构化数据库是全面 基于因特网应用的新型数据库理论,它突破了关系数据库结 构定义不易改变和数据定长的限制,支持重复字段子字段以 及变长字段并实现了对变长数据和重复字段进行处理和数 据项的变长存储管理,在处理连续信息(包括全文信息)和 非结构信息(重复数据和变长数据)中有着传统关系型数据 库所无法比拟的优势。从应用角度主要分为操作型noSQL技 术和分析型noSQL技术。

操作型(operational)noSQL技术:依据存储模型,操 作型noSQL技术可划分成基于Key Value存储模型、基于 Column Family(列分组)存储模型、基于文档模型和基于 图模型的noSQL数据库技术4类。其中值得一提的是,基于 Graph存储的noSQL技术。众所周知,随着社交网络、科学研 究(药物、蛋白质研究)以及其他应用领域不断发展的需要, 更多的数据以图作为基础模型进行表达更为自然,而且这些 数据的数据量是极其庞大的,比如,Facebook拥有超过8亿的用户,对这些用户的交互关系进行管理、分析是极大的挑 战。这些分析不仅仅是根据一定的条件查找图的节点或者图 的边,更为复杂的处理是在图的结构上进行分析,比如社区 的发现等。

面向分析型应用的noSQL技术(MapReduce):面向分析 型应用的noSQL技术主要包括MapReduce和Dryad。MapReduce 技术是由Google公司提出来的,旨在解决大规模非结构化数 据快速批量处理的并行技术框架。近几年来,MapReduce技 术成为大数据分析的事实标准。MapReduce是一种用来处理 数据的编程模型,用于并行处理大规模数据集,它将任务分 成更多更细的子任务并且通过这些子任务在空闲的处理节 点之间进行调度,快速处理数据,最后按照特定的规则,合 并生成最终的结果,优势在于处理大量数据集。在Google, MapReduce用在非常广泛的应用程序中,包括“分布grep、 分布排序、Web连接图反转、每台机器的词矢量、web访问日 志分析、反向索引构建、文档聚类、机器学习、基于统计的 机器翻译……”值得注意的是,MapReduce实现以后,它被 用来重新生成Google的整个索引,并取代老的adhoc程序去 更新索引。

(2)NoSQL的优势 易扩展:NoSQL数据库种类繁多,但是一个共同的特点 都是去掉关系数据库的关系型特性。数据之间无关系,这样 就非常容易扩展,同时在架构的层面上带来了可扩展的能力。大数据量,高性能:NoSQL数据库得益于它的无关系性, 数据库的结构简单,具有非常高的读写性能,尤其在大数据 量下,同样表现优秀。一般MySQL使用Query Cache,每次表 的更新Cache就失效,是一种大粒度的Cache,在针对Web2, 0的交互频繁的应用,Cache性能不高。而NoSQL的Cache是记 录级的,是一种细粒度的Cache,所以较之关系数据库具有 极高的性能。

灵活的数据模型:NoSQL无需事先为要存储的数据建立 字段,随时可以存储自定义的数据格式。而在关系数据库里, 增删字段是一件非常麻烦的事情,特别是非常大数据量的。

这点在大数据量的Web2.0时代尤其明显。

高可用:NoSQL在不太影响性能的情况,就可以方便的 实现高可用的架构。比如Cassandra、HBase模型,通过复制 模型也能实现高可用。

3.异构数据的集成 集成是一种应用于异构数据源的集成方法,从整个异 构数据交换平台来看,主要实现的是从一个数据库数据发布 到另一个数据库数据订阅接收的一个流程,具体的可能是一 对一、一对多或者多对一的情况,例如Sql 2005采用复制功 能将数据或数据库对象从一个数据库复制和分发到另外一 个数据库,并进行数据同步,从而使源数据库和目标数据库 保持一致。目前异构数据集成主要有三种方法,即数据的表 示及格式转换、数据互操作和直接数据访问模式。(1)数据的表示及格式转换 数据格式转换就是将其他格式的数据文件转换成当前 应用的数据格式,并保存到当前软件数据库。许多软件为了 实现数据与其他软件共享,特别提供了明码交换格式,但是 由于缺乏对象的统一描述方法,转换后的数据不能完全准确 地表达原数据的信息,易造成属性信息丢失,也就无法直观 地展现出大数据本身的意义。而在一种不合适的数据表示中 寻找大数据的固定模式、因果关系和关联关系时,可能会落 入固有的偏见之中。因此要想有效利用数据并挖掘其中的信 息或知识,必须找到最合适的数据表示方法。

(2)数据互操作方法 互操作本义是指系统间的兼容性,如今其外延已扩展为 数据的集成,即异构数据在传输中可达到共同的语义理解, 可整合为一个整体对外提供服务;
与服务的集成,指异构的 程序及软件模块间可进行透明的交互。当前信息技术领域从 不同层面不同角度对互操作技术展开了深入研究,有基于格 式转换的跨库检索技术、数据仓库与数据挖掘,基于协议的 Z39.50、OAI、Webservices等。而最近兴起的 OpenGISConsortium(OGC)是一种新的数据共享规范,可在 异构数据库和分布计算的情况下,帮助用户相互理解并能透 明地获取所需的信息。其工作流程是通过数据服务器相应数 据客户的请求,向数据客户提供服务,最终数据客户能够读 懂任意数据服务器提供的空间数据,当然这些数据服务器提供的数据是基于OGC规范的。但是目前非OGC规范的空间数据 占据已有空间数据的主题,数据互操作方法在数据集成上还 存在一定的局限性。

(3)直接数据访问 直接数据访问指的是在软件中实现对其他格式的数据 的直接读取和操作,该方法对用户要求较高,需要使用者熟 悉宿主软件格式并编写相对应数据的数据引擎。微软在2005 年推出Microsoft数据访问组件(MDAC),通过Microsoft数 据访问组件(MDAC),开发人员可以连接到种类繁多的关系 和非关系数据源,并且使用这些数据源中的数据。用户还使 用AcfiveX Data Obiects(ADO)、开放式数据库连接(ODBC) 或OLE DB连接到很多个不同的数据源通过由Microsoft生成 和交付或者由各种第三方开发的提供程序和驱动程序完成 该操作。通过当前的MDAC体系结构,客户端一服务器应用程 序、n层应用程序或Web浏览器应用程序可以访问SQL、半结 构化存储和旧式数据存储区。另外,通过MDAC(并根据不同 的需求),这些应用程序可以使用ADO、OLE DB或ODBC灵活 地访问数据。

此外,大数据的获取、通信、存储、管理与分析处理都 需要消耗大量的能源。在能源问题日益突出的今天,研究创 新的数据处理和传送的节能方法与技术是重要的研究方向。

四、结语 正如黎加厚教授所言:不远的将来,随着“云计算”的发展,为实现全球数据信息提供机会。但是当前开发平台、 工具的异构性和紧耦合性导致了大量的教育资源系统之间 不能互联互通、资源共享与软件复用, “信息孤岛”现象依然普遍存在。

值得一提的是,当前关于大数据研究很大程度上集中在 以“云计算”为核心的相关计算机技术与软件的开发上,在 如何把“大数据研究”应用于实际的学科领域,或者说如何 指导网络学习和教学实践工作应对“大数据环境”的研究, 还有待于进一步探讨。