数据挖掘在学员综合信息管理系统中的价值体现
数据挖掘在学员综合信息管理系统中的价值体现 1 引言 随着计算机和网络技术的快速发展,军队院校的各项管 理工作对军队院校信息化建设提出了更高的要求。学员管理 工作贯穿于学员在校期间学习和生活整个过程,是军队院校 管理工作的重要环节。学员管理信息化是军队院校信息化建 设的重要方面,直接反映了军队院校的管理水平。许多军队院校己经应用了各种管理信息系统,积累了大 量的原始数据。传统的求平均值和排序进行数据的统计分析, 只能得到表面的结果,无法发现数据中隐含的关系和规则, 导致隐藏在这些数据中的丰富信息资源一直没有得到很好 的应用,经常发生“数据丰富而信息贫乏”的现象。如何通 过科学的分析方法和先进的技术手段对这些数据进行更高 层次的分析,从数据中提取出有价值可利用的信息,同时利 用这些信息提高学员的培养质量,是很多军队院校正在考虑 的问题。
2 数据挖掘概述 数据挖掘的定义是从大量的,可能不完整、模糊、随机 或是含有噪声的实际应用数据中,提取出隐藏在其中的、结 果事先无法预见的、同时具有实用价值的信息的过程。这个 定义包含好几层意思:首先必须使用大量并且真实的数据, 这些数据可能带有噪声,其次发现的信息是无法实现预见的, 而且这些信息要可理解、可应用。需要特别说明的是数据挖掘得到的结果并不是在任何情况下都成立的,需要具体问题 具体分析。
在人工智能领域,数据挖掘习惯上又被称为数据库中的 知识发现,也有人把数据挖掘看作数据库中知识发现过程的 一个基本步骤。知识的范围其实是很宽泛的,除了信息可以 理解为知识以外,还有概念、规则、约束、模式和规律等也 可以看作知识。通常大家把数据看作获取知识的来源,这个 过程就像从大量矿石中提炼出金子一样。
数据挖掘的目的不是要发现永恒的真理,也不是要发现 新的数学物理公式或者自然科学定理,更不是发现那些针对 某些事物下的结论。数据挖掘都是在一定的前提和条件下进 行的,其得到的结果也是用来辅助决策,同时还要求尽量采 用人们容易理解的方式表达得到的结果。数据挖掘将发现的 知识划分为广义知识、关联知识、分类知识和预测知识,其 中应用最广泛的是分类知识。人们在数据分析、数据融合和 决策支持的过程中越来越多的用到了数据挖掘,数据挖掘把 数据的应用从原来简单的查询统计,提高到了对数据的智能 分析,进而提供决策支持。
3 决策树算法 决策树又称为判定树,是一个类似二叉树或多叉树的树 型结构,其最上面的节点叫做根节点,是树中的包括根节点 在内的所有内部节点代表数据集中的属性,内部节点下面的 每个分支代表这个属性的一个值,每个叶节点则表示训练集中对象的某个类别,即对象所属类别的属性值。从根节点到 叶节点的每一条路径就是一条分类规则。因此,可以很方便 地将决策树转化为分类规则,决策树是一种非常直观而且简 单易行的分类方法。
由数学模型可以得到实现决策树的简要步骤,概括为:
1)决策树以根节点开始。
2)选择最有分类能力的属性作为决策树的当前节点。
3)根据当前节点属性取值的不同,将训练集划分为若 干子集。每个取值形成一个分枝,有几个取值就形成几个分 枝。
4)针对上一步得到的某个子集,重复进行先前步骤, 递归得到这个子集对应的分支。当某个节点选择属性以后, 不能在这个节点的子节点上选择该属性。
主要的决策树算法有ID3、C4.5、CART和SLIQ等算法, 其中C4.5算法在数据挖掘中应用最为广泛。
4 数据挖掘在学员综合信息管理系统中的应用 4.1 确定数据对象和目标,收集数据以及数据预处理 本文将学员类型、成绩、奖惩等数据作为挖掘对象。通 过这些数据建立分类模型找到哪些因素对学员综合素质评 估结果是有影响的,同时分析这些因素对评估结果的重要程 度是怎样的。本文主要用到学员基本信息数据、考试成绩数 据和综合素质评估数据,这些数据都来源于数字化校园平台 下的学员综合信息管理系统。数据选择好以后,需要对数据进行预处理。首先去掉与学员综合素质不相关的属性(如姓 名、学号、性别等),然后把课程分为理论课和实践课,将 学员原始成绩提取出来,去掉补考成绩,对成绩进行数据概 化,划分为80~100分属于良好,60~79分属于中等,0~59 分属于不及格,分别用A、B、C表示,最后将政治面貌分为 群众、团员、党员,分别用A1、A2、A3来表示;
学员类型分 为学历教育、任职教育和短期培训,分别用B1、B2、B3来表 示;
在校表现由学员获得优秀学员、优秀党员等表示,分别 用C1、C2、C3来表示没有获得、获得1次和获得2次以上;
任 职情况分为无任职、班长和区队长,分别用D1、D2、D3来表 示;
英语等级分为没通过四级、通过四级和通过六级,分别 用E1、E2、E3来表示;
学员综合素质评估结果分为优秀、良 好和合格三类,分别用F1、F2、F3来表示。
4.2 数据挖掘 系统调用了WEKA中的J48算法,也就是决策树中的C4.5 算法,这个算法封装在buildClassifier(Instances instances)函数中,主要代码如下:
4.3 规则提取 由决策树模型,可以得到如下规则:
4.4 结果分析 从决策树模型以及得到的规则中可以看出,实践课是影 响学员综合素质最主要的因素,其成绩优良的学员,综合素 质普遍较高,这与目前军队院校重视学员实践能力有关,其次影响因素依次为政治面貌、在校表现、英语等级和理论课。
实践课成绩中等的学员,其次影响因素为理论课,与政治面 貌、在校表现和英语等级关系不大,这些学员综合素质一般, 这与教学管理人员平常的经验基本符合。实践课成绩不及格 的学员,学员综合素质整体较差,对于这些学员首先要提高 实践课成绩,然后逐步提高其综合素质。此外还可以看出, 学员类型和任职情况不是影响学员综合素质的重要因素,不 用作为主要因素考虑。得到决策树模型后,对学员进行分类 预测,根据预测的结果和发现的知识,可以对不同情况的学 员有针对性地改进学员培养工作,做到固强补弱,从而提高 学员综合素质能力。
5 结语 应用数据挖掘技术对学员数据进行科学深入的分析,从 这些数据中提取有利用价值的信息,为军队院校管理人员决 策提供可靠依据,通过提高学员管理水平,对进一步提高军 队院校的办学水平和学员培养质量都有很重要的实际意义。
参考文献 [1] 陈京民.数据仓库与数据挖掘技术[M].北京:电子 工业出版社,2002:36-45 [2] 毛国君等.数据挖掘原理与算法[M].清华大学出版 社,2005:4-9 [3] 邹志文,朱金伟.数据挖掘算法研究与综述[J].计 算机工程与设计,2005,26(9):2304-2305