决策树在学生评优工作的研究与应用
决策树在学生评优工作的研究与应用 数据挖掘技术正以其强大的功能在许多研究和应用领 域得到广泛的发展,分类预测算法更是有着广泛的应用前景, 决策树算法是一种重要的分类方法,是数据挖掘领域研究热 点之一。在学生管理工作中,运用决策树算法对海量的学生 信息进行处理,在实际操作中,有着很高的参考价值。摘 要:
一、决策树的概念 决策树(Decision tree)算法是用于分类和预测的主 要技术。决策树由节点和分枝组成,其中节点分为根节点、 内部节点和叶子节点,根节点和内部节点对应于待分类对象 的属性,叶子节点代表一种可能的分类结果。决策树的基本 算法是贪心算法,是以自顶向下递归的方法构造决策树。在 决策树的内部节点进行属性值的比较,并根据不同的属性值 判断从该节点从该节点向下的分支。从根节点到叶节点的一 条路径就对应着一条合取规则,整个决策树就对应着一组析 取表达规则。
基于决策树的模型优点有以下几点:(1)决策树方法 结构简单,生成便于人们理解的规则(2)决策树模型效率 高,对数据量较大的情况较为适合(3)决策树模型擅长处 理非数值型数据(4)决策树具有较高的分类精确度,它能 够在数据库的各个对象中找出共性,并按照分类模型把它们 进行分类。二、决策树构建 数据预处理后,开始归纳决策树,此过程使用数据预 处理得到的训练集,样本数据为了2009年招收的新生信息, 样本数据29名,随机抽取大约70%(20),其余30%(10)作 测试集。
根据分类决策C4.5算法的阶段:树的生成和树的剪 枝。首先,根据信息增益最大的标准选择某个属性对训练集 进行划分,递归调用直到每个划分中的所有例子属于同一个 类,然后,对建立的进行剪枝,算法具体处理过程如下:
(1) 计算给定样本分类所需的信息熵 设A为训练集样本总数,共有M类样本C(i=1、2、 3,...,m),S为类C中的样本,计算公式为 i i i 其中,是任意样本属于A的概率,可用S/S来估计。
(2)计算每个属性的信息熵设属性X具有V个不同值{x、 x...,x},将A划分为V个子集A...A,其中,A包含S中这样一些 样本,它们在A上具有值X(j=1,2,...v),以属性X为分类所需 的期望熵由下式给出:
i i 12 v 1 v j j 其中,A是子集A中属于类C的样本数,,P=S/S的样本属 于C类的概率 (3)计算信息增益和信息增益率 属于X的信息增益函数为:
Gain(X)=I(A,S...S)-E(x) 为除高分枝属性的影响,还需要计算该属性的信息增 益率。信息增益率的方法考虑每一次划分所产生的子结点的 个数和每个子结点的大小,计算公式为 B(X)=Gain(X)/I(A,...A) (4) 归纳决策树 为达到最佳分裂的目的,C4.5先依次计算各个属性的信 息增益Gain(X)和信息增益率A(X),选取最高信息增益率。
选择完毕分裂变量之后,对于生长过程,就是根据分裂变量 的不同取值产生多少个分支,如何分支,以及怎样完成分支 过程,是决策树生长过程的核心内容。输入变量己经被分组 了,这个过程可以看成是对输入变量的离散化处理。决策树 生长过程是,当分裂变量的分组比较少时,若该属性仅含有有限的几个分组,例如分裂属性变量Y只有两个分组A和B, 则子节点就直接划分为A子节点,B子节点。当分裂的分组 相对较多时,需要对这些分组作出进一步的处理:
①如果分组有很多个,那么就要对该变量的分组作出合 并处理。
②如果合并结果不理想,那么在合并同时还可以考虑取 值的拆分,根据检验结果判断是否需要把组再拆分成两组。
三、决策树在学生信息管理中的应用 在学生管理中关注的只是一些比较特殊的数据,可以通 过数据筛选和决策树的训练分类规则,首先通过表征数据的 关键属性段建立根节点,建立数据训练集,输入已有数据, 通过决策树的构建,生成预测学生信息的决策树,这样大量 数据可以分成具有数据表征数据,便于直接定位学生管理者 感兴趣的数据。以学生评优为例分析:
学生评优测评涉及多个方面,主要为德育、学习成绩、 专业技能、社会实践能力、体育活动等,而这些指标中只有 部分是可以量化的。学生管理部门对这些数据的处理主要采 用人工测评方式,利用层次分析模式抑或模糊分析方式进行 评价。取属性"优秀学生"作为类别标识属性, 属性"学习成 绩"、"德育测评"、"专业技能水平"、"体育成绩"、"社会实 践能力"作为决策属性集。将所有属性分成四等,用"优""良 ","中","差"区分,依据c4.5 算法构造决策树,以我校 2009届机电班29名学生为数据集根据学生数据信息表内容,通过决策树算法,不断重复 得到如下结果,证明学习成绩具有最大增益率,因此选择此 属性作为决策树的根结点,对于每一个分支,重复上述步骤, 生成决策树。
ij j i ij ij j i 1 2 m 1 2 结束语 参考文献:
[1] Janwei Han and Micheline Kamber.数据挖掘概念 与技术[M].范明,孟小峰,译.北京:机械工业出版社,2007. [2] 朱玉全,杨鹤标,孙蕾.数据挖掘技术[M].南京:东南大学出版社,2006. [3] 刘美玲,李熹,李永胜.数据挖掘技术在高校教学与 管理中的应用[J].计算机工程与设计,2010(5):1130- 1133.