数据挖掘技术在教学管理的应用|数据挖掘技术的应用

数据挖掘技术在教学管理的应用

数据挖掘技术在教学管理的应用 摘要:教学质量是高等教育的核心,教学质量与教学管 理手段直接相关。如何在教学过程中实施科学合理的教学管 理方法,对于提高教学效果十分关键,而科学合理的教学管 理手段必须建立在教与学过程的客观现象之上。利用教学过 程中产生的数据,通过数据挖掘技术发现隐藏在其中的教学 规律,根据规律建立合理的考核方法和手段,从而达到保障 教学效果、提高教学质量之目的。

关键词:数据挖掘;
关联分析;
教学管理 引言 大学教学质量与大学发展息息相关。教学过程中,教师 的“教”受到多种因素影响,既有教师个体因素,也受到教 学管理手段制约。科学合理的教学管理手段不仅有助于提高 教师的教学兴趣,还有助于科学有效地实施教学目标和方法, 从而提高教学效果。

1教学管理现状 目前的教学管理手段主要是监管型与惩罚型[1]。监 管型手段主要包括各种领导和退休教师的督导活动,还有学 生对教学过程进行监控和反映,以及不断出台的各种措施, 对教师教的行为进行约束。惩罚型手段主要包括对教学过程 中可能出现的失误或过失行为进行惩戒。这些措施的主要目 的是针对教学过程的“教”。从实际效果来看,这些措施效 果有限,导致出现以下现象:(1)教师的积极性不高,过多的无效管理措施限制了教师的主观能动性,过多的监管措 施导致教师疲于应付,教师只是简单根据措施实施,这些措 施以外的可以有效促进教学的手段未必愿意执行。(2)教 学管理手段针对性不强,手段目标不够明确,虽然措施不断 增加,但并未真正解决问题。(3)缺乏发现教与学症结的 工具和方法。目前,主要通过和学生交流的方式来发现问题, 无法通过数据发现存在的问题。

2教学信息挖掘 教学过程中产生了大量的教学信息,包括平时成绩、考 勤情况、实验情况、平时作业成绩以及期末考试成绩等。若 能从这些大量数据中找出有用信息,在此基础上制定合理有 效的教学管理措施,对提高教学效果将大有裨益。数据挖掘 技术能够自动高效地从海量数据中提取有价值的信息,从而 有效支持决策[2]。数据挖掘技术有多种方法,其中之一 就是关联分析,即发现数据之间的关联关系。大多数情况下, 分析人员对数据中隐藏的关联性是未知的,即使由于经验积 累,意识到数据间可能存在关联性也是不确定的,所以频繁 模式的关联规则挖掘便于找到数据之中一些隐藏的、高可信 度的关联规则[3-5]。数据挖掘方法在学生成绩和学生 行为方面能够发现学生活动与学习成绩之间的关联性[6- 7],为学校管理人员及教师提供参考,在很大程度上提高 学习管理决策有效性,提高教学质量和管理效率,因而挖掘 学习成绩与学生行为的关联性十分必要。与学习相关的行为主要包括平时成绩、期末成绩以及平时表现等,本文主要工 作是挖掘学生期末成绩与其平时成绩的关联性,探讨其缺勤 情况与第一次考勤情况的相关性,以及与寝室其他同学的缺 勤情况相关性,从而明确何时采取怎样的措施防止上课缺勤 现象。

3基于Apriori算法的学生成绩关联分析 Apriori算法是一种通过逐层搜索的迭代方法 挖掘关联规则的算法,具体就是使用“k-1项集”搜索“k 项集”。利用该算法挖掘平时成绩与期末成绩之间的关联关 系过程如图1所示[8]。

3.1挖掘对象确定 根据教学经验,推断学生的平时成绩和期末成绩之间可 能会有一定的关联性,学生的出勤情况之间可能存在一定的 关联规则,除此之外,学生上课出勤情况很有可能会受到其 所处环境的影响,所以挖掘学生缺勤情况与同一寝室的关联 性也是十分必要的。

3.2数据收集 从历年的教学资料中收集不同年级学生在若干不同专 业课上的表现情况,包括出勤情况以及平时成绩、期末卷面 成绩等信息,并得到学生寝室分配情况。

3.3数据预处理 对收集到的学生成绩和出勤情况数据进行数据预处理, 主要包括数据清理和数据变换两个步骤。(1)数据清理。数据清理的主要目的是消除原始数据库中的冗余数据、噪声 数据以及重复记录。学生成绩数据中,有可能因为未参加考 试或在考试中存在违规行为,导致考试成绩缺失或者为0。

这些数据对学生学习情况分析意义不大,所以要把这些数据 删除。而对于学生出勤表,通过调查发现其缺勤是请假或其 它原因,对于此类数据统一记为在勤。(2)数据变换。将 清理过的数据转换为简单易懂的模式。例如学生成绩是以大 量不同的数字呈现的,数据量较大且不易找到规律,因此需 对各科成绩的连续属性值进行离散化处理。成绩相关的数据 按照通用的五级制(A,B,C,D,E)来划分,大于9 0分的记为”A”,小于60分的记为”E”。对于出勤情 况,可以按照字母顺序(A、B、C、D……)定义若干次 出勤,然后将出勤记为“1”,缺勤记为“0”,则第一次 查勤,若出勤记为“A1”,否则记为“A0”,最后总的 缺勤次数记为n。经过以上变换,原始的学生成绩库被转换 成包含多个有效项集的表。由于学生姓名及学号与分析目标 无关,也将其删除。为了挖掘学生缺勤和所处寝室之间的关 联性,收集有缺勤记录的全部学生信息,然后以宿舍为单位, 选取其中若干个代表宿舍。事务1包含宿舍第一次点名该寝 室缺勤学生的学号,事务2包含该宿舍第二次点名该寝室缺 勤学生的学号,以此类推。由于单个寝室的数据量较少,可 选取多个典型寝室,使分析结果更具可信度。

3.4关联规则产生Apriori算法通过多次扫描经过处理的数据库 来寻找所有的频繁项集。对于经过处理的学生成绩表而言, 每个事务包含有“平时成绩”和“期末成绩”两个项。在对 频繁1-项集连接后,因为采用的是频繁1项集,所以无需 再对其子集进行判断剪枝,直接对数据库进行扫描计数,删 除不满足支持度阈值的候选项集,保留频繁项集。对于经过 数据转换的学生出勤表,每个事务包含有若干次出勤情况以 及缺勤总数若干项。在对频繁1-项集处理得到频繁2-项 集后,将其连接然后分析,得到各候选3-项集的子集。若 有非频繁子项集,则剪掉该项集,保留全部非空子集均为频 繁子项集的候选3-项集,然后扫描数据库,比较支持度计 数,剔除小于最小支持度计数的候选项集,得到频繁3-项 集。以此类推,得到频繁k-项集。执行算法,得到期末成 绩与平时成绩的关联规则如图2所示。同样得到挖掘第一次 缺勤情况与总缺勤情况之间的关联性,见图3。

4结果分析 4.1期末成绩与平时成绩的关联规则挖掘结果 (1)挖掘到关联规则,意味在平时成绩为60分以下 时,期末卷面成绩有83.3%的几率仍维持在60分以下。

对于这部分学生,教师需要重点关注,监督他们平时学习情 况,督促他们到课并帮助他们掌握每堂课所学知识,解决每 次课程中的疑难问题。(2)通过观察频繁项集可发现,平 时成绩为B0、C0、D0、E0(等同于90分以下)的学生,期末考试难以达到90分,这意味着在平时学习一般 的学生期末也很难取得好的成绩。相应的,平时成绩为A0 (90分以上的学生)在期末考试仅有10%的概率达到9 0分以上,同时也有可能得到B1、C1、E1等较低分数, 这在某种程度上表明平时成绩并不能准确体现学生知识掌 握程度,学生在平时学习中存在到课不听讲、作业抄袭等情 况,需要加以制止。(3)按照及格与不及格情况分类得到 的关联规则可以看出,平时成绩及格的学生,期末卷面成绩 及格率高达69%。整体而言,平时学习态度较为端正的学 生在期末考试中不及格的概率很低。

4.2缺勤相关性 本文重点研究了第一次考勤与最后一次考勤及总体缺 勤次数的相关性。(1)第一次考勤与最后一次考勤的相关 性。根据关联规则给出的信息,第一次缺勤的学生最后一次 出勤的概率高达77.8%,分析大概有两方面原因:①因 为最后一次课可能是复习课,这部分学生因为平时不听讲, 在考前意识到上课的重要性,所以最后一次课选择来上课;

②点名累计未达到一定次数,无法参加考试,有些学生可能 意识到问题的严重性,最后一次选择来上课。从这两个原因 来看,大部分学生还是希望能够顺利通过考试的,但有时因 为懒散来上课。教师要向这部分学生强调上课的重要性,让 他们明确考试难度,靠最后的突击复习通过考试不是很容易 的。(2)第一次考勤与总体缺勤次数的相关性。根据关联规则可以看到,第一次出勤后再缺勤一次的学生占比较多, 这部分学生可能学习态度还算端正,但偶尔会因为各种原因 有一点懒散。此外,根据求得的各种规则置信度结果可以看 出,第一次缺勤,后面仍会缺勤的概率在77.8%,所以 对第一次点名就缺勤的学生要重点关注,因为这部分学生后 期很可能再次出现不上课情况。

5结语 根据关联分析结果可以看出学生的期末成绩与平时成 绩的相关度,前面若干次考勤与后面考勤之间的关系,以及 同一寝室学生之间相互影响的关系。通过这些分析,对于制 定教学管理措施很有帮助。例如当学生两次考勤不到时,就 需要进行相应警告;
对于平时抄袭行为需要制定较为严格的 措施;
同一寝室学生之间相互不良影响要采取措施。通过数 据挖掘分析技术,从大量客观的教学数据中分析和发现相应 的规律,并根据这些规律制定相应的教学管理措施,对改善 教学效果大有帮助。