对数线性模型和线性对数模型 基于Logit对数线性模型的大类招生高校学生成绩的顾分析

基于Logit对数线性模型的大类招生高校学生成绩的顾分析

基于Logit对数线性模型的大类招生高校学生成绩的顾分析 一、引言 自1977年恢复高考以来,我国高校招生政策主要经历了 四个发展历程[1,2]。1977年至1985年我国实行的是在适当 地点定期实行全部或局部高等学校联合或统一招生。1986年 至1992年国家采取计划招生,实行单位委托培养和定向招生 及招收部分自费生的双轨办法,改变了高度集中的单一招生 计划体制。其后至2002年,国家实行了一系列的招生政策改 革,使得我国高等教育实现了跨越式发展。2003年至今教育 部实行了扩大高校招生自主权的改革,自此大类招生开始出 现。大类招生政策自实施以来,经过近十年的发展和逐渐推 广,迄今100多所“211工程”院校中已有超过一半的高校实 行了按大类招生的模式。大类招生是指将相同或相近学科门 类的专业合并,按一个专业大类进行招生。大类招生之所以 能取得如此快速的发展是由其先进性决定的——大类招生 不仅有利于培养创新型人才和按需培养人才,而且还可以帮 助高校整合内部资源,提高办学效益[3]。

由于大类招生属于新生事物,部分高校实施不久,其潜 在的弊端尚未显露,而按大类招生政策录取的学生的成绩往 往隐含着这些信息[4],因此,对这类学生的成绩进行统计 分析,发现其潜在的问题,从而提出相应解决方案是尤为重 要的。本文以较早实行大类招生的中南大学能源动力类学生 成绩为研究对象,通过建立Logit对数线性模型,探讨生源地和入学年龄对学生成绩的影响,进而根据统计结果提出相 关对策以进一步完善大类招生模式。

二、数据收集及处理 (一)对象 中南大学有工学、理学、医学、文学、法学和经济学等 十一大学科门类,有30个二级学院和83个本科专业,是一所 典型的综合性大学。中南大学能源科学与工程学院自2008年 开始便实行了按能源动力类大类招生,能源动力类是培养从 事动力机械和动力工程的设计、制造、运行和管理等方面的 高级工程技术人才的典型工科专业。因此,以中南大学能源 动力类学生成绩为研究对象建立Logit对数线性模型,分析 得出的结论具有一般性,能够指导综合性大学工科专业大类 招生下学生科学文化素质的培养。本文统计了中南大学能源 动力类2009级185名和2010级166名本科生的成绩,涵盖了他 们自入学到2012年上学期所学习的所有18门和15门基础课 科目,包括工程制图、大学计算机基础、微积分、大学物理、 基础英语等。限于篇幅原因,学生的各科原始成绩数据本文 不予陈列。

(二)成绩评价模型及等级划分 学生成绩综合测评的方法主要有总分法、算术 [收稿日期] 2014-06-16;
[修回日期] 2014-06-26 [基金项目] 中南大学开放式精品示范课堂计划项目“能 源与动力工程测试技术”(2014sfkt223)平均值法、加权平均法、模糊综合评判法、层次分析法、 因子分析法和主成分分析法等[5,6]。总分法和算术平均值 法是对单个学生所有课程成绩求出总和或平均数,作为综合 考核结果来对学生进行比较和评定。这两种方法非常简单, 但没有考虑课程学分的影响。模糊综合评判是对受多种因素 影响的复杂的对象采用模糊数学的理论与技术进行综合评 判而得到定量评价结果的方法[7]。层次分析法是一种将定 性分析和定量分析相结合的系统分析方法,其首先需要将复 杂的问题层次化,然后根据系统的特点和基本原则对各层的 因素进行对比分析,最后以计算出的最低层相对于最高层的 相对重要性次序的组合权值作为评价的依据[8]。主成分分 析法是将原来的多个变量适当的组合成一些数量较少的综 合指标来近似代替原来的多个变量[9]。因子分析法是将具 有错综复杂关系的变量综合为数量较少的几个因子以再现 原始变量和因子之间的相互关系,在某种程度上可看成是主 成分分析的推广和拓展[10]。这四种方法较为复杂,面对本 研究庞大的数据需要花费较长的时间,不便使用。

加权平均法不仅涵盖了课程的学分信息,而且其计算方 法还简单,故本研究最终选取该方法进行综合成绩的分析。

加权平均法一种考虑了课程所占权重的学生成绩综合评价 方法,科目的学分越高,该科成绩在进行综合评测时所占的 比重越大,其具体计算方法为:
通过计算发现,所取样本中学生加权平均成绩的最大值和最小值分别为90.66和60.77。考虑到这两数值的大小,本 文最终利用成绩绩点的分界值将学生的成绩划分成优、良、 中和及格四个等级:当加权平均成绩≥85时,成绩为优;
当 85>加权平均成绩≥78时,成绩为良;
当78>加权平均成绩 ≥71时,成绩为中;
当71>加权平均成绩≥60时,成绩为及 格。

三、Logit对数线性模型 本文主要探讨生源地及入学年龄对学生成绩的影响,所 研究问题的变量均为称名变量,有自变量和因变量的区别, 而且还有两个自变量,因此,多变量分析方法中的Logit对 数线性模型特别适合于分析此类问题。Logit对数线性模型 主要用来探讨与解释因变量与自变量间的关系,通常以最大 似然法进行模型估计与检验[11]。

(一)建模与自由度计算 考虑到生源地种类有31种,而2009级与2010级能源动力 类学生总人数仅为351人,所以,为了满足Logit对数线性模 型的使用前提必须对生源地进行分类[11]。根据表1所示的 2010年高考985高校各省录取率将生源地归为三类:① 0<录 取率≤1.5;
② 1.5<录取率≤3;
③ 3<录取率。由于大部分 学生入学年龄为18或19岁,因此,将学生入学年龄分为两 类:① 18岁及以下;
② 19岁及以上。按前述分类后,中南 大学2009级与2010级能源动力类学生成绩的统计结果如表2 所示。表1 2010年高考全国各省级行政区的985高校录取率 序号 生源地 985高校 录取率(%) 类别 序号 生源地 985高校 录取率(%) 类别 序号 生源地 985高校 录取率(%) 类别 1 上海 5.129 3 12 四川 2.417 2 23 云南 1.418 1 2 天津 4.378 3 13 福建 2.290 2 24 贵州 1.380 1 3 北京 4.069 3 14 宁夏 2.231 2 25 广西 1.259 1 4 吉林 3.814 3 15 黑龙江 2.216 2 26 河北 1.191 1 5 重庆 3.690 3 16 湖南 2.122 2 27 内蒙古 1.177 1 6 辽宁 3.527 3 17 江苏 1.933 2 28 山西 1.168 1 7 青海 3.458 3 18 山东 1.801 2 29 安徽 1.035 1 8 湖北 3.201 3 19 新疆 1.700 2 30 河南 0.987 1 9 海南 3.074 3 20 陕西 1.687 2 31 西藏 0.979 1 10 浙江 2.790 2 21 甘肃 1.646 2 11 广东 2.742 2 22 江西 1.437 1 表2 2009级与2010级能源动力类学生成绩统计结果 类别 18岁及以下 19岁及以上 优 良 中 及格 优 良 中 及格 1类生源地 4 16 20 4 7 32 26 7 2类生源地 10 31 26 4 13 42 48 14 3类生源地 2 5 7 3 1 9 17 3 A代表生源地,B代表入学年龄,C代表成绩等级,则变量A、B、C分别有3、2和4个类别。根据对数线性模型的阶层 特性(C为因变量,A与B为自变量),则可能建立的五个模 型如表3所示。其中,模型1代表三个变量彼此独立,生源地 和入学年龄均与成绩等级无因果关系存在;
模型2-1只有生 源地与成绩等级的交互作用,代表只有生源地与成绩等级间 有关系存在;
模型2-2表示只有入学年龄与成绩等级有关系 存在;
模型3表示生源地和入学年龄都与成绩等级有关系存 在;
模型4表示生源地和入学年龄以及这两者的交互作用都 与成绩等级有关系存在。

(二)模型拟合优度检验结果与分析 在建立三维度列联表的可能模型后,计算每一个模型的 似然比,并进行拟合优度检验,其结果如表3所示。其中, 似然比计算公式为:
式中,eijk为各细格的期望次数;
fijk为各细格的实际 次数;
i为变量A的类别;
j为变量B的类别;
k为变量C的类别。

由表3可知,模型1的似然比值为10.831,在自由度为15 时,显著水平p值为0.764,并未达到0.05显著水平,因此该 模型已经可以拟合表2中的实际数据。同时还可以发现,在 加入了生源地与成绩等级的交互作用和入学年龄与成绩等 级的交互作用后,拟合结果的显著水平分别下降至0.698和 0.645,其拟合精度有所下降,故模型1是最佳拟合模型。该 结果表明,学生成绩基本与生源地和入学年龄无关。

现实生活中普遍认为学生成绩与班级学风密切相关,为了确定此种观点是否正确,本文对能源动力类2010级5个班 的成绩情况进行了统计,其结果如表4所示。从表中可以看 出,2010级整体成绩最好和最差的班级是能动1002班和能动 1001,其成绩为良以上的比例分别为70%和25.71%,相差 44.29%。这与现实生活中两个班级的整体表现相吻合,据观 察,能动1002班的学生普遍学习用功,到课率高,而且该班 会经常组织同学集体上早自习和晚自习,学风好;
而能动 1001班相对来说学风稍差,学生学习不够积极主动,缺课率 相比其他班级也要高一些。由此表明,学生成绩与班级学风 密切相关的观点是正确的。由于学生成绩能反映学生掌握知 识和各种能力的程度,是评价大类招生政策下大学生培养方 案实施效果如何最有力的标志之一,因此,为了提高大学生 的成绩,帮助他们更好的成长成才,学校需要将班级学风的 建设摆在首位,加强对其的建设以完善大类招生政策下的大 学生培养计划。

表3 可能的Logit对数线性模型及其拟合优度检验结果 模型阶层 模型 表示法 似然比 自由度 显著水平 1 lneijk=μ+αA+βB+γC {A} {B} {C} 10.831 15 0.764 2-1 lneijk=μ+αA+βB+γC +αγAC {AC} {B} 6.415 9 0.698 2-2 lneijk=μ+αA+βB+γC +βγBC {BC} {A} 9.668 12 0.645 3 lneijk=μ+αA+βB+γC+αγAC+βγBC {AC}{BC} 5.280 6 0.508 4 lneijk=μ+αA+βB+γC+αγAC+βγBC +αβγ ABC {ABC} 0 0 1 注:αA,生源地的主效应;
βB,入学年龄的主效应;

γC,成绩等级的主效应;
αγAC,生源地与成绩等级的交 互作用效果;
βγBC,入学年龄与成绩等级的交互作用效 果;
αβγABC,生源地、入学年龄与成绩等级的交互作用 效果。

表4 能源动力类2010级各班成绩统计结果 成绩等级 班级 优 良 中 及格 人数 所占比例(%) 人数 所占比例(%) 人数 所占比例 (%) 人数 所占比例(%) 能动1001 2 5.71 7 20.00 20 57.15 6 17.14 能动1002 3 15.00 11 55.00 6 30.00 0 0.00 能动1003 2 8.70 12 52.17 9 39.13 0 0.00 能动1004 0 0.00 11 37.93 17 58.62 1 3.45 能动1005 1 3.45 12 41.38 15 51.72 1 3.45 注:所占比例是指各成绩等级的人数占班级总人数的比 例。

四、结论与建议 本文通过对建立的以成绩等级为因变量、生源地与入学 年龄为自变量的Logit对数线性模型进行分析发现,学生成绩与生源地及入学年龄基本无关,而与班级学风密切相关。

学风好,班级学习氛围好,努力学习的人数也就多,成绩优 秀的人数也越多。所以,加强班级学风建设尤为重要,是提 高学生成绩最有效的途径之一。

针对目前逐渐推广并流行的高校大类招生,笔者认为可 以通过以下两方面的措施来加强学风的建设。

(1)重视入学教育。综合高校工科专业的学生来自全 国各地,他们的学习基础自然各不相同,在付诸相同努力后, 其取得的成效也是各有差异的。有些学生在阶段性成绩出来 后,他们会因为觉得自己已经很努力了但依然赶不上别人而 把原因归结于自己高中的学习基础差。当他们产生这样的想 法后,他们便会失去学习的冲劲,从而造成成绩的下滑。因 此有必要在本科生的入学教育中强调高中的学习基础(与生 源地相关)和入学年龄基本与他们大学里所取得的成绩无关, 而是取决于他们在大学里的学习努力程度。

(2)设立基于班级整体成绩的奖学金名额分配机制。

校级奖学金的班级名额分配不再以班级学生名额为依据,而 是调整为以班级整体成绩(班级加权平均分)为基准,根据 班级整体成绩排名而分配奖学金的名额。班级整体成绩能够 很好的反映各班级学风的好坏,将奖学金的名额与班级整体 成绩挂钩后,每一位同学的成绩都会影响集体的荣誉与利益。

在这种情况下,各班级都会积极主动地制定措施来加强自身 班级学风的建设,学生的自我管理往往能取得更好的效果。参考文献:
[1] 孙华.我国高校招生政策100年述评[J].复旦教育论 坛,2007,5(1):59-64. [2] 高桂芬.教育公平背景下的高校招生政策研究[D]. 北京:首都师范大学,2008. [3] 唐苏琼.高校实施大类招生的利弊分析[J].中国高 教研究,2009,24(1):88-89. [4] 吴兆奇,关蓬莱,吴晓明.考试成绩的Logistic回 归模型研究[J].统计与决策,2007,23(3):21-23. [5] 徐则中.基于变权的学生成绩综合评价[J].中国电 力教育,2010,26(19):50-52. [6] 黄修芝.统计分析方法在成绩分析中的应用[J].统 计与决策,2002,18(3):48. [7] 孙艳,蔡志丹.模糊综合评判法在学生考试成绩评 价中的应用[J].长春理工大学学报(自然科学版),2011, 34(4):178-179. [8] 李瑞兰.层次分析法在毕业设计(论文)成绩评定 中的应用[J].长春工程学院学报(社会科学版),2011,12 (4):156-158,176. [9] 张磊.基于主成分分析法的学生综合成绩分析[J]. 科技信息,2012,29(4):113. [10] 陆梅芳.高校学生成绩综合评价研究[J].池州学院 学报,2010,24(3):121-123.[11] 王保进.多变量分析:统计软件与数据分析[M].北 京:北京大学出版社,2007.