区域教育质量监控下的学校效能评价研究以武汉市H区为例
区域教育质量监控下的学校效能评价研究以武汉市H区为例 提高教育质量是区域教育发展和学校自身发展的永恒 课题。然而,如何界定教育质量,如何监控和评价学校的教 育质量,却是一个具有争议性的话题。传统的教育质量监控 和和对学校效能的评价通常是以学生在某一个阶段的学业 成绩水平作为指标,但这一指标及其衍生出的优秀率、升学 率等指标对于那些生源较差的学校显然是不公平的。如果仅 对这些指标进行监控和评价,可能导致的结果是:(1)学 校会尽可能地争取优质生源,而非尽最大努力促进学生的学 业进步;(2)学校的努力程度难以识别,进步较大但最终 成绩仍然达不到最好的学校会被忽视,会损害这些学校和教 师的士气;
而因生源较好所引起的最终成绩较好但并未取得 多大进步的学校会被过度重视,会让这些学校和教师洋洋自 得[1];
(3)家长会仅仅根据升学率和优秀率等指标来择校, 造成学校发展的“马太效应”,不利于区域内的教育均衡发 展。因此,利用学生的进步而非学生在关键考试中的原始分 数来评价学校的绩效,则被公认为是一种更加公平和精确的 学校评价方法。
一、学校效能评价的概念及其意义 学校效能评价,指的是利用区域教育质量监控所获得的 数据与信息,在不同时段对区域内各学校、班级、教师的教 育教学质量(增值)发展进行细致科学的评价工作。实施学校 效能评价,具有以下意义:(一)保障和提高教育质量 (二)促进义务教育均衡发展 义务教育阶段的工作重点已经从数量普及转移到高水 平均衡发展上,而以往的教育评价方式已经不能适应当前以 及未来相当长一段时间的工作需要。过去的教育督导和学校 评价关注学生的最终学业成绩,不考虑学生的起点,只关注 学生的终点;
不考虑学生的“入口”状态,只关注学生的“出 口”状态;
不评价教育的过程,只关心最终的结果[2]。其 后果必然会引起学校之间不正常的生源争夺战,这尤其不利 于那些地理位置较差和生源质量较低的薄弱学校。区域教育 质量监控和学校效能评价尽管也关注考试成绩,但更关注学 校在促进全体学生(而非仅仅为成绩好的学生)学业进步方 面的作用。学校效能评价能识别出哪些学校是真正通过努力 工作来提升学业成绩,哪些学校是仅仅凭借生源。这特别能 调动薄弱学校的积极性、激发薄弱学校的发展潜能,同时能 警醒“优质”学校不能凭借生源优势而不思进取,总之,对 于促进区域内义务教育高水平的均衡发展十分有利。
(三)合理评价教师工作绩效。
教育、卫生等部门的绩效管理在公共部门管理中占有十 分重要的地位,但实施却较之企业部门有难度,主要难度就 在于必须制定明确的绩效目标和绩效衡量指标[3]。通过教 育质量监控和学校效能评价,我们能够提供至少一项绩效目 标和衡量标准——学生成绩的进步。通过严格的数据分析,我们可以量化地识别出在一段时间内区域内哪些学校(教 师)促进学生进步方面要优于其他学校(教师),这正好可 以与当前基础教育财政主要由地方政府负担的财政供给制 度相匹配起来。从某种程度上这项工作还能够部分地化解当 前教师绩效工资制度实施过程的一些争议问题。
二、学校效能评价在区域内的实践探索 增值评价是近年来在国际上广受欢迎的学校效能评价 方法[4]。其基本思想是:在一个管理区域内,各个学校的 生源差异较大,学生的最终成绩受其自身的初始成绩影响最 大,因此不能仅仅通过学校的最终考试成绩来评价学校。在 评价学校的努力程度时,要考虑到生源质量。通俗来说,就 是“从入口看出口、从起点看进步”。
学校效能增值评价是一种复杂的统计技术,但其原理并 不复杂。如图1 所示,所有学生的入学成绩和最终成绩之间 存在着显著的正相关关系,利用此关系,可绘制出学生成绩 的预测线。如果学生最终成绩在预测线之上,说明这位学生 相对于其入学成绩类似的同学来说取得了进步,因此其增值 为正;
如果最终成绩在预测线之下,则说明其成绩有了退步, 其增值为负。同理,学校的进步和退步也可以通过此种方法 表现出来,只不过要利用更复杂的统计方法罢了,其基本原 理是类似的。要注意的是,我们不能用学校的平均分数来做 增值评价,因为平均分会掩盖学校内部不同水平学生的进步 或退步情况,存在统计学中“生态谬误”的风险。图1 增值评价示意图 我们以武汉市H 区2012 届初中毕业生为研究对象,收 集了他们在初中三年中6 次统考(含2012 年6 月中考)的 成绩数据。通过专门的数据连接软件,将所有学生的历次考 试成绩连接起来,形成了极为理想的学生纵向成绩数据库, 为进行质量监控和学校、班级效能评价打下了良好的数据基 础。
在学生成绩数据之外,我们通过学生问卷调查,了解到 学生的家庭背景、班级教学等方面的信息。问卷调查共涉及 到2012 届全部25 所初中的111 个班级,合计4523 名学生。
这些信息让我们在建模中尽可能剔除了学校之外因素(尤其 是学生家庭背景)对学生成绩的影响。此外,我们还通过教 师问卷调查,了解了教师对于各种评价方法的看法。问卷调 查共涉及到任教2012 届学生班级的167 名教师。
在数据分析中,我们运用了国际上通用的学校效能评价 建模方法——多水平模型[5]。利用不同的模型设置,我们 估算了各所学校在3 年中的增值,即各个学校学生成绩进步 的排名。此外,我们还对学校各学科以及学科教师的增值进 行了排名,以细化学校效能的维度,从而获得了更多的信息。
(一)学校总分增值的评价 我们以每个学生的语文、数学、英语三科的总分作为学 生成绩的测度,以计算学校的总体增值。学生出口成绩的测 度为中考,入口成绩的测度为第一次全区统考,即七年级第一学期的期末考试(理论上来说,用七年级刚入学时的摸底 测试成绩更能代表学生的初始能力,但由于区内部分学校并 未参加这次摸底考试,并且此次考试不是集中改卷,所以测 试的信度和效度无法保证,故不使用)作为学校生源质量的 指标。为了让入口成绩和出口成绩能进行直接比较,我们对 所有的分数进行了标准化处理,即进行比较的是学生成绩在 全区学生中的相对位置。
从图2 中可以看出,总分增值排在前3 位的学校是:R 校 (18)、M 校(13)、U 校(21)。增值排在后3 位的学校 是:B 校(02)、C 校(03)、J 校(10)。图中竖线与红 色线重合的学校(4,14,17,15,9,20,19,01,08)的增值与全 区学校的平均增值无统计上的差异,可以视为增值相等。
要提出的是,学校增值与学校的生源质量无明显的关联。
从图3 中可以看出,E 校(05)生源较好且增值也较高(第 一象限)。R 校(18)、X 校(24)、M 校(13)、U校(21) 属于生源较差,但增值较高的学校(第二象限)。第三象限 中,学校的生源质量和成绩增值均低于全区平均水平,如W 校 (23)、S 校(19)、J 校(10)等。第四象限中的学校生 源质量好,但增值较低,如C 校(03)、B 校(02)、Y 校 (25)等。
值得我们特别关注的是那些生源较差,但取得了较高增 值的学校(第二象限)。增值高,表示这些学校进步大,但 这些学校的进步仍然难以让学生跃升到全区最前面去,所以仅凭中考成绩是难以反映这些学校的努力程度,而增值评价 则能让我们成功地识别出这些学校。
从表1 中,我们可以比较各所学校的生源质量、中考成 绩和成绩增值的排名情况。可以看出,只有取得重大进步的 学校才能获得较高的增值,如R 校的生源质量只能排到倒数 第四(第22 位),但中考成绩能排到全区第九,短短3 年 就超过了13 所学校,因此其增值最高。生源质量非常好的 学校,只要中考成绩稍有下降,其增值就会排到末尾(如V 校 生源最好,但中考成绩下降了1 位,增值就排到全区倒数第 五)。因此,增值评价标准对于生源好的学校是比较苛刻的, 对于落后的学校只要有进步,就能从增值上反映出来。因此, 我们既要关注中考成绩,注重结果评价;
同时也要引入增值, 作为过程评价的指标之一。这两个方面结合起来,就能更好 更公平的去评价学校。国际上一些国家已经开始通过同时公 布重大考试成绩和学校的增值排名,来形成对学校,尤其是 那些生源较差学校的正面激励,同时也能引导学生家长去选 择那些增值较高的学校,以防止学校发展的“马太效应”出 现。
(二)学校分学科增值的评价 总分的增值能反映学校在三年内总体的努力程度,但不 能反映各科教师的相对贡献,因此有必要分学科对学校增值 进行评价。国外的经验告诉我们,学校的增值并不能均摊到 各个学科。有时候,整个学校的增值可能都是由一门学科贡献的,这一科目的教师效能特别高,而其他学科则存在着拖 后腿的情况。这种情况只能通过分学科增值才能反映出来。
从表2 中可以看出,只有少数学校的三门学科在增值排 名上比较一致,如R 校(三科增值均排名第一)和J 校(三 科增值排名均为22、23 名)。而其他学校的各学科增值排 名并不一致。其中,D 校尽管数学和英语增值靠前,但语文 增值排名倒数(21 位),拖了总分增值的后腿。F 校的英 语增值排名靠前,但数学增值排名靠后,在一定程度上反映 了两科教师努力程度的不同。L 校虽然语文增值排名居中, 但数学和英语增值靠前,因此总分增值也排名靠前。T 校的 语文增值排名则远远超出其数学和英语的增值排名。我们认 为,在对学校总分进行增值排名的同时,也应根据学科对各 科增值做出评价。对增值进行科目细化,有利于更科学地开 展评价。
(三)教师增值的评价 由于很多学科教师身兼2 个班级的教学,所以不宜对班 级的增值再进行分学科的分解。但通过“学生—班级—教师” 连接起来的数据库,我们可以对各学科教师的效能进行增值 分析。同样,如果教师未从初一开始任教此班,那么计算出 来的教师增值是现在这个教师和以前教师增值的近似加权 平均值。
图4 展示了全区2012 届学生的81 位语文教师的增值, 其中置信区间上方绿色数字为班级,下方橙色数字为学校代码。从图4 中可以看出,R 校1 班;
E 校1班;
R 校3 班;
E 校6 班、2 班、5 班;
U 校1 班;
Q 校10 班;
E校5 班、F 校 3 班的语文教师效能排在全区前10 位。值得一提的是,其 中有些教师身兼其他班级的语文课,教师的增值也是根据其 所教的多个班级(而不仅仅是一个班级)的学生进步计算出 来的。
排在后全区语文教师增值后10 位的所教的班级是:B 校 3 班;
W 校1 班;
P 校2 班;
W 校2 班;
V 校4 班;
S校2 班;
V 校5 班;
I 校3 班;
F 校6 班;
P 校4 班。值得注意的是, 教师的增值是个估计值,带有95%的置信区间,其中置信区 间重合的教师增值在统计上没有显著差异。与红线重合的教 师增值与全区平均增值没有显著差异。
其他学科教师的增值分析类似于前述对于语文教师增 值的分析。
三、学校效能评价有待进一步探讨的问题 在数据分析中,我们运用了国际上通用的学校效能评价 建模方法——多水平模型。利用不同的模型设置,我们估算 了各所学校在三年中的增值,即各个学校学生成绩进步的排 名。此外,我们也可以运用同样的方法,对学校内各个班级 以及各个学科教师的增值进行了排名,识别出在促进学生进 步方面高效能的班级和教师。同时,还可以通过定性的个别 访谈,发现高效能学校、班主任和学科教师的主要特征。
在识别出高效能的学校、班级和教师后,对他们给予一定的绩效奖励,并在区域教育信息网上将这些进步排在前列 的学校予以公示,宣传那些“增值”大的学校,促进公众对 于区域内学校的了解;
同时,对于那些“增值”小的学校予 以重点扶持,包括为教师提供有针对性的培训,加强学校管 理,改善教育教学,提高教学质量。
本次数据是基于2012 届毕业生的考试成绩进行测量, 如果能采取跟踪分析法,对以后的每一届毕业生进行跟踪监 测,这样我们的评价才更具连续性,为教育主管部门、学校、 学科教师提供丰富的、有价值的、可以进行公平比较的教育 教学质量数据,最终从整体上提高区域教育质量,促进教育 均衡发展。
学校效能增值评价的运用,虽然能够更加科学公正地评 价学校效能,但是对于生源质量较好的学校,其取得进步的 难度的确要比生源质量差的学校大得多,因而也受到了这些 学校的质疑。因此,增值评价的分析结果也需要地方教育管 理部门进行综合考虑和慎重使用,真正为提高区域教育质量 提供有力的依据。
———— 注: [1] Pam Sammons. School Effectiveness and Equity: MakingConnections [M]. CfBT, 2007. [2]萨丽·托马斯.运用“增值”评量指标评估学校表现 [J].教育研究,2005(09).[3]效能评估:激活学校的“试金石”[N].中国教育 报,2009-03-23(3). [4]马晓强,彭文蓉,萨丽·托马斯.学校效能的增值评价 ——对河北省保定市普通高中学校的实证研究[J].教育研 究,2006(10). [5]杜屏,杨中超.农村初级中学学校效能的增值性评价 ——基于我国西部五省调研数据的实证分析[J].北京师范 大学学报(社会科学版),2011(06). 邮编:430070 430074