多重因素分析在大学评估指标整合中的价值体系构建|总量指标因素分析

多重因素分析在大学评估指标整合中的价值体系构建

多重因素分析在大学评估指标整合中的价值体系构建 一、引言 对大学进行评估,主要是对大学办学水平,包括教育 质量和办学方向进行综合评价。通过评估完善现代大学制度, 提升大学的科研实力,以学科评估培育优势学科和优化学术 队伍,以绩效评估激励大学之间的公平竞争和促进特色办学, 以社会评估促进政府管理职能转变,等等。[1]从课程评估、 学科评估到绩效评估和社会评估,可见教育评估的形式是多 元化的,其宗旨和功能亦具有多样性。然而要充分发挥教育 评估与评价的作用,一方面需要根据评价目标构建合理的评 价指标体系[2],另一方面则需要能将各种评估指标加以有 效整合的统计方法的支撑[3]。

多重因素分析(Multiple Factor Analysis, MFA)是 基于主成分分析(Principal Components Analysis, PCA)的 一种统计方法,与传统的因素分析不同,传统的因素分析方 法是将所有变量作为一个整体来进行因子提取,用较少的因 子来表征数据的特征。当所收集的数据既有连续变量又有分 类变量或是明显属于不同维度的数据时就不适宜采用传统 的因素分析方法。多重因素分析通过将变量分成几个子群, 对每个子群和总群分别进行主成分分析,进而考察子群与总 群之间和各个子群之间的关系,为深入了解事物(变量)之间 的关系提供了一种有效的数据分析方法,鉴于多重因素分析 方法能够同时处理具有不同属性的变量,它就成为同时分析(simultaneous analysis)或联合分析(joint analysis)的 重要方法之一。[4][5] 本文将着重介绍多重因素分析方法的原理,并通过实 例来说明多重因素分析的应用,希望能够丰富教育评估与评 价的数据分析手段,进而拓展教育评价等相关领域的研究空 间。

二、多重因素分析方法的原理 多重因素分析方法特别适合于对一批观测对象测量 了许多指标的情况。由于不同的变量其测量空间或数据域不 同,简单地将所有变量合在一起进行分析,正如非标准化的 主成分分析会导致具有较大变异的变量组群对统计结果具 有决定性作用一样[6],对所有变量进行整体分析的愿望则 无法达成。而在样本量较少时,传统的因素分析方法又会面 临样本适当性问题。尽管高尔(Gower)提出采用高尔系数将 所有变量转换至[0,1]区间来解决非标准化问题[7],但 包括随后对高尔系数的改进[8],针对的都是单独的变量。

主成分分析中变量标准化的过程相当于将不同的变量赋予 不同的权重后再进行分析。而当变量属于不同组群,需要将 一个组群的所有变量作为一个整体(或同时)来考虑,其关键 在于找到能够反映各个变量组群变异度的权重系数(相当于 主成分分析中的标准差)。这正是多重因素分析方法有效地 将隶属于不同组群的变量整合在一起的核心思想所在。图1 多重因素分析结构示意图 图2中,全局空间可被视作所有局部空间的集合,通 过将局部空间中的观测对象投射到全局空间的主轴上就能 够直观地比较对象之间的关系。当观测对象在不同变量组群 上具有相似空间结构时,映射点会彼此靠近。通过投射还可 以考察观测对象在局部空间与全局空间的表征点之间的距 离。类似地,还可以考察和比较变量组群(指标)之间的关系、 组群内的变量与所属组群间的关系。当变量组群具有相似空 间结构时(观测对象之间的距离在不同的局部空间具有相似 性),且局部空间与全局空间的距离越近,表明某变量组群 与整体结构在某个映射轴上的相似性越高。

图2 局部空间在全局空间中的映射关系 注:i为某观测对象;
表示观测对象i在变量组群j所 构成的空间中的表征。

三、多重因素分析方法的应用 我们以表1中的数据为例来阐述多重因素分析的具体 步骤(多重因素分析可以使用R软件中的FactoMineR包或者 xlSTAT中的MFA模块来实现)。表1中观测对象共有8个(即I= 8),测量指标可以分为两个变量组群(J=2):人才培养和科 学研究。前者包括研究生培养和本科生培养两个变量;
后者 包括自然科学研究和社会科学研究两个变量(以表示变量组 群所包含的变量数目,本例中;
用表示第j个变量组群中第k个变量的第i个观测值,用表示第j个变量组群所构成的矩 阵)。

第一步,变量的标准化和归一化处理后,使变量满足 公式(1)和(2)。

第二步,对矩阵和进行奇异值分解。两种实现方法, 一是通过Matlab中的函数[U,S,V]=SVD(X)进行矩阵的 奇异值分解,其中U和V为标准正交阵,返回值S中的对角线 元素即为矩阵的奇异值;
二是通过Matlab中的函数[COEFF, SCORE, LATENT]=PRINCOMP(X)进行主成分分析,其中COEFF 为因子载荷矩阵,SCORE为因子得分矩阵,返回值LATENT中 为矩阵的特征值,根据特征值和奇异值的关系,计算出奇异 值。上述两种方法均可以得到两个变量组群对应的首奇异值 分别为1.380和1.116。

第三步,利用每个变量组群的首奇异值对每个变量组 群加权处理后构建出全局空间(见公式(3))。

第四步,对变量总群进行主成分分析,在矩阵的奇异 值分解中有如下关系:
Z=USV′ (4) 接下来通过公式(5)计算各观测对象在全局空间的因子得分,其中w为加权处理系数,一般情况取观测对象数目 的倒数。研究者可以根据需要对不同观测对象设置不同权重 对应于加权矩阵,可记为。

(5) 所得前两个因子如图3所示,两个主成分对方差解释 的贡献率在99%以上。第一主成分可能主要反映高校的综合 实力②,其排名顺序依次为:清华大学>北京大学>浙江大 学>南京大学>上海交通大学>复旦大学>中山大学>中 国科学技术大学,与表1中高校排名顺序基本一致。第二主 成分可能侧重于高校的性质③,北京大学、南京大学、中山 大学和复旦大学侧重于文科;
而清华大学、上海交通大学、 中国科学技术大学和浙江大学侧重于理工科。从中还可以看 出中山大学与复旦大学比较接近;
在所分析的8所高校中北 京大学独占一个象限,说明其与其他高校之间存在较大的不 同。

图3 观测对象在第一和第二主轴上的分布 第五步,确定局部空间与全局空间之间的映射关系, 对公式(5)作如下改写:
其中T为局部空间(变量组群)的数目。将变换后的局 部空间叠加到全局空间上得到图4,从中可以发现一个有趣 的现象,偏文科的4所高校与偏理工科的4所高校在人才培养和科学研究上呈相反的表现形式,与均匀磁场的偶极子的排 列类似。在主成分F2上,以北京大学和清华大学为例,2所 高校就人才培养而言(北京大学G1与清华大学G1之间的距 离)较科学研究(北京大学G2与清华大学G2之间的距离)差别 要小。换言之,北京大学和清华大学在人才培养上差别不大, 主要的区别可能是因为前者侧重社会科学研究,而后者侧重 于自然科学研究导致的。再由其他文理科高校间类似的相反 极性可以看出,主成分F2主要反映的是社会科学研究与自然 科学研究的分离。从图4中还可以进一步看出中山大学与复 旦大学之间在人才培养上的差异大于科学研究上的差异;
浙 江大学与清华大学的科学研究上的差异要高于两者在人才 培养上的差异;
南京大学更接近于前8名高校的平均水平。

图4 局部空间到全局空间的映射 图5 变量与主成分的相关圆 局部分析中两个变量组群各自抽取出两个主成分,从 与整体分析的两个主成分间的相关(图6)可以看出人才培养 和科学研究的第一主成分均与整体分析的第一主成分相关 较高;
而两者的第二主成分则与整体分析的第二主成分之间 的相关互为正负。回顾表2可知,局部分析人才培养的第一 主成分能够解释其95.28%的变异,科学研究的第一主成分 能够解释其变异的62.3%,因此整体分析的第一主成分中涵盖了对人才培养的绝大部分解释,与图5的分析一致。整体 分析的第一主成分能解释科学研究的大部分变异,其余则分 解于整体分析的第二主成分,这进一步印证了整体分析第二 主成分与科学研究的密切联系。综合图5和图6可以看出局部 分析中人才培养的第二主成分尽管对变异的解释程度较低, 但与整体分析中的第二主成分存在较高的关联度(负相关), 图5中自然科学研究和研究生培养与整体分析中的第二主成 分亦呈负相关,这可能与研究生参与高校科研,特别是自然 科学方面的研究有关,直接考察研究生培养与科学研究之间 的相关就会发现,与自然科学研究之间的相关为0.97;
与社 会科学的相关为0.46,本科生培养与自然科学和社会科学研 究之间的相关均为0.77左右。因第二主成分主要反映高校科 学性质的不同,换言之,研究生培养对自然科学研究和社会 科学研究具有一定的区分力,而本科生培养则表现不明显。

图6 局部与整体分析主成分间的相关圆 图7为变量组群的表征,表示某变量组群中所有的变 量整合作用,并且显示与整体分析主成分间的关系。很显然, 变量组群“人才培养”和“科学研究”与第一主成分存在显 著相关,同时也隐含了变量与该因素间具有高关联(参照图 6);
对于第二主成分,科学研究与其存在较高的关联,而人 才培养与其近乎零相关,这似乎与前面指出的“研究生参与 高校科研,从而提升了研究生培养(作为人才培养的一部分)与整体分析中第二主成分之间关联度”的说法相矛盾。但整 体分析第二主成分与自然科学和社会科学研究的“区分”有 关,尽管研究生培养指标对高科研性质的区分有一定作用, 但本科生培养指标却贡献较小,两者合在一起后可能削弱了 人才培养指标对高校科研性质的区分度。

图7 变量组群的表征 四、结论 目前多重因素分析方法主要在食品偏好、体育训练和 生物学的研究中有所应用,但在其他领域特别是国内的应用 研究还不多见,由于多重因素分析能够同时分析异质性的变 量组群,这样借助多重因素分析就可以考察相同被试不同评 估内容之间的关系,且这种关系不只是停留在外显变量之间, 还可以进一步考察潜变量之间的关系,由于并非所有的产、 学、研指标都可以量化,所以教育的综合评估、人才的选拔、 心理健康的评定等领域有着广阔的应用前景;
另外正如文中 所考察的高校之间的差异一样,多重因素分析还可用于比较 对象间的差异,同时通过叠加表征能够有效地比较对象间差 异的侧重点或者不同对象所具有的优势,同样的思路可以延 伸到诸如教师评价、学科发展与管理以及区域发展诸领域的 研究中。总之,多重因素分析不但可以加深我们对研究结果 的理解,而且也是进行探索性数据分析,从而构建合理有效 的结构方程模型的有力工具。