科研评价目的与方法的适切性研究的理念分析
科研评价目的与方法的适切性研究的理念分析 近年来,随着我国科技与教育投入不断增长、高等教育 重点建设不断推进,科研论文产出规模快速增长,但无论在 国家层面还是重点建设高校层面,重大原始创新成果或高影 响力科技成果却依然稀少,科技创新对经济发展方式转变的 支撑作用依然不明显,进一步改革科技管理体制的呼声越来 越高。其中又以科研评价方式最受诟病,一方面定量评价方 法被指责为科研泡沫的罪魁祸首,另一方面同行专家评价中 的“黑幕”也不时被揭开,引发对学术腐败的声讨。我国的 政策制定者与学术界对科研评价现状均不满意。但从世界范 围看,科研评价实践至今已有三百多年的历史,科技评价的 理论研究成果也相当丰硕,改革和完善无需“摸着石头过河”, 需要系统的理性反思和重构。一、以科学研究及其成果为指标的评价活动 (一)科学的本质规定性与外在表现形式 科研评价虽以科研成果或科研的表现为基础,但评价 的结果必须与科学的本质规定性相一致。18世纪以前,人们 认为科学是知识。到19世纪末20世纪初,人们认为科学是以 观察方法为基础的关于自然、社会思维的知识体系。[1]科 学的直接目的是获取新知识,只有取得非传统的、前所未知 的成果的活动形式,才能称得上是科研工作。科学学奠基人 贝尔纳(J. D. Bernal)认为,通过详细描述科学的主要特征 来代替科学的定义更为合理。据此,科学可以看做:(1)一种建制,科学已经成为一种广泛的社会职业,科学家的所作 所为就成了科学的一种简易定义;
(2)一种科学方法,即发 现自然界和社会新方向及新规律的各种方法的总和;
(3)一 种累积的科学传统,科学的每一次收获,不论新旧,都要经 受住检验,然后被并入科学总体之中;
(4)一种维持和发展 生产的主要因素。[2] 科学具有真理价值和实用价值。[3]科学作为系统化、 理论化的知识体系,它的真理价值是不言自明的。科学家的 专业任务便是发现一些自然现象的秩序和规律,然后把它们 系统化,并尽量传播出去。科学的真理价值是科学固有的、 基本的价值属性,只能用增加多少独创性的学术价值来衡量。
从科学的实用价值来讲,人们创立理论的目的是回归实践, 满足社会需求,实现理论价值。然而,只有理论凝聚了对客 观事物的真理性认识,才可能回归到实践中。
“不发表即灭亡”(publish or perish),科研进展 和发现需要通过公开发表获得优先权的确认。科研成果按成 果的属性可以分为基础研究(理论)成果和应用研究(技术) 成果。经济合作与发展组织(OECD)《研究与发展调查手册》 认为基础研究成果一般不出售,通常只在科学期刊上发表或 在对其感兴趣的同行中传播。[4]应用研究成果是为改造客 观世界而探索的实用性技术和知识,如新工艺、新产品、新 方法,一般以专利、研究报告、相应的技术资料和实物等形 式体现。(二)以科学研究及其成果为指标的评价类型 “分类评价”已经是科技评价改革的一个共识,但是 对评价的分类逻辑却谈不上清晰。《国家“十二五”科学和 技术发展规划》在“深化科技评价和奖励制度改革”部分提 出:“针对科技计划、机构、人员等不同对象,国家、部门、 地方等不同层次,基础研究、应用研究、科技产业化等不同 类型科技活动的特点,确定不同的评价指标、内容和标准。” [5]这一规定与“目标导向、分类实施”要求一致,也可以 认为它是对科技评价类型的一种划分。但是该条款忽略了科 技成果这一科技评价最直接的对象。
二、科研评价主要方法及其合理性和缺陷 同行评议和科学计量学方法是对科研评价的主要方 法。
(一)同行评议的合理性及缺陷 三百多年前英国皇家学会成立时,最早将同行评议 (Peer review)用在其会刊《哲学学报》的来稿评审中,开 启了由科学家对同行研究工作进行评价的先河。第二次世界 大战前后,一些国家成立的科学资助机构开始邀请外部科学 家参与遴选拟资助项目,如1937年成立的美国癌症研究咨询 理事会、1950年成立的美国科学基金会(NSF)等,并逐渐形 成了稳定的同行评议系统。[6]这较之此前仅依靠内部行政 官员开展决策相比是一个明显进步。国内外学者从强调不同要点出发对同行评议有多种 定义。按照英国博登(M. Boden)教授的观点,同行评议就是 由从事特定领域或接近该领域的专家来评定一项工作的学 术水平或重要性的机制。[7]美国学者楚宾(D. E. Chubin) 等人认为,同行评议是科学家们用来评价科学工作、证明程 序的正确性、确认结果的合理性以及分配稀缺资源(诸如期 刊篇幅、研究资助、认可以及特殊荣誉等)的一种有条理的 方法。[8]我国学者刘明认为,同行评议是针对涉及研究工 作的某项实物,聘请在该领域或相近领域工作的专家,运用 其专业修养,就对象的学术水准及相关价值做出评价的活动, 评价结果是决策的重要依据。[9]从上述不同的定义可以看 出:首先,同行评议是同行对科研工作进行的一种主观评 价;
其次,它是对科学工作程序、学术水平或重要性的评价;
再次,评价结果是决策的依据之一,与稀缺的科技资源分配 联系在一起。
同行评议成为三百多年来科学共同体科研评价的主 要方法,有其合理性。基于科学所具有的与客观真理相联系 的权威地位,从科学研究作为一种独立社会活动产生以来, 无论哲学中的实证主义与证伪主义,还是社会学中的结构功 能主义,均努力在科学与非科学之间划出截然的界线,并使 得科学在政府的政策制定中往往被作为“例外”加以对待, 以维护科学的自主性和坚持科学自治的思想。[10]同行评议 是维护科学制度自主性的方式,并被视为科学自主性的象征。同行评议的方式主要有通信评议和召开评审会评议 两种。在通信评议中,每一项成果有若干专家按照给定的评 分标准打分并给出书面评语,根据通信评议是否隐匿成果署 名和专家评审签名,又可以分为单向匿名评审和双盲评审。
在会议评审中,专家委员会召开会议对送审的成果集中审议, 或对申请人当面答辩并进行评议,进行投票表决。在坚持公 平公正的前提下,同行评议针对每一个对象也有明确的参考 标准,以对同行专家的评价给予提示和引导,便于对不同专 家的评价进行比较。
(二)科学计量学方法的合理性与缺陷 科学计量学指标应用于科研评价始于20世纪60~70 年代。此前,除了同行评议制度外,科研评价没有其他正规 的形式。[12]科学计量学(Scientometrics)或文献计量学 (Bibliometrics)是运用数学和统计学方法对科学活动的产 出(如论文数量、被引数量)和过程(如信息传播、交流网络 的形成)进行定量分析,从中找出科学活动规律性的一门学 科。
科学计量学的开拓者力求探索独立于科学的方式理 解科学。20世纪50~60年代,科学共同体开始意识到科学情 报和文献的数量呈现指数增长。加菲尔德(E. Garfield)和 普赖斯(D. Price)等人提出应该用公开的、正式的科学交流 系统反映科学的发展情况,而这项工作的前提是必须对文献 进行分类和编排索引。1963年“科学引文索引数据库”(Science Citation Index,SCI)诞生。该数据库在文献检 索功能之外,为定量分析科学发展情况提供了便利的数据平 台。一些学者据此以出版物数量和引文数量为科研产出指标, 创立了一系列概念和测度方法。出版物数量和引文数量等指 标的引入,使决策者和科研管理者有了可以利用的直观依据, 也使科学共同体在跨学科范围的质量控制上有了同行评议 之外的客观标准。科学计量学因此逐渐赢得了存在的合理性。
对科研产出的定量评价包括数量和质量两个方面。数 量是个明确的概念,而质量则相对模糊,人们在不同的时间 用不同的名称来描述它,比如“重要性”(significance)、 “影响”(impact)、“效用”(utility)等。加菲尔德认为, 关于质量,有两个方面的认识是确定的:质量是一个论文正 面的品质,它通常反映该科学工作的声望;
质量在同行评议 的内容中扮演着重要的角色。[13]质量是研究工作内在的品 质,是一种客观存在,但它并不是一个具有物理性质的客观 实在物体。莫伊(H. F. Moed)认为,时间将证明某一研究工 作的学术价值和持久性,其历史始于发表的学术成果被阅读 和引用。引用其他学者的文献是学术共同体成员之间的一种 社会行为,一篇论文被引用的次数可以被认为是其“影响”、 “重要性”或者说“质量”的精确测量。[14]一篇文章的引 用率越高,它的影响力就越大。对科学家来说,经常被引用 的研究成果显然比很少被引用的研究成果更为有用。
经济合作与发展组织出版的一本著作总结了评价科学技术活动的主要科学计量学指标,其中包括[15]:
1.论文数量。论文数是对一位科学家、一个实验室、 一所大学、一个国家科研工作成果数量的原始、简化和近似 的测量。论文数只是粗略的科学计量学指标,但只有把握了 这一初始数据,才能获得其他更有意义的相对指标。把论文 总数根据研究人员数量或者经费数量等进行标准化,可以得 到描述生产率的相关指标。但是,简单的论文数量显然不能 成为评价该主体对科研发展贡献的全部。
2.被引次数。在关于学术论文质量的界定中已经提到, 被引次数可以用来测量被引用论文的影响或者质量。引文分 析不仅能给出研究对象科研行为的静态图景,而且可以提供 论文影响的动态趋势。已有研究表明,根据学科不同,一般 从文献发表到随后三至五年的时间跨度内的被引次数能够 最好地满足对论文影响力发展趋势的测量。但是,直接比较 不同研究主体的被引次数是不合适的。某些领域的论文平均 被引次数非常高,有些领域即使是高质量的论文,被引次数 也不高。因此,被引次数必须根据专业和学科的不同进行正 确的标准化。
3.影响因子。影响因子是指某一期刊的论文在特定年 份或时期被引用的频率,是衡量学术期刊影响力的一个重要 指标。一本期刊的声望越高,其影响因子越高,在该期刊上 发表的论文被引用的可能越大。作为一个研究工具,影响因 子帮助解决了科研评价中的很多问题。首先,期刊影响因子每年都可以便利地获得,不需要为获得论文被引用数据等待 很长时间;
其次,它的成本和工作量比引文分析小;
最后, 数据来源可能存在的错误也被最小化。“影响因子不是评价 论文质量的完美工具,但是却没有比它更好的工具。经验表 明,在每一个专业,最好的期刊都是那些论文很难被其采用 的期刊,也是高影响因子期刊,这些期刊在期刊影响因子被 发明之前已经存在。”[16] 5.h指数。美国加州大学圣迭戈分校物理学教授赫什 (J. E. Hirsch)在2005年提出了一个评价科学家个人科研产 出的新指标——h指数。[17]赫什教授指出,如果一位科学 家发表的N[,p]篇论文中有h篇论文被引次数至少为h,其他 (N[,p]-h)篇论文中每篇的被引次数都小于等于h,那么这 位科学家的h指数就是h。h指数越高,科学家的科学贡献和 成就越大。《自然》(Nature)曾专文报导并肯定h指数将对 科学家的科研评价起到重要作用。[18]该指数将科学家发表 论文的数量和被引次数有机地结合起来,引起了广泛关注。
有学者进一步将h指数拓展到对团队、机构的评价,也取得 了积极的成果。
随着互联网的快速发展,文献数据平台建设得到更多 重视,利用科学计量学开展科研评价有了更多数据支持。政 府科技投入的不断增长及对投入效益的重视、对科学共同体 之外第三方评价机构的需要,为科学计量学方法的应用提供 了市场。三、科研评价目的与方法的适切性 基于对科研评价类型的重新划分和对两种主要评价 方法合理性及其缺陷的分析,本文对每一种具体评价类型希 望实现的目标、现行的主要评价方法进行了梳理,并根据目 标与方法之间的匹配情况提出了改进建议。
对单一科研成果的评价,总体上以同行评议为主(见 表2)。这与科研工作的本质规定性和科学共同体追求自治的 传统是一致的,而在涉及资源和荣誉分配的评价类型中,主 管部门行政官员越来越普遍地参与其中,这一点引起行政权 力对学术权力干预的质疑是难免的,但要视官员在评审中的 地位而定;
评审程序一般包括通信或会议评审等多个环节, 形式与程序上保证了评价的公正和公平。
但是,从评价对象与评价方法的适切性来看,以科研 成果为指标的四个层面评价,随着评价对象的扩大,评价依 据的成果数量不断扩大,评价涉及的专业领域也不断扩大, 因此,在方法的采用上,同行专家受时间、精力和专业熟悉 程度的限制,可以发挥的作用越来越小,而计量学的优势则 越来越大,对计量学方法的依赖也应越来越强。如果一项评 价以国家为对象,超越了国界的限制,毫无疑问,具有国际 可比的计量学指标将是唯一有说服力的选择。
四、讨论同行评价与定量评价孰优孰劣的争论由来已久。从本 文的研究来看,方法本身都有缺陷,但又不是科研评价问题 的根本所在。在科研评价的实践中,最重要的问题是根据评 价对象和评价目标选择契合的方法。在过去二十年左右的时 间里,我国SCI论文呈指数增长[20],但重大原始创新成果 依然很少,有学者因此将SCI讥讽为“Stupid Chinese Idea”。
正如李国杰院士所说:“SCI本身不是问题,问题出在我们 滥用。”[21] 定量评价不是单纯的“数数”。科学计量学在论文质 量界定、运用引文分析与h指数开展科研影响力(质量)评价 等方面做了大量的探索和验证工作,取得了丰硕的成果,评 价指标体系日趋成熟,需要注意的问题也较明确。目前,国 内高校和科研单位查询国内外文献数据库也非常便利,已经 具备了在科研实践中广泛借助科学计量学指标的条件。
近年来,科研评价中出现了将同行评价与科学计量学 指标结合起来的新趋势。正如文中所提及的,通过科学计量 学指标获取评价对象的定量信息,为专家做出更合理评议提 供支撑,并制约专家做出有违“常识”的判断,是对单个科 研成果进行公正评价的有效方法。而以科研成果为指标的评 价,随着评价对象的扩大,方法的采用应更多依赖计量学指 标,降低同行评价的作用。