五个理念 [科研评价目的与方法的适切性研究的理念分析]

科研评价目的与方法的适切性研究的理念分析

科研评价目的与方法的适切性研究的理念分析近年来，随着我国科技与教育投入不断增长、高等教育重点建设不断推进，科研论文产出规模快速增长，但无论在国家层面还是重点建设高校层面，重大原始创新成果或高影响力科技成果却依然稀少，科技创新对经济发展方式转变的支撑作用依然不明显，进一步改革科技管理体制的呼声越来越高。其中又以科研评价方式最受诟病，一方面定量评价方法被指责为科研泡沫的罪魁祸首，另一方面同行专家评价中的“黑幕”也不时被揭开，引发对学术腐败的声讨。我国的政策制定者与学术界对科研评价现状均不满意。但从世界范围看，科研评价实践至今已有三百多年的历史，科技评价的理论研究成果也相当丰硕，改革和完善无需“摸着石头过河”，需要系统的理性反思和重构。

一、以科学研究及其成果为指标的评价活动 (一)科学的本质规定性与外在表现形式科研评价虽以科研成果或科研的表现为基础，但评价的结果必须与科学的本质规定性相一致。18世纪以前，人们认为科学是知识。到19世纪末20世纪初，人们认为科学是以观察方法为基础的关于自然、社会思维的知识体系。[1]科学的直接目的是获取新知识，只有取得非传统的、前所未知的成果的活动形式，才能称得上是科研工作。科学学奠基人贝尔纳(J. D. Bernal)认为，通过详细描述科学的主要特征来代替科学的定义更为合理。据此，科学可以看做：(1)一种建制，科学已经成为一种广泛的社会职业，科学家的所作所为就成了科学的一种简易定义；
(2)一种科学方法，即发现自然界和社会新方向及新规律的各种方法的总和；
(3)一种累积的科学传统，科学的每一次收获，不论新旧，都要经受住检验，然后被并入科学总体之中；
(4)一种维持和发展生产的主要因素。[2] 科学具有真理价值和实用价值。[3]科学作为系统化、理论化的知识体系，它的真理价值是不言自明的。科学家的专业任务便是发现一些自然现象的秩序和规律，然后把它们系统化，并尽量传播出去。科学的真理价值是科学固有的、基本的价值属性，只能用增加多少独创性的学术价值来衡量。

从科学的实用价值来讲，人们创立理论的目的是回归实践，满足社会需求，实现理论价值。然而，只有理论凝聚了对客观事物的真理性认识，才可能回归到实践中。

“不发表即灭亡”(publish or perish)，科研进展和发现需要通过公开发表获得优先权的确认。科研成果按成果的属性可以分为基础研究(理论)成果和应用研究(技术) 成果。经济合作与发展组织(OECD)《研究与发展调查手册》认为基础研究成果一般不出售，通常只在科学期刊上发表或在对其感兴趣的同行中传播。[4]应用研究成果是为改造客观世界而探索的实用性技术和知识，如新工艺、新产品、新方法，一般以专利、研究报告、相应的技术资料和实物等形式体现。(二)以科学研究及其成果为指标的评价类型 “分类评价”已经是科技评价改革的一个共识，但是对评价的分类逻辑却谈不上清晰。《国家“十二五”科学和技术发展规划》在“深化科技评价和奖励制度改革”部分提出：“针对科技计划、机构、人员等不同对象，国家、部门、地方等不同层次，基础研究、应用研究、科技产业化等不同类型科技活动的特点，确定不同的评价指标、内容和标准。” [5]这一规定与“目标导向、分类实施”要求一致，也可以认为它是对科技评价类型的一种划分。但是该条款忽略了科技成果这一科技评价最直接的对象。

二、科研评价主要方法及其合理性和缺陷同行评议和科学计量学方法是对科研评价的主要方法。

(一)同行评议的合理性及缺陷三百多年前英国皇家学会成立时，最早将同行评议 (Peer review)用在其会刊《哲学学报》的来稿评审中，开启了由科学家对同行研究工作进行评价的先河。第二次世界大战前后，一些国家成立的科学资助机构开始邀请外部科学家参与遴选拟资助项目，如1937年成立的美国癌症研究咨询理事会、1950年成立的美国科学基金会(NSF)等，并逐渐形成了稳定的同行评议系统。[6]这较之此前仅依靠内部行政官员开展决策相比是一个明显进步。国内外学者从强调不同要点出发对同行评议有多种定义。按照英国博登(M. Boden)教授的观点，同行评议就是由从事特定领域或接近该领域的专家来评定一项工作的学术水平或重要性的机制。[7]美国学者楚宾(D. E. Chubin) 等人认为，同行评议是科学家们用来评价科学工作、证明程序的正确性、确认结果的合理性以及分配稀缺资源(诸如期刊篇幅、研究资助、认可以及特殊荣誉等)的一种有条理的方法。[8]我国学者刘明认为，同行评议是针对涉及研究工作的某项实物，聘请在该领域或相近领域工作的专家，运用其专业修养，就对象的学术水准及相关价值做出评价的活动，评价结果是决策的重要依据。[9]从上述不同的定义可以看出：首先，同行评议是同行对科研工作进行的一种主观评价；
其次，它是对科学工作程序、学术水平或重要性的评价；

再次，评价结果是决策的依据之一，与稀缺的科技资源分配联系在一起。

同行评议成为三百多年来科学共同体科研评价的主要方法，有其合理性。基于科学所具有的与客观真理相联系的权威地位，从科学研究作为一种独立社会活动产生以来，无论哲学中的实证主义与证伪主义，还是社会学中的结构功能主义，均努力在科学与非科学之间划出截然的界线，并使得科学在政府的政策制定中往往被作为“例外”加以对待，以维护科学的自主性和坚持科学自治的思想。[10]同行评议是维护科学制度自主性的方式，并被视为科学自主性的象征。同行评议的方式主要有通信评议和召开评审会评议两种。在通信评议中，每一项成果有若干专家按照给定的评分标准打分并给出书面评语，根据通信评议是否隐匿成果署名和专家评审签名，又可以分为单向匿名评审和双盲评审。

在会议评审中，专家委员会召开会议对送审的成果集中审议，或对申请人当面答辩并进行评议，进行投票表决。在坚持公平公正的前提下，同行评议针对每一个对象也有明确的参考标准，以对同行专家的评价给予提示和引导，便于对不同专家的评价进行比较。

(二)科学计量学方法的合理性与缺陷科学计量学指标应用于科研评价始于20世纪60～70 年代。此前，除了同行评议制度外，科研评价没有其他正规的形式。[12]科学计量学(Scientometrics)或文献计量学 (Bibliometrics)是运用数学和统计学方法对科学活动的产出(如论文数量、被引数量)和过程(如信息传播、交流网络的形成)进行定量分析，从中找出科学活动规律性的一门学科。

科学计量学的开拓者力求探索独立于科学的方式理解科学。20世纪50～60年代，科学共同体开始意识到科学情报和文献的数量呈现指数增长。加菲尔德(E. Garfield)和普赖斯(D. Price)等人提出应该用公开的、正式的科学交流系统反映科学的发展情况，而这项工作的前提是必须对文献进行分类和编排索引。1963年“科学引文索引数据库”(Science Citation Index，SCI)诞生。该数据库在文献检索功能之外，为定量分析科学发展情况提供了便利的数据平台。一些学者据此以出版物数量和引文数量为科研产出指标，创立了一系列概念和测度方法。出版物数量和引文数量等指标的引入，使决策者和科研管理者有了可以利用的直观依据，也使科学共同体在跨学科范围的质量控制上有了同行评议之外的客观标准。科学计量学因此逐渐赢得了存在的合理性。

对科研产出的定量评价包括数量和质量两个方面。数量是个明确的概念，而质量则相对模糊，人们在不同的时间用不同的名称来描述它，比如“重要性”(significance)、 “影响”(impact)、“效用”(utility)等。加菲尔德认为，关于质量，有两个方面的认识是确定的：质量是一个论文正面的品质，它通常反映该科学工作的声望；
质量在同行评议的内容中扮演着重要的角色。[13]质量是研究工作内在的品质，是一种客观存在，但它并不是一个具有物理性质的客观实在物体。莫伊(H. F. Moed)认为，时间将证明某一研究工作的学术价值和持久性，其历史始于发表的学术成果被阅读和引用。引用其他学者的文献是学术共同体成员之间的一种社会行为，一篇论文被引用的次数可以被认为是其“影响”、 “重要性”或者说“质量”的精确测量。[14]一篇文章的引用率越高，它的影响力就越大。对科学家来说，经常被引用的研究成果显然比很少被引用的研究成果更为有用。

经济合作与发展组织出版的一本著作总结了评价科学技术活动的主要科学计量学指标，其中包括[15]：
1.论文数量。论文数是对一位科学家、一个实验室、一所大学、一个国家科研工作成果数量的原始、简化和近似的测量。论文数只是粗略的科学计量学指标，但只有把握了这一初始数据，才能获得其他更有意义的相对指标。把论文总数根据研究人员数量或者经费数量等进行标准化，可以得到描述生产率的相关指标。但是，简单的论文数量显然不能成为评价该主体对科研发展贡献的全部。

2.被引次数。在关于学术论文质量的界定中已经提到，被引次数可以用来测量被引用论文的影响或者质量。引文分析不仅能给出研究对象科研行为的静态图景，而且可以提供论文影响的动态趋势。已有研究表明，根据学科不同，一般从文献发表到随后三至五年的时间跨度内的被引次数能够最好地满足对论文影响力发展趋势的测量。但是，直接比较不同研究主体的被引次数是不合适的。某些领域的论文平均被引次数非常高，有些领域即使是高质量的论文，被引次数也不高。因此，被引次数必须根据专业和学科的不同进行正确的标准化。

3.影响因子。影响因子是指某一期刊的论文在特定年份或时期被引用的频率，是衡量学术期刊影响力的一个重要指标。一本期刊的声望越高，其影响因子越高，在该期刊上发表的论文被引用的可能越大。作为一个研究工具，影响因子帮助解决了科研评价中的很多问题。首先，期刊影响因子每年都可以便利地获得，不需要为获得论文被引用数据等待很长时间；
其次，它的成本和工作量比引文分析小；
最后，数据来源可能存在的错误也被最小化。“影响因子不是评价论文质量的完美工具，但是却没有比它更好的工具。经验表明，在每一个专业，最好的期刊都是那些论文很难被其采用的期刊，也是高影响因子期刊，这些期刊在期刊影响因子被发明之前已经存在。”[16] 5.h指数。美国加州大学圣迭戈分校物理学教授赫什 (J. E. Hirsch)在2005年提出了一个评价科学家个人科研产出的新指标——h指数。[17]赫什教授指出，如果一位科学家发表的N[，p]篇论文中有h篇论文被引次数至少为h，其他 (N[，p]-h)篇论文中每篇的被引次数都小于等于h，那么这位科学家的h指数就是h。h指数越高，科学家的科学贡献和成就越大。《自然》(Nature)曾专文报导并肯定h指数将对科学家的科研评价起到重要作用。[18]该指数将科学家发表论文的数量和被引次数有机地结合起来，引起了广泛关注。

有学者进一步将h指数拓展到对团队、机构的评价，也取得了积极的成果。

随着互联网的快速发展，文献数据平台建设得到更多重视，利用科学计量学开展科研评价有了更多数据支持。政府科技投入的不断增长及对投入效益的重视、对科学共同体之外第三方评价机构的需要，为科学计量学方法的应用提供了市场。三、科研评价目的与方法的适切性基于对科研评价类型的重新划分和对两种主要评价方法合理性及其缺陷的分析，本文对每一种具体评价类型希望实现的目标、现行的主要评价方法进行了梳理，并根据目标与方法之间的匹配情况提出了改进建议。

对单一科研成果的评价，总体上以同行评议为主(见表2)。这与科研工作的本质规定性和科学共同体追求自治的传统是一致的，而在涉及资源和荣誉分配的评价类型中，主管部门行政官员越来越普遍地参与其中，这一点引起行政权力对学术权力干预的质疑是难免的，但要视官员在评审中的地位而定；
评审程序一般包括通信或会议评审等多个环节，形式与程序上保证了评价的公正和公平。

但是，从评价对象与评价方法的适切性来看，以科研成果为指标的四个层面评价，随着评价对象的扩大，评价依据的成果数量不断扩大，评价涉及的专业领域也不断扩大，因此，在方法的采用上，同行专家受时间、精力和专业熟悉程度的限制，可以发挥的作用越来越小，而计量学的优势则越来越大，对计量学方法的依赖也应越来越强。如果一项评价以国家为对象，超越了国界的限制，毫无疑问，具有国际可比的计量学指标将是唯一有说服力的选择。

四、讨论同行评价与定量评价孰优孰劣的争论由来已久。从本文的研究来看，方法本身都有缺陷，但又不是科研评价问题的根本所在。在科研评价的实践中，最重要的问题是根据评价对象和评价目标选择契合的方法。在过去二十年左右的时间里，我国SCI论文呈指数增长[20]，但重大原始创新成果依然很少，有学者因此将SCI讥讽为“Stupid Chinese Idea”。

正如李国杰院士所说：“SCI本身不是问题，问题出在我们滥用。”[21] 定量评价不是单纯的“数数”。科学计量学在论文质量界定、运用引文分析与h指数开展科研影响力(质量)评价等方面做了大量的探索和验证工作，取得了丰硕的成果，评价指标体系日趋成熟，需要注意的问题也较明确。目前，国内高校和科研单位查询国内外文献数据库也非常便利，已经具备了在科研实践中广泛借助科学计量学指标的条件。

近年来，科研评价中出现了将同行评价与科学计量学指标结合起来的新趋势。正如文中所提及的，通过科学计量学指标获取评价对象的定量信息，为专家做出更合理评议提供支撑，并制约专家做出有违“常识”的判断，是对单个科研成果进行公正评价的有效方法。而以科研成果为指标的评价，随着评价对象的扩大，方法的采用应更多依赖计量学指标，降低同行评价的作用。