科学的产出与认同：一项关于科学奖励机制运行的研究-语言与人工智能重点实验室

评论观点

您当前的位置 : 首页 >> 其他栏目 >> 评论观点 >> 正文

科学的产出与认同：一项关于科学奖励机制运行的研究

发布时间：2018/03/04 14:44:55

STEPHEN COLE和JONATHAN R. COLE

哥伦比亚大学

摘要

文章研究了120名大学物理学家的研究产出的数量和质量之间的关系。虽然这两个变量是高度相关的，但是一些物理学家创作大量没有意义的文章，另一些则创作量少却有重要意义。本文研究了物理学家社群对这些研究出版的不同模式的反应。在获得认可方面，科学产出质量比数量更为重要，这些认可的形式包括获得奖项、被卓有声誉的院系所聘用、在同行中间享有广泛的知名度，等等。奖励制度的运作鼓励创造性科学家更加高效率，将不那么有创造力的物理学家的精力转移到其他工作方面。一流的院系产出的数量和质量之间产生的相关性要高于较弱的院系。

科学社会学家已经研究过科学家研究发表的数量和质量之间的关系，二者在几个科学领域都呈现出较高或中度的相关性。科学家发表论文的数量和质量之间存在一定的相关性。鉴于这样的相关性并不是百分之百，也就意味着存在一些论文发表数较少的科学家被评价为为该学科领域做出巨大贡献，而一些高产科学家被评价为贡献较少。

这就提出了科学家社群是怎样回应不同的研究发表模式的问题。就像“不发表，即死亡”的现象所暗示的，发表了很多无用论文的科学家将会获得奖励，而论文量很少但是质量却很高的科学家得不到认可？奖励体系能否有效奖励突出贡献的科学家？

这个论文展示的数据，是对于大学物理学家的研究，评价物理学家究竟因为论文数量还是质量而得到的奖励。我们还得到一个方法论上的副产品，一个测量科学产出质量的更好的指标。

本研究中的一组数据包括120位大学物理学家的科学产出。这120位物理学家是按照年龄、所在大学院系的声誉排名、产出和重要奖励来进行分层抽样抽出来的。这些样本，很适合一些研究问题，但是不具有代表性，它过多代表了很杰出的科学家。收集的统计量有：发表论文的数量、著作引用数量、院系在全国的排名、获奖数量。第二个数据库是用来测量样本所获奖励的声望以及这些物理学家在全国物理学家群体中的知名度。我们给2036个在最近五年颁发了2个以上博士学位的院系工作的物理学家发了问卷，回收了1281份。

由于我们想首先调查120名物理学家发表的研究的数量和质量之间的关系，我们必须两个都有可靠的测量方式。作为科学产量的衡量标准，我们采用《科学摘要》中列出的每个物理学家的科学论文总数。评估科学出版物的“质量”的问题更加困难，长期以来一直是科学社会学进步的主要障碍。我们中的大多数人都尤为赞同产出量不等于质量的想法，然后却继续使用出版物数。似乎没有可行的办法来衡量大量文件的质量或大量科学家的总工作。几年前的科学引文索引（SCI）的发明提供了一种新的工具，可以对个别科学家在某些科学领域的贡献的重要性进行可靠和有效的测量。从1961年开始，SCI列出了越来越多的期刊上出现的所有科学论文的引文。因此，可以计算在1961年和某些后来年份，由物理学家对任何一篇论文或一组论文的被引数。被引的数量被认为是代表每个领域的论文的相对科学的意义或“质量”。

这一假设和程序有一些支持性证据。在对科学输出测量的最全面的研究中，Kenneth E. Clarkasked请一个心理学专家小组列出了对他们的领域做出最重要贡献的心理学家。接着研究被选次数与其它体现其卓越的指标间的关系。与被选次数最高度相关的度量是此人文章的期刊被引数（r=.67）。Clark总结说被引数是心理学家研究工作“价值”的最佳可用指标。

考虑这种措施的另一种验证证据。诺贝尔奖获得者总的来说可以被认为是对他们在物理和生物科学领域的进步做出了巨大贡献。获得诺奖的科学家屈指可数，因此可能有一些同样做出巨大贡献的知名科学家没有获奖。，他们可能贡献了很多。然而，作为一个群体的获奖者可以被安全地假定已做出杰出贡献。诺贝尔奖获得者（在1955年和1965年之间获得物理奖）的毕生工作的SCI的平均引用数为58，1961年引用的其他科学家的文章平均引用5.5次。只有1.08％的二十五万的科学家出现在1961年的SCI收到58或更多的引用。。这一例证进一步支持了使用被引数作为已发表作品的科学价值指标的合理性。

在分析发表论文数量和被引数之间的关系前，我们应该考虑使用被引数作为质量度量的两个问题。高产的科学家可能每篇论文被引次数都不多，但这些被引次数累积到一起却和一些论文少但被引数高的科学家的被引总数等量齐观，因此可能一个人论文的被引总数并不是一个完全独立的质量指标。因此，我们决定采用每个物理学家被引次数最多的三篇文章的被引次数之和作为他最好文章影响力的指标。因为在物理学中的研究成果通常不采用单个论文的形式，而是在一系列论文中呈现，我们使用年度产出的被引数，而不是单一的论文被引数作为我们的计量单位。

使用引用作为质量指标的另一个问题是科学的极端同时性。现在物理学的论文的半衰期不超过5年；也就是说，任何一年的至少一半的引用是在前五年出版的作品。我们在比较论文时必须考虑到这一点，在不同时间哪些物理学家做出了最重要的贡献。为了方便这种比较，我们已经开发一种衡量引文的技术。因为《物理评论》是物理学领先的杂志，我们使用本期刊作为加权技术的基础。M.M.Kessler的研究发现，在1957年的《物理评论》中出现的所有引文中有70％是在前五年内出版的；17％的文章出版在6 - 10年前；9％在11〜20年前；只有4％的文章出版在20多年前。从这个分布来看，如果我们要比较目前具有最大影响的研究和过去不同时期的最大影响的研究，我们可以发现需要加权引文。因此，从Kessler，我们判断在过去五年内发表的物理研究年在今天被引用的可能性是20年前的研究的17倍以上（即70/4）。根据这个模型，我们分配了以下权重：

文章引文20年或以前：= 17

文章引文11-19年前：= 8

文章引文6到10年前：= 4

文章引文0-5年前：= 1

在本文中，一位物理学家在他的三个高被引年份里研究的加权引用的平均数量将被用作他的研究的质量的量度。

undefined

注释：文中“量”指论文发表数量，数量“大”是指论文发表30篇以上，30篇以下视之为数量“小”；“质”指物理学家在其三个高产年份被引量（已加权），质量“高”是指被引数超过60，小于60则视为质量“低”。

在这些测量的基础上，表1显示了由120名物理学家生产的研究论文的“数量”和“质量”之间的关系。这个表达到两个目的：首先，它表明，正如从早期的调查，这些物理学家发表的研究的数量和质量之间具有相关性（r=0.72）。第二，在本文的其余部分，我们持续的感兴趣的是，它生成四种类型的物理学家，大致描述科学论文的生产及其质量（通过被引数来评估）。类型I，构成33％的这个类型，是多产物理学家，所产论文在质和量的双重意义上，都是富有成果的（即，研究成果经常为本领域的其他人使用）。在另一个极端，类型IV，占样本的37％，是相对沉默的物理学家：他产生相对较少的论文，从被引数来看，他们对物理学领域没有多大影响。其他两种类型提醒我们，出版论文的数量并不总是与他们的质量相关。类型II是物理学中无差别的大规模生产者：在这个样本中12％的人出版了相对大量的几乎没有结果的论文。作为一种类型，这些人似乎考虑的是论文合适发表，而不太在乎它们的科学意义。最后，有类型III可能被描述为完美主义者：这些物理学家发表相对较少，但他们发表的内容对这个领域有相当大的影响。这种类型可能包括选择不公布自己（可能是错误的）判断的论文的物理学家; 没有达到足够高的标准。因此，他们不是多产的研究者类型I。

很明显，这四种类型只是依据这儿的特殊数据的粗略估计。需要更大的样本并通过更精确的标准来识别极端类型，例如，IV型的沉默物理学家是那些已经公布不超过2或3篇论文以及多产的I型，例如，100篇或更多。同样可以说任意引用次数的截止点的影响大样本同样解决任意被引数截至点问题。此外，更大的样本将使我们能够识别中间和过渡类型。所有这一切都是显而易见的，并且是我们在这里只粗略近似处理的四种类型的基础。但是，正如我们将很快看到的，即便是近似值也可以让我们进一步进行本文的研究:：分析识别记录在科学奖励机制中的四种类型的物理学家。分析科学奖励体系中与这四种类型物理学家一致的认可机制。

科学的奖励机制

正如默顿在前一段时间指出的，科学制度已经发展了一套奖励机制旨在给予“认可和尊重那些最好地履行他们的角色的（科学家），对那些给通知识库通识知识库已经做出真正原始原创性贡献的人。在科学中这种认可的分级形式是许多的，其中，我们想要研究三种，因为它们分布在几种类型的研究物理学家。以这种方式，我们转向检查奖励制度实际上是如何运行的。

第一种认可形式是授予荣誉奖和荣誉团体的会员资格。来自最顶尖的20个物理院系的成员在《美国科学人》（1960版）上列出了150多个不同的奖项。共有98个这样的奖项，从高达5到低的1的声望值，由样本中近1300名物理学家排名。问卷中还包括了两个题项：物理学家可以报告他们听说了这个奖项，但没有足够的声望信息来排名，或者他们从来没有听说过这个奖项。通过获取由物理学家样本评分等级的平均值来计算声望分数；。奖项是否具有知名度是由足够了解它而列举它的物理学家所占百分比决定。98个奖项中大部分都是不为物理学家所熟悉的。只有22能被一半的人排序，42个能被五分之一的人认识。显然，很大一部分获奖者引以为傲的所获奖项是地方性荣誉奖项，即便不是国家奖励制度的一部分，但仍可以在当地环境中赋予声望。对于这次调查，我们默认为超过80％的物理学家未知的奖项为完全狭隘的，并被排除在进一步分析之外。这些荣誉奖励的分布的几个方面是显而易见的。在42个奖项满足国家知名度的标准中——至少20％的物理学家是熟悉的——其中两个是最突出的。当然，他们是诺贝尔奖（具有可能5.0的声望分数4.98）和国家科学院的成员（4.22）。更重要的是，这些最高水平的物理学家垄断所有其它最负盛名的奖项（得分4.01或更好）。在我们的样本中，没有一位物理学家是单独获得一个费米奖，皇家天文学会金牌，阿尔伯特爱因斯坦奖章，弗里茨伦敦奖，并且没有一个法兰西学院或皇家学会的一个成员，不是诺贝尔奖得主或国家学院的成员。然而，我们解释道，事实是，表明物理学中最高领域的奖项被严格限制在相对较小的物理学家群体中。

undefined

我们预测，荣誉奖项的总数同科学成就奖励的相关性和最高奖项同科学成就奖励的相关性一致。这样我们就可以在四种类型的物理学家之间探讨荣誉奖励的分布了。获得荣誉奖励和在荣誉学会中成为成员的机会是比较少的，因此无法给与较低层次的科学成果认可。即使在1960年物理学20个部门（在助理教授或更高级别）雇用的632名物理学家中，只有三分之一列出了奖项（美国科学人）。科学工作的第二种形式更常见的认可形式，是在最高级别的院系授予职位。一位物理学家可能永远不会梦想赢得诺贝尔奖或成为国家学院的一员，但可能仍然渴望在一个主要院系的担任职位。通过Allen Cartter最近对86个物理系进行的研究，我们可以确定我们四种物理学家的论文通过就职不同级别的院系而得到奖励的程度。

第三种奖励是得到同行的认可，根据Alan Waterman的观点，这种奖励机制更为多见，并且较之于其他正式的认可形式如奖项或奖金，对于科学家的动力更大。也即，研究得到科学界同行的关注。引用可以让科学家了解自身的研究在该领域被应用的情况。在这篇论文里，我们引入了另一种更确切的测量手段。1300个物理学家在问卷中被问到，描述对120个物理学家著作的熟悉程度。如果他们读过该物理学家的著作，那就说明他们听说过他，我们就用知道著作的样本的百分比作为科学家声望的范围。这就是我们测量四种类型科学家奖励的第三种指标。

科学角色表现的类型和奖励机制

确定了科学的奖励机制中的组成之后，我们着手核验我们样本中的物理学家的研究认可的程度和种类。表3表明，研究的数量和质量与所有三种认可形式是相关的。但是研究质量与三种认可形式的相关性比研究数量与三者的相关性更一致和更高。实质上，这是物理学奖励机制第一个更大的具体指示承认物理学家的研究质量比其纯粹的数量这是第一个具体的证据显示物理领域的奖励机制的运作是给予高质量以认可而不是纯粹的高产量。。从程序的角度来看，表3表明，尽管只使用已发论文作为一项科学研究意义的尺度不会存在很大误差，但是使用被引数更佳。

在表4中，我们通过按照四种类型的研究物理学家正式奖励转向识别的程度。我们应该首先指出，该表中的百分比的绝对大小在某种程度上看是抽样框假象，抽样框选择的120个物理学家的以及用于对他们的研究进行分类的任意截断值。一些在这里分类为相对“低”的数量和质量的物理学家可能产生比一般的物理学家更多和更好的论文。发现的意义并不在于。说这些绝对百分比显示我们的特定样本群体中的物理学家们通过奖励获得了认可，它是在于百分比之间的差异的模式。这样看来，故事是相当清楚的。研究的质量，而非纯粹的量，才是最常获得荣誉奖项认可的。虽然他们发表的文章比多产I型物理学家少，但是第三类（“完美主义者”）物理学家很容易被认可，这两个质量生产者比第二类大量论文重复雷同的批量生产者更有可能获得奖励。

undefined

基于表4中的数据得出的结论由多元回归分析的结果支持。正如我们已经指出的，奖励数量和论文生产数量之间的零阶相关系数为0.46。因此，论文数量释了19％的奖项差异。当通过被引用数测量的工作质量带入等式中时，百分比方差解释率增加到45％。如果我们调换引入自变量的顺序，质量单独可解释44%的差异值。再当我们引入数量时，解释的方差量不增加。因此，一旦我们知道物理学家的研究的质量，我们不需要知道他们的研究量来预测他们的“卓越”。然而，如果我们只知道他们的研究的数量，了解该研究的质量情况对我们估计其是否“卓越”是很有帮助的。（顺便提一下，还应当注意，回归分析提供了比基于交叉列表的那些更可靠的发现，因为它们基于未分组的连续数据，而交叉列表中的类别取决于任意切割点。）

第二种奖励是主要学术院系的职位。相信“不发表即灭亡”法则的人认为发表文量决定了岗位任命，即便是在一流大学的，发文很少的科学家，尽管很重要，但是也会不如发表了很多无用论文的大批量生产者。但是，表5显示，我们的论文不支持这种观点，第三种发表很少但质量很高论文的完美主义者最可能就职于顶尖院系（全国排名前十），甚至比第一种类型还多。但是第二种大批量生产者要远远不如发表质量很高论文的人。最顶尖的院系，倾向于依据研究质量而不是数量。

undefined

关于我们第三种认可形式的数据——熟悉某人的研究——通过调查近1300名物理学家对我们120人的主要样本的知悉程度来获得,我们称之为“声誉范围”。如表6所示，相比大规模生产者II型物理学家，完美主义者III型物理学家更可能被同行知道。在所有三种认可形式中，声誉范围受数量影响最大。I型物理学家仍然比III型更可能被认识，II型物理学家比IV型更可能被认识。这正是我们所预测的。其他两种认可的形式——接受奖励和在顶级部门担任职位——相比声誉范围，与科学家的工作的积极评价联系更加紧密。虽然声誉范围与质量高度相关（r = 0.63），但是大规模生产者通过持续暴露而不是使他的工作被积极评价，来扩大自己的声誉范围。

高生产者至少有一部分论文很可能会被阅读，但他的影响范围很难超越他已有的读者圈子。我们可以把没有读过这位物理学家任何论文的物理学同行们分成两组：听说过他的人和没有听说过他的人。听说过该物理学家的人数占所有不直接熟悉他的工作的人的百分比为他的“声誉能见度”。因此，如果100个物理学家从来没有读过某位物理学家的作品，但这其中有50个物理学家至少听说过，那么他的声誉可见度是50％。正如我们在表7中所看到的，质量超过了声誉可见度的数量质量对于“声誉可见度”的影响超越了数量。无论产出数量如何，已经获得研究成果的物理学家的声誉远远超出了国家物理学界的范围。表7还表明，大规模生产者（II型）可能只有物理学家才能注意到，因为物理学家由于其专业而不得不查看他的一些工作。最后，第四类比较“沉默的物理学家”实际上是为国家物理学群体所未知的。

undefined

从表4-7中的数据可以看出，物理学科中的奖励系统似乎，让这三种认可方式都以 “有意义”的研究优先，无论其高产与否。已发表的研究的数量很少用于此类等效识别。在这种意义上，物理学科的奖励系统接近于常表达的规范，“研究的卓越是真正重要的。”

数据还证实，高生产者倾向于发表更多相应的研究。至少有两个基本因素在工作量和质量之间产生高度相关性。第一，从事很多研究在某种意义上是生产高质量工作的“必要”条件。正如第一位科学家提醒我们的，从事重要科学的研究是一个风险企业，充满不确定性。很少可以保证研究计划会产生重要的结果，并且很快能做好。物理学家会尝试一个想法，有时它会有效，但更多的时候它不会。极少有科学家对关键问题的眼光敏锐到将自己的能量聚焦于对这些问题的研究上。即便是顶尖的科学家也必须进行许多实验，才得到一个令人兴奋的结果。我们认为，除非物理学家进行大量尝试（即具有高生产力），否则他做出重大发现的概率将很低。

第二个解释“质量和数量高度相关”的理由是奖励体系驱使有创造力的科学家多发表而将创造性弱的科学家的精力分散到其他领域。在最后一部分，我们将分析奖励体系通过什么样的过程来使得质量和数量的具有相关性并强化了这种相关关系。

通过奖励机制加强研究活动

大多数物理学家都是在主要院系得到训练的，1300个科学家中56%的人都是在15所顶尖院系中得到博士学位，44%的人来自顶尖的十所。我们假设，他们已经将这些院系流行的规范内化了。在拿到学位之后（或更早），这些年轻的物理学家考虑发表论文，不论是独立或者作为研究团队中的一员，他们的论文要先通过评价体系。最初关于著作的审阅是来自期刊的引用对论文的第一次检视由期刊审阅人完成。比如最好的期刊《物理评论》中有其独特的引用论文的审校系统。审校标准很高，甚至有名的科学家的手稿有时也被拒绝。一旦论文通过这种筛选并公布，接着然后由国家和国际物理学家群体进行非正式评估。有的有时它被忽略，几乎没有引用它，或者有的它可以被认定识别为重要贡献并且在许多其他公开的研究中使用。如果奖励制度，通过引证的形式，确实影响研究生产力，我们假设物理学家对这些早期研究的更大的共同认可，他们将继续生产的可能性越大。我们假设如果他们没有奖励，几乎没有科学家将继续从事研究。

为了验证测试这个假设，我们跟踪了样本中的120个物理学家样本中的出版模式的顺序。我们将它们分为两大类：在博士后五年内出版三篇或更多论文的早期生产者，以及其他出版不到三篇的人。然后，我们审查了这些早期出版物的集体反应整体反馈，用通过在同一五年期间内收到的引用数量来衡量。最后，我们比较了在这些早年收到接受不同数量的认可的物理学家的后期生产力。结果显示在表8中。四分之三的这些物理学家在博士后不久出版了至少三篇论文，开始了他们的职业生涯。有很少的“晚期发布者后起之秀”：84只30个物理学家中只有五个开始慢慢地提高生产力高（每年平均1.5或更多的论文）。

接下来，考虑那些通过多产来开始他们的研究生涯的物理学家之间的出版模式的顺序。他们早期工作收到的引用越多，他们越是继续生产。只有30％的受访者接受0-25加权引用，继续保持高生产力，而76％的受访者中有超过100个引用。这些研究结果表明，当科学家的工作被他的同行使用，他被鼓励继续研究，当一个科学家的工作被忽视，他的生产力将不了了之。当然，也许正如也在做质量工作的早期初学者所示，如果经常使用他们的研究，即使他们没有得到承认，也会继续生产。

这些发现表明了第二种发了很多但是被忽视的文章的类型很可能是从其他方式获得奖励的。因为，正如我们在前期提出和此刻更明确的看到的一样，该体系中的标准并没有均匀地渗透于每一个学术领域。表9显示了研究产出的质量和数量之间的相关性在水平高院系比水平较低4院系的要强。在最好的10所院系中，85%的研究者完成了较高质量的论文，而水平中等和较弱的院系比例是62%和45%。

表9的结果可以用至少两种方式来解释。好的院系选拔更有能力发现重要研究问题的研究者，这造成表9的分布。一般来说，他们对这个领域有更大影响。而较弱的院系，没有在科学进步的中心，更倾向于招收那些不处于科学前沿的且能力没有那么强的研究员，他们的论文也没有那么重要。一些人在这些机构中继续发表论文，在这样的机构中，大量论文发表量对于职位提升是很有帮助的，因此他们发现招录想要继续做研究的教员是很困难的。因此，在较弱院系的奖励体系经常发生目标置换，可以用“不发表即灭亡”来表现。

表9的发现也可以解释为由于科学界不完美的交流网导致的。这种假设科学信息的流动是单向的，是从主要科学中心流向较小的科学中心。在较弱院系的物理学家更容易知道较强院系科学家的工作，而较强院系科学家通常不知道较弱院系的。因此，同样质量的论文，在不同排名院系被生产，也会得到不一样的认可和引用。进一步说，顶尖物理期刊是由控制了顶尖排名院系的同一批人“掌控”的。这些期刊很容易发表“自己人”的研究，并且他们的学生也倾向于引用这些人的著作。这导致了学术价值相当却出自不同层次院系的论文的引用率有差异。

为了进一步研究，我们追踪了两个线索。首先研究处于科学社会结构中不同位置的科学家的著作可见度的不同。比如，在高排名院系中的科学家是不是对于较低排名院系中质量很高的研究熟悉？再测量相反的情况。第二，这种奖励体系有没有对科学家的研究一视同仁地看待，不论其所在院系的排名？

关于这一点，一些初步证据表明在奖励系统运行中的产生院系差异。当我们将荣誉奖作为因变量并将研究质量（加权引用）引入回归等式时，我们可解释方差的44％（如我们之前所述）。当我们将院系的等级导入方程时，我们将方差解释率提高到为53%。这表明，同等可比的工作，高级别院系的人们比排名较低的院系的高质量研究更易以奖励的形式得到承认。（当质量保持不变时，院系等级和奖励数之间的部分相关性为0.41。）这个结果至少部分源于高级院系物理学家更广泛的声誉，因为当声誉范围被引入院系之前的回归方程时，后一个变量仅解释了奖励数量的方差的额外的4％。这些初步结果的影响需要探求。

结论

研究的数量和质量之间是有关系的。但在著作的数量和质量之间存在不一致性，质量在物理学家获得奖励上是更重要的。奖励的形式有三种：荣誉奖励、任职于高排名院系的、研究为全国范围的物理学家所知。一定程度上，奖励体系会使有创造力的科学家继续努力发表论文，从而强化了已经观察到的数量和质量之间的相关性。然而，一些证据初步表明，奖励体系并不是对所有学术院系的科学家一视同仁。在名望较低的院系，出版物的数量是晋升的指标，在高排名的院系里，物理学家高质量的研究才会被奖励。

上一篇：提案||政协委员王灿龙：将语言学设置为一级学科下一篇：中办、国办印发《关于分类推进人才评价机制改革的指导意见》