有史以来最糟糕的学术论文有哪些?
好的,这个问题完全让我完全准备好与大家分享一篇令人震惊的文章。
几年前,2014年,在PNAS上发表了不少论文,其中颇有声望,并对此非常重视,声称以女性命名的飓风比以男性命名的飓风造成的破坏更大。
他们声称,只需将飓风的名称从Charlie更改为Charlene,您就可以三倍死亡率从15到45之间。
Whaaaaa ???!?!?
现在,本文的作者使用了真实世界的数据,研究了自1950年以来在美国大陆上所有登陆的飓风,并对飓风造成的死亡人数进行了官方估算,并发现,在观察破坏程度较高的飓风时,飓风的死亡人数与飓风名称的女性化程度(由独立的人群进行评估,不了解研究目的或假设)之间存在强烈且显着的关联:
MFI是飓风名称女性化程度的度量,y轴显示死亡人数。浅灰色表示几乎没有造成破坏的飓风,而黑色表示造成很多破坏的飓风。
Jung等。(2014)女性飓风比男性飓风致命,PNAS 111:24。https://www.pnas.org/content/pnas/111/24/8782.full.pdf
该论文的作者声称,这种影响是由于以下事实:由于固有的性别偏见,人们未能认真对待以女性命名的飓风-人们认为女性的潜在危险性较小,因此人们没有认真对待这种风险,因此,请不要采取认真的预防措施。他们解释了缺乏效果(实际上,倒转,但微不足道,声称在这些破坏性飓风中,由于飓风本身的危险性降低,因此采取的预防措施的影响较小。
这篇论文引发了整个人的愤慨,指出了许多分析错误,从直到1979年只给飓风使用女性名字这一事实开始,再加上随着时间的推移飓风的准备工作有所改善,这引起了严重的偏见。[1](并且,在此情况下值得注意的是,当他们分别查看1979年之前和1979年之后的数据时,其影响失去了所有意义);如果您将大气压力测量值(飓风强度的测量值)放入模型中,那么性别的影响就会消失[2];并且事实是,整个影响是由6个异常值驱动的,其中4个来自1979年之前的时期,这使得这个有趣的巧合(而不是非常不可能的)与一个有趣的巧合(而不是一个有趣的事实)相对应,发生概率为四分之一),主要取决于飓风桑迪和卡特里娜飓风[3]。
但是我想把重点放在这方面。
发表本文的研究人员来自不同大学和系的商业研究,性别研究和统计学的混合,其中至少有一个(第一作者)只是从事商业研究的博士生,并致力于营销策略中的行为影响。他们没有任何研究飓风,气象学,公共安全政策,环境损害或其他任何与人类息息相关的记录。
现在,我想让您想象一下。在什么情况下,来自不同大学的4位与该研究领域无关的作家聚在一起,得出一个先验的假设,即飓风如果有女性名字,只会造成更大的破坏,但前提是它们具有极高的破坏性?在那儿任何什么样的理论或学科会导致人们提出自己的假设?是否有某种框架可以使人们合理地提出这一假设之前在数据中看到它了吗?有什么理论可以解释为什么11点女性气质量表是个好女人,而不是简单地将性别分为男性和女性名字,连续量表或五点量表吗?
这是事后推理的教科书示例。您看到了效果,并找到了解释。那是坏科学。您不会在良好的科学中做到这一点。您有自己的理论,这会导致您题您没有答案,这会导致一个假设,这会导致数据收集和假设检验,这会给您一个问题的答案,并导致您更新理论。如果您从数据开始并回到假设,那么您可以提出一百万个故事中的任何一个。但是你可能想出一个故事随你数据恰好是。您必须从问题开始,然后思考如何回答。
现在,这不一定这意味着该发现本身是错误的,但这意味着您在推理时需要非常非常小心,并且您确实想以尽可能多的方式对它进行交叉验证。
我准备打赌好钱,实际上发生的是某人偶然发现了这个东西,在统计课程中玩弄数据集之类的东西,而且很可能是一个数据集包含的变量远远超过他们发布的变量。他们看到了效果,认为效果很酷,并对其进行了一些尝试,并向统计老师展示了该效果,老师说:“那太好了,为什么不看看我们能否出版呢?”。
因为如果他们在相反的方向上发挥作用,他们可能会很容易地解释这一点。这已经使他们发生I型错误的机会增加了一倍(发现错误的但在统计上有意义的影响)。如果他们在整个样本中都发现了相同的效果,而没有分为高死亡率和低死亡率,那么他们会发表。如果它奏效了,但只有女性气质的中位数分值,而不是11分制,那么他们会接受的。如果他们发现了财产损失而不是死亡的影响,那么他们会发布该结果。
所有这些选择都会影响到所谓的自由程度。统计数据的自由度是分布中有多少个独立值的度量。它主要用于标准统计测试中,作为确定样本分布参数的一种方式,可以反映样本量与统计模型对数据施加的约束数量之间的关系。可以想像,有多少独立的机会可以看到效果,通常,自由度越高越好。
但是,在这里,我们谈论的是研究人员的自由度,这些问题非常严重。大多数标准统计分析都依赖于p值,如果我们的假设是p,则本质上是对我们获得结果的可能性进行概率测量。错误(或更严格地说,如果我们拒绝的假设(通常为零假设或“没有实际影响”为真))。在这类实验中,P值的发布上限通常为0.05,即我们将I型错误的机率限制为5%,即20的1。这是一个合理的风险,我们准备接受5%的已发表论文是错误的,因为从理论上讲,这些错误的发现随着时间的推移会永远消失。
但是研究人员拥有的自由度越高,发生I型错误的机会就越大。我们这里有整个自由度,我上面提到的只是一个很小的选择。所有这些自由度分析了研究人员本来可以运行,并可能已经发布,如果他们的影响做了发现不是很重要-很有可能这是I型错误或错误发现,很快就会爆发。而且我们不知道他们在进行这项分析之前还进行了多少其他分析。不知何故,此结果看起来并不像您可能在此类数据集上进行的第一个测试。
这是究竟为什么选择理论→假设→检验。
如果他们不愿意将任何其他解释变量放入模型中,那么效果将消失。如果他们不愿对多个比较进行更正(我确信他们进行了99.999%的比较),那么效果将消失。如果他们放弃了异常值,效果将消失。
在世界上成为真正影响的机会充其量是微不足道的。
撰写不仅令人尴尬的糟糕论文,而且接受出版也更加令人尴尬的糟糕论文。如果我是对此的审稿人,我会坚持要求a)更好的理论框架,b)更好地考虑造成这种影响的其他原因,以及c)除死亡之外的其他一些衡量其有效性的方法—什么?疏散人员的数量,或其他实际上采取了多少预防措施的措施?
脚注