原创分享：为什么有人说大部分发表的科学研究都是错的？

sp;

此处体现p值操纵（p-hag，或者data dredging， data fishing， data snooping， data butchery 谁知道为啥有这么多名字）p值的一个重要特点是它只对单一指标有效，一旦在实验中比较了一大堆变量，那么变量中出现假阳性的概率就被大大提高了。研究人员可以在实验分析中采取很多手段来主动降低p值。

举个例子，我想要实验豆类对于人心情的影响，那么我可以使用一大堆变量。首先是人，抑郁程度、睡眠时间、自我评价等等，然后是豆类，黑豆、红豆、黄豆、青豆等等。如果足够幸运的话，我也许就能够从中找到一组假阳性的数据并发表论文。标题呢？吃红豆有助于改善抑郁症状，哇啦，又是一篇微博朋友圈的话题来源~

那么p值操纵现象在科学界到底有多普遍呢？人们一般会使用p值分布（p-curve）来判断是否有认为对p值进行了操纵。有研究表明，在大多数学科的公开论文中，p值更多的落在了0.05和0.01附近的区间。

在实验研究中研究人员在收集和分析数据的过程中需要作出很多决定：是否应该收集更多数据？是否应排除某些观察结果？应结合哪些条件，并比较哪些条件？应该考虑哪些控制变量？是否应结合或改变具体措施或同时采取这两种措施？这些实验过程中的操纵，或有意或无意的将实验结果推向了更具有统计学意义的结果。

2015年，社会心理学家，弗吉尼亚州夏洛茨维尔市开放科学中心负责人brian nosek和269位合著者重复了三份心理学期刊发表的98篇原创论文中的报道。他们一共复制了100项已有的心理学研究，发现只有39个研究能得到之前宣称的“显著”结果。在其它学科的类似复制研究中，经济学的通过率是60%，生物医药可能更低。

从这一年开始，科学界开始加大声量呼吁采取一个更加严格的p值来规范学术行为。2015年发表在《科学》上的研究显示使用更小p值（p&amp;lt;0.01）的

本章未完，请点击下一页继续阅读！第5页 / 共6页