梅斯医学MedSci APP
医路相伴,成就大医

应该调低P值,还是干脆抛弃“统计显著性”?

Tags: 医学人文      作者:医咖会 更新:2019-08-18

近年来,关于“statistical significance(统计显着性)”和P值的争议一直存在。前段时间,《Nature》发表了一篇题为《scientists rise up against statistical significance》的文章,《美国统计学家》也专门发布了一个针对P值的专刊。

近日,《欧洲心脏病杂志》(EHJ)发表了一篇专家观点,再次针对“统计显着性”发表了自己的观点,到底是降低P值,还是抛弃统计显着性,我们来看看这位专家持怎样的态度。

几十年来,论文中都基于p<0.05来声明具有“统计显着性”。然而,很多专家也发现,有些论文中的统计学意义和临床意义并不相符,p值的滥用问题很严重。2016年,美国统计协会(ASA)曾针对这些误用发表了共识(表1)。

表1. ASA关于P值的主要声明要点



方法学专家在核心问题上意见一致,但在许多关键细节上仍然存在分歧,更重要的是,在如何最好解决“统计显着性”问题上也存在分歧。理想情况下,所有学科都需要全面了解统计工具、注意事项和如何正确解读结果。然而,提高所有学者、临床医生甚至普通大众的统计素养需要长期的努力。

最常见和严重的误解是,“P< 0.05”就表示效果“是真的”,甚至结果“很重要”。目前大多数达到P<0.05的研究,并不太可能反映真实的因果效应,更不用说重要效应。大多数研究都存在偶发性或偏倚,可能很少真的具有临床重要意义且值得采取措施。

还有一个误解是,P≥0.05就必然意味着“不是真的”或“不存在差异”。小型研究可能就无法发现真正的差异性。如果偏倚削弱了估计值,即使是大型研究也可能会遗漏一些真正的差异。在某些领域,尤其是社会科学领域,有人认为不管差异多么小,也总是存在差异的。还有另一种学派主张,大多数经过检验的关联和效果很可能实际上是无效的。

前段时间,有学者针对文献都陷入“统计显着性等同于P< 0.05”这一困境,提出了两个解决办法。

其中一个建议是保留统计显着性,但要增加达到统计学显着性的难度 [PMID:30980045 ]。对于仍使用P< 0.05这个阈值的研究,该建议将统计显着性阈值改为P<0.005。这降低了“假阳性”,但增加了“假阴性”。如果“假阳性”确实相比“假阴性”是一个更严重且常见的问题,那么这种方法看起来合理。调低p值可能会给研究人员带来压力,迫使他们进行大规模(或许研究设计会更细致)的研究。

如果一个研究是评估不太可能发生的事件,P< 0.005可能仍然不足以保证真实性。此外,还有人担心,许多研究人员可能会更加偏激,强行使P值达到<0.005。尽管如此,这种使用P<0.005的方案还是比较简单,可以应用于已发表的和未来的研究,也可以迅速去除大量没有研究价值、没有临床意义的方向。

另一个解决办法是完全放弃“统计显着性”和任何“显着/非显着”的概念[PMID:30894741]。这种禁止“统计显着性”的概念但又保留P值的建议可能是不明智的,如果没有任何预先制定好的规则,任何研究人员都可能以对自己有利的方式来解释任何结果。

虽然“零假设”显着性检验常常被误用,但如果正确使用,按照预先制定的分析计划来处理研究问题,仍然是很有价值的,可以帮助排除掉“无意义”的结果。这在很大程度上取决于事先制定整个排除计划时考虑得有多仔细。对于许多临床研究,例如随机试验,是需要有预先定好的规则的。

EHJ文章中报告P值的情况

本文作者检索了欧洲心脏病杂志(EHJ)2018年发表的所有文章,检索出摘要中使用了“significant”这个词的文章。最终有62篇文章被纳入。只有11篇论文使用该词来指代临床意义,3篇论文明确写的是统计显着性(statistical significance),49篇论文是通过一个假设的统计推断间接提到了“significant/significance”。

62篇论文的摘要中,37篇至少报告了一个p值,62篇总共报告了141个p值,其中86%的p值<0.05。96%的摘要中至少有一个p值<0.05。

在P< 0.05的论文中,36%会写结果具有“提示性(suggestive)”,除非P< 0.005,否则不会提到统计显着性(statistical significance)。

许多P值是用截断值(cut-offs)来报告的,而不是精确值,如141篇论文中有13篇为P< 0.01, 30篇为P< 0.001, 7篇为P< 0.0001。目前多数人认为,用截断值表示p值不是最佳办法,应该给出准确的数字。例如,当P<0.01时,目前尚不清楚这意味着P=0.009还是p=0.0000000001。

总之,对统计显着性的阈值要求更加严格,会使大多数临床研究论文受益。更有争议的在于是否应该完全禁止统计显着性。不管怎样,更加考虑研究的临床意义,研究开展之前做好计划,使用合适的统计方法,可以帮助改善临床研究。

参考文献:Eur Heart J. 2019 Aug 14;40(31):2553-2554.

doi: 10.1093/eurheartj/ehz555.

来源:医咖会
版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言
小提示:本篇资讯需要登录阅读,点击跳转登录

相关推荐

移动应用
medsci.cn © 2020