JAMA：P值的过去，现在和未来

Tags: p值 JAMA 作者：医咖会更新：2018-11-07

近年来，类似“p值已死”的观点总要时不时地跳出来，刺激一下大家。但是立马丢了它，该怎么衡量我做的研究结果到底“显不显著”，能不能见刊？也成了一大问题！也不能赖研究者一味追求“p<0.05”，环境使然！这个环境（推崇p<0.05）什么时候开始的呢？今天带着大家换个角度看看过去20多年来P值的变化。

1、越来越流行的p值

虽说p值用的越来越多，如果论文没几个p<0.05的结果都不好意思跟同行打招呼，但是p值有多流行，恐怕没几个人能说清楚。

Chavalarias等人[1]基于超过1200万篇MEDLINE摘要和80万篇PubMed Central（PMC）全文（包含摘要）的自动文本挖掘，系统阐述了过去25年（1990-2015年）生物医学文献中的P值变化。该研究已在JAMA上发表。　　

研究者发现，随着时间的推移，越来越多的科学论文在研究结果中报告了P值。MEDLINE摘要中P值出现比例从1990年的7.3%上升到2014年的15.6%，其中随机对照试验高居首位，摘要中报告P值的比例达54.8％(95％CI, 54.0％ - 55.6％)；Meta分析增长速度最快，在过去的二十年中几乎增加了三倍，达到35.7％(95％CI, 34.5％-37.0％)。　　

有P值的摘要和全文中，96%会至少报告1个“统计学显著”的结果，报道最多的情况是“p<0.05或p<0.001”。　　

研究者进一步对其中796篇摘要和99篇全文进行了人工阅读，发现P值出现的比例分别为15.7%和55%，而仅有2.3%摘要和4%全文报告了置信区间，针对不同类型效应值的报告情况差别较大（见下表）。　　

2、“后p<0.05时代”

走在十字路口的今天，对于P值的讨论也愈发激烈，正如Chavalarias等人在论文中提到的，一方面，P值仍然被一些研究者错误地作为衡量临床效应大小的标准，而事实上两者并没有什么一一对应的关系；另一方面，P值对样本量极为敏感，对于动不动就有几十万，几百万样本量的研究而言，获得一个P<0.05的结果变得轻而易举。

针对这种过分强调P值的情况，美国统计学会（ASA）在2016年发布了一个关于统计意义和P值的声明，提出了6条使用和解释P值的原则，但是，令人遗憾地是，这份声明更多地是“原则”层面上解读，并没有“操作”层面切实可行的方法。　　

对于P值目前存在的问题，最容易也是最直接的方法莫过于降低我们传统认为的“显著性水平”——P<0.05，当然这个方法实际上早就应用到临床研究中。

例如，在全基因组关联分析（GWAS）中，为了控制总的Ⅰ类错误发生概率，显著性阈值通常考虑设定为P<5*10-8，来确保发现的关联具有较高的可重现性，并且在新的种群中进行测试时，这些关联也可以保持一致。尽管人类基因组的极端复杂性，但是需要比较SNPs的量级却是可以大致估计的，相应的显著性阈值也可以有针对性进行调整。

但是，对于大多数其他类型的生物医学研究而言，这里面的复杂程度以及潜在的多重比较其实很难理清楚、讲明白的，带来的问题也是显而易见——你没办法确定一个合适的显著性阈值。

当然，也有学者通过复杂的统计模拟（主要是贝叶斯思想），建议将目前的显著性“significant”阈值降到0.005，而之前的0.05只有提示意义“suggestive”[2]。先不论这样做是不是科学靠谱，如果真的这么做，其结果必然是影响极端深远的——目前已发表的论文当中，三分之一将要归为“仅有提示意义”。诸位仍在奋战“P<0.05”的小伙伴大概要哭了（这科研还有法儿做吗？）！

然而，似乎多数人是热烈欢迎这样的改变，在过去的2017年7月，Nature就把显著性水平从P<0.05降到P<0.005对受访者进行调查时，发现竟有69%人的表示支持！

反对的声音还是有的，正如公众号较早时候的推文：厉害了！百位作者借助Google Docs合作撰文讨论P值问题，文中Daniel J. Benjamin等人对于将现行的显著性水平从0.05降到0.005不以为然。

理由嘛，第一、显著性水平的降低会增大研究所需样本量，无疑会增加研究成本；第二、科学研究是多元化的，不应该用单一P值评论研究的价值。有反对，当然会有相应的主张，Daniel等人认为应该摒弃“显著性”这样的标签，应该允许研究者根据研究设计和数据解读的考虑，自行设定合适的检验水准α（看到这儿不知各位小伙伴有没有会心一笑~）。

还有更狠的，一些国际大牌儿杂志直接宣布禁用P值，比如说Political Analysis[3]，Basic and Applied Social Psychology (BASP)，但是一个比较搞笑点是，当BASP的主编被Nature问道，“没了P值怎么办时”，主编“淡定”地回答“我也不知道有什么样的统计方法可以取代P值”[4]。　　

　　(Political Analysis, 2018)

　　
(BASP, 2015)

　　目前而言，无论是调整显著性水平，抑或是全盘否定P值，都尚在争论。如何能够更合理地找个一个替代解决方案，仍然需要很多尝试（下表[5]）。

梅斯医学学术的观点：

P值重要不重要，主要是源于时代。在过去小数据时代，以及今后的临床试验的时代，P值十分重要，这是判断是不是阳性结果的重要标准。虽然P值时而会发生变化，通常是p<0.05被认为有统计学上显著性差异。但是，在大数据时代，尤其是大样本的真实世界研究中，P值注定被弱化的，因为，在大样本的比较中，很容易得出p<0.05的结果，甚至p<0.0001。从统计学角度，两者之间的差异具有“显著性”，但是，是不是真的有临床意义，则另当别论。

例如，两种降压药物对比，如果样本量足够大的话，一组能使收缩压下降10mmHg，标准差为5，另一组可以使收缩压下降9.5mmHg，标准差也为5左右，这时候，样本量足够大时，p可以小于0.001，但是，这两种药物的疗效真的有差异了吗？这时候，我们要看实际的差值！如果实际的差值小于具有临床意义时的最小差值（如MCID），这时候，仍然不认为具有真的差异，或有临床差别。

因此，不是P值重要或不重要，而是在什么样的数据场景下。另外，P值也不是一切，还要结合具体的临床数据进行对比，要保证统计学有意义（P值），临床有意义，这样才是真有意义！

参考文献

1.Chavalarias D, Wallach JD, Li AH, Ioannidis JP. Evolution of Reporting P Values in the Biomedical Literature, 1990-2015. JAMA. 2016; 315: 1141-8.

2.de Ruiter J et al. Redefine or justify? Comments on the alpha debate. Nature Human Behaviour. 2018; 2: 6-10

3. Rosendaal FR, Reitsma PH. No P Please. J Thromb Haemost. 2016 Aug; 14(8):1493.

4. Psychology journal bans P values

5. Ioannidis JPA.The Proposal to Lower P Value Thresholds to .005. JAMA. 2018 Apr 10;319(14):1429-1430.

来源：医咖会

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言

小提示：本篇资讯需要登录阅读，点击跳转登录

JAMA：P值的过去，现在和未来

相关推荐