警惕危险因素分析中的3个关键问题

Tags: 警惕危险因素分析作者：小白学统计更新：2019-09-16

危险因素筛选或探索是医学研究中的一大类目的，很多临床医生都会通过已有的数据，确定一个医学结局，然后分析这一结局跟哪些因素有关，或者说，哪些因素可能是该结局发生的独立影响因子。

危险因素的探索分析过程，说简单就简单，说复杂也很复杂。说简单，是因为很多人习惯把数据往软件里一扔，因变量放到因变量的地方，自变量拖到自变量的地方，运行，出结果，结束。说复杂，是因为往往上述的这种分析方式，其实很多都有问题，因为统计分析最关键的不是软件，而是使用软件的人。

本文根据作者多年的分析经验，说一下危险因素探索分析中的3个关键问题，希望以此提醒各位朋友，在数据分析时，不要一味依赖软件。软件主要是帮你计算，思路是无法替代的。

没有一个明确的分析思路，只能导致garbage in， garbage out 这种悲惨结局。关键的问题是，很多人即使得到了garbage的结果，却懵然不知，还以为发现了真理。这才是最大的悲哀。所以本文特地介绍几个在危险因素探索过程中比较关键的3个问题，希望对各位有所帮助。

一、线性问题

不管是线性回归还是logistic回归或Poisson回归，他们都属于广义线性模型，本质上都是“线性模型”，因此一定要确认自变量与因变量（logistic回归中为logit P）之间是否线性关系，如果不是，需要考虑进行相应的变换，否则可能会产生错误结果。

例1：某研究分析老年人高血压（二分类变量，是或否）的危险因素，研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM 共6个指标。其中gender为二分类变量，其余变量均为连续变量。如果把这6个自变量直接纳入统计软件分析，所得结果如表1所示。

可以看出，这6个变量均无统计学意义。然而对数据重新分析后发现，并不是这些变量对结局均无影响，只是未能发现它们之间的真实关系而已。经仔细观察，发现age和 ox-LDL IgM 对结局的影响是有统计学意义的，但不是线性影响，而是二次项关系（表2）。

这提醒我们，不仅仅是线性回归需要看自变量与因变量的线性，logistic回归也需要考虑，虽然logistic回归中不像线性回归可以用散点图那么直观，然而logit p与自变量的关系仍需要考虑是否线性。如果不是，你的结果恐怕就有问题。

二、共线性问题

共线性简单来说就是自变量之间存在高度相关，从而导致结果不可靠。共线性是大多数回归模型都需要考虑的一个问题，一旦发现该问题，需要采取不同措施来解决。常见的解决方案包括删除某一自变量、主成分分析、Lasso回归等。

例2：某研究分析乳腺增生的危险因素，自变量同时包括妊娠次数（三分类变量，用1、2、3表示相应次数）和流产次数（三分类变量，用0、1、2表示相应次数）。

在单因素分析中妊娠次数有统计学意义（2 vs. 1，P=0.0258；3 vs. 1，P=0.0354），然而多因素分析中变得无统计学意义（P值分别为0.6351、0.5942）。

分析原因发现，主要是由于妊娠次数和流产次数有较强的共线性，二者相关系数高达0.55，从而导致妊娠次数变得无统计学意义。解决方案采用了删除法，删除妊娠次数变量，保留了流产次数变量。

多数软件都可以实现线性回归的共线性诊断，logistic回归则不一定有相应选项。实际上无所谓，因为共线性只是针对自变量的，因此即使logistic回归分析，仍可以用线性回归的共线性诊断工具，判断自变量之间是否存在共线性。

关于共线性的判断，有很多种方法，后续会慢慢再说。但是必须先提醒一点，共线性的判断，不建议根据某一固定值，大于或小于多少就有共线性，否则就没有共线性。根据我个人的多年分析经验，这种方式很不可靠。当然，这些问题在后续文章中详细再说，这里先做一简单提醒。

三、单因素和多因素的问题

对于危险因素筛选，不少人的分析思路是：先进行单因素分析，将单因素分析中有统计学意义（P<0.05）的变量再纳入多因素分析，选出最终有统计学意义的变量作为危险因素。

然而这一思路并非十分可靠，有些情况下可能会出现单因素分析无统计学意义而多因素分析有统计学意义的情况，此时就容易漏掉某些重要的因素。

例3：某研究分析两个血清学指标（分别用阳性和阴性表示）对胃癌的影响，数据结果如表3所示。

该数据采用单因素分析的话，可以发现x1并无统计学意义（P=0.114），而在多因素分析中却变得有统计学意义（P=0.018）。如果只将单因素分析中有统计学意义的变量纳入多因素分析的话，就会漏掉x1变量。为什么会出现这种情况，主要是因为x1和x2之间存在负相关，而x1、x2与结局之间均为正相关。

关于这一问题，在前面的文章中（“先做单因素，有意义的做多因素”，这种思路对吗？）已有专门提到，大家可以再回去复习一下。不过当时那篇文章用的是一个连续变量举例，可能有的人看的不够直观。现在这个例子是分类变量，看起来可能更直观一些。

给大家的建议是，数据分析过程中，不要盲目套用所谓的“分析套路”，而应结合实际情况具体问题具体分析。

正如统计学界一句很流行的话“所有的模型都是错误的，但是有一些是有用的”。我也想说“所有的分析套路都可能是错误的，但有些是可以参考的”。为什么这么说呢？因为统计分析太灵活了，绝对找不出一个适用于任何数据分析的所谓套路或模式或步骤，然而，有些过程的确是可以参考，可以帮助我们探索一些问题。

来源：小白学统计

版权声明：
本网站所有注明“来源：梅斯医学”或“来源：MedSci原创”的文字、图片和音视频资料，版权均属于梅斯医学所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：梅斯医学”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。
在此留言

小提示：本篇资讯需要登录阅读，点击跳转登录