单因素分析,顾名思义就是分析单一因素在组间的差异,例如我们最常用到的t检验、卡方检验、方差分析等等,通过这些传统的单因素分析方法,我们可以简单直接地观察到两组或多组之间均数或者率的分布差异。
除了这些传统的单因素分析方法,我们在阅读文献时也能常常遇到“单因素回归分析”这样的说法,例如我们在之前推送的《如何理解回归模型中的“调整”和“独立作用”》一文中所引用的研究实例。
表1. 单因素(Unvariate)Cox风险回归
如表1所示,作者在展示Multivariate analysis(多因素分析)结果之前,还展示了Univariate Cox hazard analysis(单因素Cox回归分析)的结果,其计算所得的HR值被描述为Unadjusted HR。那么,这个单因素回归分析又到底是什么鬼?
其实不难理解,单因素回归分析就是在构建回归模型时,只纳入一个因素进入到回归模型中进行拟合,其理论上也应该属于单因素分析的范畴,只不过是用到了稍微高级一点的回归方法而已。
可是它和传统的单因素分析之间又有什么区别和联系呢?善于观察和学习的小伙伴们会发现,单因素回归分析与我们常用的传统的单因素分析方法,如t检验、方差分析和卡方检验等方法,它们之间在一定程度上其实是等价的,下面我们来向大家揭示一下这些神奇的等价关系,有兴趣的小伙伴可以自行推导哈。
t检验 vs 单因素线性回归
在线性回归中,对于模型整体回归效应的检验方法为方差分析,对于模型偏回归系数的检验方法为t检验。其实在简单线性回归,即单因素线性回归中,如果我们以分组变量作为自变量,待检验的变量作为因变量来构建回归模型,就会发现模型所得的偏回归系数估计值及其标准误,与因变量在两组之间差值的均值和标准误是相等的,且模型对于偏回归系数进行检验所得的t值和P值,也与两组之间t检验的t值和P值是一致的。
怎么样,不相信?那我们用一组数据来检验一下,如表2和表3所示。(感兴趣的小伙伴可以向小咖索要本文所用到的数据示例哈)
t检验结果显示SYNTAX指标在两组人群中的差值均值为1.724,标准误为0.873,95% CI为(0.008,3.440),检验统计量t值为1.947,P值为0.049。
表2. t检验结果
单因素线性回归结果显示偏回归系数(β)为1.724,标准误(SE)为0.873,95% CI为(0.008,3.440),检验统计量t值=β/SE,即1.947,P值为0.049,其结果与t检验的结果是一致的,有没有感觉很神奇呢!
表3. 单因素线性回归分析结果
有兴趣的同学可以根据偏回归系数(β)的计算公式及t检验的计算公式进行推导(小咖亲测,可以根据公式推导出来),这样可以加深我们对t检验和线性回归的认识和理解。
(SPSS操作教程:两个样本均数比较的t检验;多重线性回归)
方差分析 vs 单因素线性回归
同样,方差分析与单因素线性回归的结果在一定程度上也是一致的。在方差分析中,由于分组变量一般超过2组,因此在进行单因素线性回归时我们需要先把分组变量转换为哑变量,然后将该哑变量作为自变量带入模型,待检验的变量作为因变量来构建回归模型。
我们前面已经提到对于线性回归模型整体效应的检验方法为方差分析,其实该方差分析的结果与单因素分析中的方差分析的结果是一致的,并且在模型中各个哑变量的偏回归系数估计值,与方差分析中各组与参照组差值的均值也是相等的。
如果还是不信,我们再用数据验证一下,如表4和表5所示。
结果显示,两种方法输出的ANOVA表格的结果是一致的。在方差分析中,以第1组为参照组,第2组和第3组分别和第1组相比,其均值的差值分别为-3.944和-3.873。
表4. 方差分析结果
对应的单因素线性回归中,设第1组为参照组,第2组和第3组哑变量的偏回归系数估计值也分别为-3.944和-3.873,结果是等同的。
表5. 单因素线性回归分析结果
卡方检验 vs 单因素logistic回归
不仅仅单因素线性回归的结果与t检验、方差分析的结果是一致的,单因素logistic回归的结果和卡方检验的结果也是等价的。在logistic回归中,对于整个模型和回归系数的检验采用的是似然比检验(LR)、Wald检验及Score检验,三者输出的统计量均服从卡方分布。
不难发现,Score检验的χ2值等于采用卡方检验所求得的Pearson χ2值,同样似然比检验的结果等于卡方检验中的似然比χ2值。
这回总该信了吧,我们再用数据来检验一下我们的想法,如表6和表7所示。
结果显示,卡方检验中的Pearson χ2=6.579,P=0.010,logistic回归中Score检验的统计量也为6.579,P=0.010;卡方检验中的似然比χ2=6.443,P=0.011,logistic回归的Omnibus Tests of Model Coefficients表格中,即似然比检验的χ2也为6.443,P=0.011;两者的卡方值和P值都是一致的。
在卡方检验中风险估计值OR=1.916,95%CI为1.160-3.165,logistic回归估计的OR也为1.916,95%CI为1.160-3.165,两者也是相等的。怎么样,是不是感觉眼前一亮呢?
表6. 卡方检验的结果
表7. logistic回归的结果
(SPSS操作教程:卡方检验;二分类Logistic回归)
既然上面的结果这么完美,单因素回归分析和t检验、方差分析、卡方检验等传统的单因素分析方法的结果是等价的,那么到底应该选用哪种方法更好呢?
我们在阅读文献时常会发现,有的文章中仅用了传统的单因素分析方法,有的文章仅用了单因素回归分析,还有的文章在做完传统单因素分析后,又继续用单因素回归得出一个Unadjusted OR值,既然两种方法的结果实际上都是等价的,那为什么还要做两次单因素分析呢?
小咖认为,可以从下面几个角度去考虑(纯属小咖个人想法,欢迎大家修正和补充):
1. 从统计分析的角度上讲,对于传统的单因素分析方法,其结果展示相对简单,它们仅能提示组间均值或率的分布差异有无统计学显著性;而采用单因素回归分析,除了定性的展示组间差异外,还可以提供更为丰富的信息,比如偏回归系数(β)的估计值、效应估计值(OR、RR值)等等,这些统计指标能够在一定程度上反映该指标的效应大小和可信区间。
2. 对于回归分析来说,先做单因素回归,再做多因素回归,这种分析思路展现了从单独一个因素到控制多个混杂因素的变化过程。此时,单因素回归分析的结果对于变量的筛选就显得很有意义,我们可以根据前后偏回归系数或者OR值的变化,来协助判断是否需要将其纳入到多因素回归中进行调整和控制。这种筛选变量的原则我们会在后续的文章中进行重点讨论,敬请期待。
3. 当然,我们在学习统计的时候,书本上对于传统的单因素分析方法以及回归分析方法的讲解往往都是各成一章,老师们也很少去介绍这些方法之间的联系,可能就会误导很多人单纯地认为回归分析比传统的单因素分析要高级一些,但并没有真正认识到它们之间还有这样不可思议的等价关系。
书本上没讲到的东西,今天的文章也算是给大家扫个盲吧,如果以后在阅读文献时再次遇到Univariate regression analysis或者Unadjusted OR这类的词语,就应该知道是怎么回事了吧。
参考文献:
[1] Atherosclerosis. 2011 Sep;218(1):163-7
[2] 医学案例统计分析与SAS应用(冯国双主编)