什么是 kappa?
kappa 衡量在评估相同样本时多名评估员所做名义或顺序评估的一致程度。
例如,两名医生对 45 位患者是否患有某种特定疾病进行评估。医生诊断病情(阳性或阴性)一致的频率有多高?另一个名义评估的示例是检验员对电视屏幕上缺陷的评级。他们对气泡、起皮和尘土的分类是否意见一致?
解释 kappa 值
Kappa 值的范围为 –1 到 +1。kappa 值越高,一致性就越强。当:
AIAG建议 kappa 值至少为 0.75 表示一致性强。但是,最好使用较大的 kappa 值,如 0.90。
当进行顺序评级时(比如按 1 到 5 个等级对缺陷严重性进行评定),Kendall 系数(考虑了排序因素)通常是比单独使用 kappa 更适合用来评估关联度的统计量。
Fleiss kappa 和 Cohen kappa 的比较
Minitab 可以计算 Fleiss 的 kappa 和 Cohen 的 kappa。Cohen 的 kappa 是常用于测量两个评定员间的评估一致性的统计数据。Fleiss 的 kappa 是对 2 个以上评定员的 Cohen 的 kappa 的一般化。在 属性一致性分析中,Minitab 默认情况下,Minitab 计算 Fleiss 的 kappa 并适时提供计算 Cohen 的 kappa 的选项。
当数据满足以下要求时,Minitab 可以计算 Cohen 的 kappa:
Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计偶然出现一致性的概率。Fleiss 的 kappa 假设检验员是从一组可用检验员中随机选择的。Cohen 的 kappa 假设检验员是特意选择且保持固定。因此,Fleiss 的 kappa 和 Cohen 的 kappa 使用不同方法估计一致性的概率。