数据校验(增量检查)广泛用于混合样品检测。由于混淆的绝对发生率的特异性和稀疏性不足,因此增量检查的正预测值(PPV)相当低,因为要在大量错误警报中识别出真正的混淆错误会很费力。为了克服这个问题,我们通过机器学习开发了一种新的精确检测模型。
受delta增量检查检查的启发,研究人员决定与过去的检查进行比较,并拓宽时间范围。从完整的血细胞计数和生化测试中选择15个常见项目。我们考虑了在我院同时进行的15项检查中≥11项检查。 我们创建了滑动窗口大小为4的连续检查的单个局部时间序列数据。对局部时间序列数据的最后一次检查进行了混洗,以生成人为混淆的案例。将数据集分为开发集和验证集后,然后使用梯度启动决策树(gradient-boosting-decision-tree, GBDT)模型来学习,以检测部分时间序列数据的最后检查结果是否是人为混合结果 。在验证集上对模型的性能进行了评估。
本模型的受试者工作特征曲线(ROC AUC)下面积为0.9983 (bootstrap置信区间[bsCI]: 0.9983 - 0.9985)。
研究结果表明,GBDT模型在检测样品混杂方面更有效。准确性提高将使更多机构能够进行更有效和集中的混合检测,从而提高患者的安全性。
原始出处:
本文系梅斯医学(MedSci)原创编译整理,转载需授权!