精准医学的一个关键目标是从基因组信息预测特定患者的最佳药物治疗方案。
在肿瘤学中,病理学上看起来相似的癌症在它们对相同药物的反应方式上可能有很大差异。幸运的是,来自高通量筛选程序的数据经常揭示癌细胞的基因组变异性与其对药物的反应之间的重要关系。
然而,许多当前用于预测针对癌细胞的化合物活性的计算方法需要开发和应用大量的基因组学,表观基因组学和其他细胞数据。
最近,研究人员将最近的筛选数据和机器学习整合到训练分类模型中,该模型基于仅145个致癌基因和一组复合结构描述符的突变状态来预测化合物对抗癌细胞的活性/非活性。
使用1μM的IC50值作为活动截止值,研究人员的预测模型的灵敏度为87%,特异性为87%,并且在接收器操作特征曲线下产生的面积等于0.94。
研究人员还开发了回归模型来预测癌细胞化合物的log(IC50)值;模型对交叉验证的Pearson相关系数为0.86,对盲测试集的Pearson相关系数为0.65-0.73。
当包括50个致癌基因时,预测性能仍然很强。
最后,即使筛选数据中缺少40%的实验IC50值,它们也可以充分可靠地估算出分类,精度不会降低。
因此,研究人员所呈现的模型可以快速生成,并且可以作为用于个性化肿瘤学医学,药物再利用和药物发现的容易实施的筛选工具。
原始出处:
Lind AP et al. Predicting drug activity against cancer cells by random forest models based on minimal genomic information and chemical properties. PLOS ONE, 2019; doi: 10.1371/journal.pone.0219774. eCollection 2019.
本文系梅斯医学(MedSci)原创编译整理,转载需授权!