内容提要:机器学习按照训练数据是否有标记信息,可将学习任务分为监督学习(supervised learning)和非监督学习(unsupervised learning)两大类。其中,聚类分析是非监督学习的重要方法,潜在类别聚类分析(latent class cluster analysis,LCCA)可作为非监督学习方法,用于高危人群的筛选。LCCA假定异质性群体由多个总体混合而成,即存在一个潜在的分类变量,借助拟合优度评价指标确定最优模型,最后通过估计和比较后验概率进行分类,实现变量水平上的“降维”和个体水平上的“聚类”。LCCA所提取的潜在类别既能反映不同影响因素的综合效应,也能进一步考察不同类别人群分布特征。LCCA分析步骤以出生缺陷为例,依据可能的可观察的非检测影响因素,采用适当的评估方法筛选出高危人群,进而对高危人群做进一步的检测,既可以提高筛查效率,又能降低筛查成本。采用LCCA方法,研究出生缺陷危险特征的潜在类别及其分布特点,分为三个步骤。首先,从出生缺陷调查问卷中提取出生缺陷相关指示变量:母亲生育年龄、遗传因素、母亲既往病史、母亲饮食与叶酸食用情况、母亲孕期患病情况、...