第七节 多重标志物

在一项研究中,越来越经常地使用几种标志物。例如,用分子探针识别人类乳头状瘤病毒的型别,可能需要数个探针,每个探针专对某种型别。这些标志物通常是相关的,这会引起统计学方面的几个问题。如果这些标志物用作自变量或解释变量,解释变量间高度的相关性可能使得对模型中各效应的解释陷入困境。如果解释变量间高度相关,这种多元共线的问题是很严重的。可用回归分析软件中的有关方法诊断出这类问题。但分析离散型反应变量要复杂一些。这时可行的方法是利用待估系数的相关阵进行主成分分析。当最大特征根与最小特征根的比值足够大时,说明存在严重的多元共线问题。在有交互效应的模型中,减小多元共线的方法是对解释变量通过中心化重新编码。
标志物数量增加带来的第二个问题是要进行统计检验的数量随之增加。这将增大发现假的显著结果的机会,即增大了Ⅰ类错误的概率。一种办法是使用Bonferroni法不等式减小每次比较的 α值。另一种办法是使用Bayesian过程。
随着分子流行病学和分子进化流行病学的发展,实验方法不断发展和完善,统计学方法也要适应这些变化,以提高研究质量和科学推断水平。DNA序列和ELISA实验室技术的快速发展,使流行病学面临着对疾病状态和暴露状态采用更敏感和更具特异性的表达方法。然而,合理的流行病学设计原则仍是必需的。即应有足够的把握检验假定的关系,确定实验方法的灵敏度和特异度,对数据是否满足所用统计技术的假定进行考察等。一般说来,研究者必须仔细考虑可能影响实验结果的变异来源。更重要的是在实验中应制订必要的质量控制措施。
(曹秀堂编,夏结来审)