第六章 分子流行病学资料的统计方法

第一节 不同实验室方法中的统计学问题

用于分子流行病学的几种不同的实验室方法有其独特的统计学要求,这个领域中需要用到许多统计学知识。本节所讨论的实验室技术虽不能构成一个完整的清单,但这些技术所用到的统计学方法有相同之处。对任何实验来讲,结果的可重复性和准确性是至关重要的。但在实际的研究中往往不能做到使所有的实验在很短的时间内全部结束,这样,实验随时间及诸如实验室、实验技术、所用溶液等因素的稳定性成为评价研究准备和研究过程的主要部分。
本节着重考虑了5种类型的实验,并讨论统计学方法在其中的应用。此外,还将讨论对所有实验有指导意义的质量控制问题。选择了放射免疫测定(RIA)作为使用标准曲线的实验的一个例子来讨论。酶联免疫吸附实验(ELISA)技术也可能包含标准曲线的使用,但许多生物学家经常使用的是通过ELISA技术利用单克隆抗体测定特定蛋白质或抗原的出现与否。cDNA探针也可能用于类似的场合。HPLC(高性能液相层析)和GC(气相层析)通常记录成观察值的多元向量形式,以反映多种物质的相对集中趋势。脂肪酸的成分即是一个典型的例子。一维或二维凝胶取决于凝胶上频带移动的距离。细胞病理学的数据可以看作有序反应变量,因为病人经常按有序等级编秩(如:良性、异常、有害)。
随着DNA序列数据应用的增加,统计方法可以作为工具识别编码区和未编码区,以考察一种干扰酶将DNA划分成合适长度片段时成功的可能性。还可考察利用这些片段重新组成一个序列以形成完整基因的情况。
在许多复杂情况下,贝叶斯统计方法比经典数理统计方法能更直接解决问题,且可有效整合部分先验信息,但其需要高强度计算的特性曾限制了其广泛应用。随着计算机软硬件的快速提升,以及马尔科夫链蒙特卡洛模拟(Markov chain Monte Carlo, MCMC)算法的提出,贝叶斯方法已被广泛应用于群体遗传学、分子进化、连锁作图和数量遗传学等研究领域。
在分子进化研究中,可设计一个时间序列的实验,并利用ARIMA模型进行量化分析与预测,并构造进化趋势图,通过对图形的分析来说明在各个进化阶段指标的变化,得出进化稳定性特征以及进化过程中的差异。
1.放射免疫测定等含标准曲线的实验
从统计学的观点看,放射免疫测定(radioimmunoassay, RIA)依赖于标准曲线的使用。标准曲线是通过分析已知物质水平的样本得来,并与未知水平的样本一起进行分析。用回归的方法产生一个已知剂量水平( X值)和反应变量( Y值)的关系式。在RIA中,反应变量是每分钟计数值,随着剂量或剂量对数( X)值的增大而减少。在RIA及许多其他测定中, YX的关系是非线性的。只要 YX的数学关系被描述出来,则可用SAS软件中如NLIN(非线性回归)这样的标准过程来估计曲线的参数,并计算标准曲线范围内每个 X值对应的 Y的平均值的估计值。这样,可对“未知”样本的反应 Y进行测量,用以“估计” X的值。这个过程称为反向估计,因为在原始的测定中, X是已知的,并由实验者固定,而此处则是观测 Y并用它估计 X的值。
文献中常见的拟合标准曲线的方法有两种:logistic回归和方程直线化。研究者对所用的方法经常未做详细报道。在第一种方法中,标准曲线是含有4个参数的非线性回归函数——logistic方程。其模型形式如下:
式(6-1)中 aY的最小值, b是最大值( b- a即为极差), cd是模型参数, X是剂量的对数。尽管这个模型常用于RIA,但它并不是唯一可用模型,只要所选择的模型能够很好地拟合观测数据即可。生物检定中许多有用的非线性曲线的描述可参考有关文献。利用第二种方式方程直线化制作标准曲线时,应注意的问题是要满足线性回归的模型假定,即 Y的观察值互相独立且有等方差,否则会使标准曲线缺乏代表性。
一旦标准曲线的公式确定,拟合的效果可以使用构造标准曲线的数据进行考察。如果拟合的曲线是多项式,可以直接使用SAS或其他统计软件。一般线性模型的标准过程很容易地评价拟合效果。如果曲线是非线性的,可以使用似然比统计量考察其拟合效果。这些工作均可由现有统计软件如SAS、SPSS、STAT等完成。为达到评价适用性的目的,每个剂量用5~10个样品考察标准曲线,有利于减少实验的误差。
构造标准曲线另一种不太常用的方法是单调样条法。这种方法不需要指定 XY的非线性函数关系。但由于RIA及其他许多实验在标准曲线中的点数太少,使用这种方法影响到曲线的可靠性。
也可使用加权回归的方法构造标准曲线。在选择权重前要仔细考察数据的方差均匀性。对标准曲线进行均匀性检验不需用到模型。通过对已知剂量的数次测量,可获得对应于每个剂量的Y的方差的估计,然后用Bartlett或其他方法检验方差的齐性。
由于编制分析标准曲线和未知曲线的软件比较容易,直线化的应用非常普遍。许多生物学家通常愿意接受线性回归的方法,而对使用非线性模型缺乏训练。因此,考察线性模型的假定能否满足显得尤为重要。
2.酶联免疫吸附测定
酶联免疫吸附测定(ELISA)通常用于使用单克隆或多克隆抗体测定蛋白质和其他的“抗原”。当已知标准剂量时,与RIA的分析方式类似,区别在于对光密度产生标准曲线而不是每分钟计数。其测定结果经常为离散值,即高吸收读数为正,低吸收为负。但从统计学的角度看,介于两者之间的值可能会遇到归类方面的问题。也会遇到单克隆抗体太特异的问题。如,在对病毒或细菌引起的疾病检测中,如果样本中的菌株没有用来构造单克隆抗体,测定的结果可能错误地宣布样本为负。只有在适当的样本范围内进行足够多的测试才能确定敏感度和特异度。此处所说的敏感度不一定针对疾病处理时所用的实验方法。如果敏感度和特异度明显偏低,任何探讨暴露-疾病关系的统计分析结果的把握就会较低。
3.色谱分析
在气相或液相色谱分析中,所记录的反应变量或者是峰下的面积,或者是峰的高度。许多应用中,感兴趣的是峰的位置及归因于每个峰的面积的百分数。当连同一组标准一起使用时,峰的位置被认为与特定分子的出现有关,而峰的高度则与该分子所表达的溶解比例有关。从统计学的角度看,这些数据可看作是连续多变量的资料。在对数据进行多元正态性检验之后,可以对这些因素进行多元方差分析。色谱分析数据最大的困难在于基准的建立,这也是罕见的物质难以测定的原因。当对已知混合物使用色谱分析处理时,可以得到标准曲线的多变量形式。与ELISA和RIA相比,色谱分析更加依赖于描述峰的高度和密集度关系的线性模型,并有人建议在分析之前进行对数等变换。由于峰的数量相对于样本来说要大得多,有人建议使用有偏最小二乘估计代替常规的无偏最小二乘估计来校正标准曲线。
当对归因于每个峰的面积百分数感兴趣时,一次观察中数据之和为100%。因此,这类数据是属于被称为成分数据的受限类型的一种。成分数据的分析方法参见有关文献。
4.凝胶
在凝胶中,感兴趣的或者是一个或多个波段的出现或缺失,或者是凝胶上的斑点。一维或二维凝胶依赖于蛋白质(或DNA分子)正确地识别波段时在凝胶上移动的距离。由于移动的程度随测定方法的不同而有所变化,应采取一些确保结果可重复的措施。在一维凝胶中常用的方法是使标准样本与未知样本一起运行。标准样本必须产生该实验可接受的一定大小范围的波段表达。有时可以将标准样本移动的距离记录下来并与时间作图,以便识别出是否存在某种系统趋势。对二维凝胶,可清楚区分的光斑的水平距离和垂直距离X和Y能进行定量的质量控制。
5.细胞病理学检测
Whittemore等人提出了一种方法分析反应变量是病理得分的数据。这些得分特别地记录了样本中发现的最不正常的细胞类型。其模型类似于广义线性模型中对有序反应变量建立的模型。与前面提到的数据相比,前述的数据主要由二分类变量和连续变量构成。而有序反应模型通过对分型进行哑变量编码,可用于分析变异的系统性来源。
有许多商用工具可用于测定如胰岛素、黄体酮等物质。这些工具的质量和使用的简单性方面是有差别的。测量结果的准确性、可重复性及时间稳定性是实验结果科学、可靠的重要保证,从而引发了对质量控制问题的讨论。
6.质量控制中的统计学问题
本节所讨论的质量控制主要有两个方面的内容,一个是控制变异的系统性来源,另一个是实验随时间的可靠性监测。
在流行病学研究中使用某种实验方法之前,必须明确实验的系统变异来源,并使之达到最小。例如,在多个实验室和多名技术员同时测定时,可能会引起意想不到的盈余方差。在所有实验室让每个技术员检测同样的标准样本,然后用方差分析或其他适当的方法进行统计分析,就会找出潜在的问题。如果将实验室等因素作为固定效应,而将同一样本上的重复操作或重复读数看作随机效应,则统计分析时应采用混合模型。这个过程用SAS的GLM和RANDOM语句可很容易地实现。在SAS 6.03及后续版本中,在不能使用确切 F检验的场合,将使用Satterthwaite近似法。BMDP的3V是类似于混合模型分析的另一个过程。这个过程的优点是能够找出未想到的盈余变异,对采取修改实验过程、重复实验样本等减小误差的措施时具有指导意义。
对于像细胞病理学数据这样的定性资料,可使用Cohen的 K统计量等方法评价两个或多个技术员所得结果间的一致性。该统计量将实际各等级的一致量与由概率所得期望值(理论值)作比较,其取值范围为-1~+1。负值表示比期望的一致量少,零表示不比由概率预测的一致量多。一般来说,0.4~0.7间的值被认为是合适的一致量,大于0.7的值表示高度一致。 K统计量的标准误算式可查阅文献。计算可信区间时须注意,标准误的公式依赖于 K的估计。对定量变量,相同样本在一个实验室的值与另一个实验室值的简单图形在高值和低值区域可能会揭示出系统性问题。更为严格的方法是Linnet或Lin提出的方法。这两种方法都需要反复拟合模型。对其他实验因素也需要作出评价,如不同批次的抗体、基础液等。
像肌酸是已知的具有时间周期性的,也就是说,它们在一天中各时间点上的变化具有系统性。通过在固定时间点上对每个个体取几个样这样的简单实验,就可以识别出这类问题。当然,这样的样本应作为重复测量的实验数据进行统计分析。其他属于个体属性的因素,如运动水平、饮食习惯、职业等的变异也会影响观察值。如,胆固醇值可能受最后一餐所吃食物的影响。此外,月经周期可能会影响按月间歇的妇女的测量值。因此,需要认识到观测值可能会随时间变异的重要性,如果需要,应在设计期进行评估。
某些工具或实验器件的寿命比研究期短,或对温度敏感,或随其他条件而变化。在整个研究期间遵循一个严格的质量控制程序是很重要的。在带标准曲线的实验中检测问题的一种方法是使样本包含所测物质的高、中、低滴度水平。典型的是这些样本与标准曲线的样本一起反复测定,用均值和极差与时间作图。许多情况下这些数据服从对数正态分布,这样就需要用到预测值的对数而不是实际剂量。如果数据是二项比例分布,使用arcsin( )代替 P以使其具有等同的方差。
几种质控图可参见文献。个值控制图以 ±3 Sd作为控制限,对超出该范围的值实施控制。均数控制图,简称 图,用于控制重复实验的准确度。例数较少时的极差控制图简称为R图,用于控制重复试验的精密度。 图和R图常结合使用,称为Shewhart图。可从图中散点的分布看出呈一定趋势或周期性的系统误差。正常值平均法均数控制图依据样本均数服从正态分布的原理,用以判定实验的准确度。基于马氏距离的多变量质控图可用于同时查看两个或多个相关变量,并能适用色谱分析数据。为了考察色谱数据的质量控制情况,常用包含几种感兴趣的物质的混合物,记录可识别峰值的位置。这些距离可看作多元向量,提供给大致相同构成的混合物的测定。
绘制质控图的软件有NCSS, SAS/QC, Statgraphics。在使用任何基于连续正态数据的质控图之前,可能需要进行数据转换。一种可行的方法是使用前50个左右的点进行正态性检验。
一些常识性问题在现行的实验中也易被忽视。一般来说,对技术员很重要的问题是:样本来自病例还是非病例、暴露还是非暴露的群体是不知道的,即“盲”的。此外,有一个指导整个研究的常规指南是重要的。例如,需要同时处理病例和对照时,如果经济上允许,应将样本重复一次,而不是对同一样本进行重复测量,以产生更多的可重复结果。此外,在研究过程中就应监测数据中的异常值,而不是在实验完成之后。使用某些主观的测定方法时应尽可能标准化。
对实验的监测局限也应作出测定。将落于监测水平之下的值任意设为缺省值是不合适的。事实上,任意将这类值设为0会使变量的均数偏低,而忽略这些值则使均数偏高。一种可行的方法是将其设为监测限值的一半。更确切的做法是将这些值看作左删失,然后进行一系列相应的分析。从统计角度看,分析含有大量低于监测限的观察值的资料会影响到结论的可靠性。
7.DNA序列分析
随着测定DNA序列能力的迅速增强,统计学在几个方面扮演着重要角色。受人类基因组工程的刺激,可用序列数量爆炸性增加,同时,涌现出涉及多个方面DNA数据统计学处理的巨量的文章和报告。
DNA可以理解成由4种碱基(A、C、T、G)构成的线性序列。由于这些序列可有数千个碱基的长度,在一次实验或凝胶中不可能测定整个基因。用某种内切酶在特殊的子序列出现时将长序列切断,以实现对序列的划分。如, EcoRⅠ酶识别GAATTC和CTTAAG,并在G和A间切断。由于在一个凝胶中凝胶读数不会超过500个碱基对,有理由选择一种内切酶,以最大可能地将某序列剪成合适长度的段。已经提出了数种预测这种特性的方法。
DNA可被理解成一种语言,完成三联码(遗传密码子)对氨基酸的编码或停编。DNA的区段所遵从的这种结构不应看作是随机的。对不具有这种结构的DNA其他区段,到底这些未编码区段是“无意义”的,还是具有其他功能尚不清楚。因此,识别编码和未编码区段的方法是有用的。有人使用基于主成分分析的技术,用以分离编码和未编码区段。许多DNA分析的统计学过程假定碱基在基因序列中是随机分布的。如果将遗传密码子的第一、二、三位置作为单独的区域进行处理,并对结果综合考虑,则其他一些假设或许更合理些。
将较小的DNA片段组成一个更长的序列是统计学发挥作用的另一个方面。然而,到目前为止没有引起足够的重视。
利用DNA序列资料推断进化树,按原理划分有3大类方法,距离矩阵方法(distance matrix methods)、最大简约法(maximum parsimony)和最大似然法(maximum likelihood)。