第四节 系统树重建:最大似然法

一、树的似然性
(一)树的似然性概念
在统计学中,似然(likelihood)是用来描述已知随机变量输出结果时,未知参数的可能取值。似然函数是一种关于统计模型参数的函数。给定输出x时,关于参数θ的似然函数L(θ∣x)在数值上等于给定参数θ后变量X的概率 P(X=x∣θ)。在建树过程中,并不明确知道每一次进化过程的发生概率,但是可以通过已知分析序列的分布情况按照假设的进化模型推测每一次进化过程的发生概率,从而构建出系统发育树,树也因此具有似然性。不同的拓扑结构和分枝长度的树,具有不同的树的似然性取值。如果进化模型符合进化历史,并能够合理解释已知序列分布,那么当树具有最大似然性时,其拓扑结构在预测时出现的概率也是最高的。
(二)树的似然性计算
实践中,对于给定序列拥有的未知共同祖先经过进化时间t后,开始分歧为两个相关的叶节点序列。叶节点序列间相同位点比值为q,差异比值为p(即p距离),两者之和为1。描述在t时间内,序列任意位置的碱基i突变为碱基j的概率记为 P(j∣i, t)(在t时间点的条件概率,注意t是未知的)。其取值与分子进化模型的选择有关,如在Jukes-Cantor模型中,式(10-11)中假设突变速率为 α
类似于简约法,依次计算每一个联配位点的 P值。假设每个位置i的突变都是单独进化的,在计算总体概率时,可以将所有位置的 P值进行相乘,得到整个树某个拓扑结构k的似然值。因此,似然树的总对数似然值可以表达为:
最后通过对进化模型给出的所有树的拓扑结构计算似然值,然后比较获得其中最大似然值的作为正确的系统发育树。如果必要,类似于简约法,也可以使用重采样(如Bootstrap)检验树的可靠性。
二、最大似然法构建系统树
(一)构建步骤与计算过程
1.选择进化过程的模型。原则上不同的分子类型或数据类型应有不同的进化模型或模型中的参数值不同。目前最大似然法主要用于核酸序列分析,所用的进化模型都比较简单,如Jukes-Cantor模型,Kimura的两参数模型等。
2.根据进化模型,建立描述序列中一个有初始状态经过进化时间t后改变观测状态的概率表达式,如前节所述。
3.根据上面的结果,计算各序列之间的似然性关系,绘制总似然性 L的图谱。
4.将各种拓扑结构对应的总似然性进行似然性值的显著性检验,从中选择具有最大似然性的树,即最优树。
上述计算步骤虽然复杂,但在最新版应用软件中,如MEGA7,我们只需要选择进化模型及相关参数即可完成多序列联配数据的最大似然法构树。
(二)构建系统树的评估、分析及优化
采用最大似然法构树,主要有两类问题,一是它无法正确区分经过较长时间进化分歧的内部节点,主要原因在于最大似然函数随时间增长会收敛于同一个值,在这种情况下,系统会从相同似然值所对应的拓扑结构中随机选择一种作为正确树;第二个问题是计算效率问题,在相同数量序列的情况下,最大似然法构树耗时约为Neighbor-joining方法的25~50倍,因此对于计算资源有限的使用者,这将是一个极大的挑战,当然为了解决此问题,对应的改进包括了提高采样效率(类似于最大简约法的启发式搜索,如Nearest-Neighbor-Interchange(NNI)和Subtree-Pruning-Regrafting(SPR)、优化分枝长度计算(采用NJ法、最大简约法先行构建一个初始树,然后再通过分枝过滤器最优化选择分枝进行分枝长度计算)等计算算法。