第十章 分子系统树构建

第一节 系统发育树

我们赖以生存的环境是不断变化的,地球所处的星系环境是相对孤立的,由热力学第二定律我们知道,孤立系统的熵值永不减小。在这种具有发展方向性的宏观环境中,生物及其分子的多样性进化成为必然,用以抵消、适应或对抗环境的改变。因此,多样性是生物及其分子进化的核心。如何科学、有效地描述这种多样性,发现其发生、发展的变化规律,是本章系统发育树所要重点解决的问题。
一、系统发育树的基本概念
(一)系统发育树描述进化关系和历史
首先,系统发育树(phylogenetic tree)是一种具有结构的图表,其建立在序列的多重联配(multiple alignment)结果的基础上。通过常用的联配程序,如ClustalW、DIALIGN-TX等,可以获得两个以上序列(核酸或蛋白)相互之间的相似性关系。这种联配关系帮助我们在研究某些特定家族分子时能够限定可能的进化历史。正确理解这些限定的来源和成立条件,有助于我们理解通过推测得到的系统发育树各组成单元(分支与节点)的关系,并由其推理获得一组相关基因或分子序列合理的进化历史。
当我们希望通过序列间的相似性获得进化关系时,进化距离(evolutionary distance)(或遗传距离)和分歧时间(divergence time)是两个需要量化获得的核心参数,他们的获得通常建立在某种进化模型的基础上。不同进化模型,因为所用的参数或假设不同,而可能得到不同的进化历史,从而形成不同形式的系统发育树,其分支和节点自然也存在差异。如何评价不同建树方法或模型的优劣,我们将在后面的章节详细阐述。
(二)系统发育树的基本特征:组成与结构
“树根”表示了系统内物种的最早共同祖先(last common ancestor)。拥有“树根”的树我们称之为“有根树”(rooted tree),可以从“根”展示出不同物种或基因随时间推移而连续发生分歧的过程。相对地,“无根树”(unrooted tree)则表示在缺乏最早共同祖先来源的情况下不同物种或基因之间的进化及分歧关系(图10-1)。
图10-1 有根树与无根树
通常情况下,我们的研究资料仅掌握物种进化过程中的少数信息,因此,即使能够找到系统发育树的全部物种,即“全解析树”,其可能的进化历程也是存在多种解释的。而每一种解释就可以独立形成一种树的结构,我们称之为“树的拓扑结构”(tree topology),其包含了根、节点、分支(状态及长度)的所有信息。如何在众多的树的拓扑结构中选择一个科学可靠的用以还原进化历史的本来面貌,就是“重建系统发育树”的核心任务。
当现存的类群或基因数量为 n时,树的外部分支数量即为 n。对于全解析的有根树,其将有 n-2个内部分支和 n-1个内部节点,对应地,而无根树则是 n-3和 n-2个。因此,重建树的方法数量,理论上存在:
其中,Nr为有根树的拓扑总数,Nu为无根树的拓扑总数。
由式(10-1)公式我们知道,随着分支数量的增多,重建树的拓扑结构的可能数量呈巨量增长。仅当 n=10时,其有根树的拓扑结构总数即可达到3 445万。其中,仅有极少数与物种或基因的进化历史相符合。因此,当使用不同的模型、方法拟合数据时,极有可能出现多个系统发育树符合要求,我们需要一种评估方法来解决最优化的问题,这些将在后面的章节详细讨论。
(三)基因/蛋白树与物种树
前面的章节我们讲到了基因与蛋白在分子水平上进化的差异。从辩证的角度看,两者相互适应又相互制约。基因的进化不是完全随机的过程,它受到蛋白序列表达、功能及结构的影响,以及整个生命体感知环境、表现行为的影响。反过来,蛋白序列的变化基于基因组DNA的异义突变,氨基酸密码子的异义替换率在环境的压力下往往低于同义替换率,导致基因水平的进化产生的基因树,与反应大量宏观蛋白水平变化的物种树之间存在分歧时间的差异。一般情况下,基因分歧时间要早于物种分歧时间。这种差异导致了两种系统发育树的不同。
(四)可信树和一致树
当面临大量树的拓扑结构需要评估或选择时,我们可以使用一种特定的建树方法(如Neighbor-joining法)构建基于该数据集(物种或基因数据)抽样的一个系统发育树(又称为“子树”),然后使用计算机重复该建树过程,将累积的结果用于分析所构建的系统发育树的稳定性和可靠性,这种方法我们称之为“自举分析”(bootstrap analysis)。在自举分析中,通常会设定自举次数或bootstrap值(如1 000次),计算机完成自举分析过程后,会将所有抽样观察到的子树结构(分支及节点)都列举出来,然后去除重复出现次数低的内部分支(可设定参数调整),将重复次数高的内部分支和所有外部分支用新的树进行展示,同时标记内部分支重复比例(bootstrap百分比)。这种树的展现形式我们称之为“可信树”(condensed tree)(图10-2)。特别地,当可信树只展现所有子树共有的特征时,即自举百分比为100%时,称之为“严格一致树”(strict consensus tree);当只保留N%以上共同特征子树时,即自举百分比为N%时,称之为“多数一致树”(majority-rule consensus tree)。实践中,通常我们会移除自举百分比低于50%的分支。
图10-2 可信树
二、系统发育树的构建
(一)系统发育树构建步骤
系统发育树的构建通常有四个必要步骤:选择数据、选择进化模型、选择构树方法、树的分析与检验。需要说明的是这四个步骤几乎是相对独立的,但前者的结果也直接影响后者的选择。
构树的数据来源于多重数据联配,其联配范围(局部联配、全局联配)、联配度量方法(两两比较、全序列比较),将通过不同的重建软件获得不同的发育树。值得注意的是,系统发育树构建有很多免费软件,覆盖了目前主流的所有建树方法,如2016年更新的MEGA7平台,就是一款具有友好界面的集成多种统计分析的分子进化分析软件,其包括了最大似然法(maximum likelihood)、距离法(distance methods)、最小二乘法(ordinary least squares)、最大简约法(maximum parsimony)、复合似然法(composite likelihood)、贝叶斯法(Bayesian)6种系统发育树构建方法。
在进行进化分析时,我们常常以核苷酸序列分析比对开始,因为其包含着最完整的进化历史。在基因表达差异分析水平上,需要将核苷酸序列编码成蛋白序列用来比对,比对结果用来构建系统发育树。
另外,我们通常希望构建的系统发育树是有根的,在缺乏共同祖先信息的情况下,可以选用一个或一组与研究物种或基因相对较远的外群(outgroup)来确定树根的位置。
(二)构树方法
构建系统发育树主要有两大类方法,一是距离法(distance methods),它是通过序列两两比较获得的进化距离构建树,包括UPGMA、邻接法(neighbor-joining)、Fitch-Margoliash法等;二是通过序列所有位点差异信息的评分来构建树,包括最大似然法(maximum likelihood)、最大简约法(maximum parsimony)以及贝叶斯法(bayesian)等。两类方法最大的不同之处是,前者趋向于构建一个单独的树,而后者使用统计方法,考虑树的拓扑结构的所有可能性。
另外,不同构树方法涉及不同的进化假设,如UPGMA假设序列进化遵循分子钟,邻接法假设最适合的树具有最小的进化量(进化距离总和),最大简约法还假设构建树所需的变异个数也是最小化的,最大似然法和贝叶斯法都是在假定的模型或拓扑结构的基础上给出似然值,然后通过最大似然值来选择最合适的进化树。
(三)分子进化模型的选择
在第九和第十章已分别介绍了几种核苷酸和蛋白序列的进化模型。在应用构树方法前,首先应该选择的是合适的进化模型。实际上,多序列间的进化距离或分支长度反映了序列上每个位点的核苷酸或氨基酸被替代的平均个数。如何正确地计算或从序列中提取“平均个数”的值,是各个分子进化模型应用的焦点。最简单的进化模型,如JC69,假设了核酸转换或颠换的突变率相同。相反地,最复杂的进化模型,如GTR,假设了所有参数的可变性,包括碱基构成比例、转换突变率、颠换突变率等(表10-1)。
表10-1 系统发育构建的分子进化模型
等级似然比检验:实践中,通常会尝试使用不同的分子进化模型进行数据拟合,并选择一个最优拟合的树作为系统发育树。选择评判最优拟合的方法,对于最大似然法和贝叶斯法这样的构树方法不构成问题,可以很容易从每种拓扑结构树的分值(最大似然值)来选择最优的模型。通过比较两个进化模型的最大似然值比的统计分析方法,称之为“等级似然比检验”(hierarchical likelihood ratio test, hLRT)。
hLRT简单明了,但也存在局限性。它需要对分子进化模型进行两两比较,如果不能确定模型选择参数时,就需要依次对分子进化模型选择的条件进行多次检验,而且检验过程中必须使用相同的树拓扑结构。例如,依次检验模型是否有相等的碱基构成、是否具有相同的转换或颠换突变率、是否需要进行Gamma校正等。那么多次检验的进入顺序和显著性水平的确定就成为该方法使用者需要着重思考的问题。
1.Akaike信息量准则
Akaike信息量准则(Akaike information criterion, AIC)是由日本统计学家赤池弘次提出的(1974年),其建立在熵的概念基础上,可以权衡所估计模型的复杂度和此模型拟合数据的优良性。其定义为:
其中, k为使用的参数的数量, L为进化模型得到的最大似然值,AIC值越小模型拟合度越好。其优点在于AIC评价过程不必使用相同的树拓扑结构,计算结果与模型进入顺序无关。
2.贝叶斯信息量准则
类似地,贝叶斯信息量准则(Bayesian information criterion, BIC)是Gideon E. Schwarz在1978年使用贝叶斯理论发展出来的模型选择理论。其定义为:
其中, k为使用的参数的数量, L为进化模型得到的最大似然值, n为序列可变对齐位置的个数,BIC值越小模型拟合度越好。
由公式可知,BIC比AIC对参数数量的限制更加严格,进一步防止系统进化发育历史被过度解释。