第二节 蛋白质序列进化的主要模型

一、氨基酸差异和不同氨基酸的比例
两个序列间有差异的氨基酸所占的比例(p)可用于比较分歧度。公式为
n d为氨基酸差异数, n为序列所有的氨基酸数目。
这一比例值同样被称为 p距离。假如所有氨基酸位点都以相等的速率替代,则 N d遵循二项分布。一般来说,当所比较的物种亲缘关系较近时(如人和大猩猩),两个物种的分歧时间与两条序列间的替换数成正比,但当所比较的物种亲缘关系很远时(如人和鸡), p的估计值较大。这说明随着两个物种的分歧时间增大,氨基酸的替代数也随之增大,但 p的估计值并不与分歧时间(t)成比例。
二、泊松校正(Poisson correction, PC)距离
pt的变化呈现非线性关系的原因之一是当多个氨基酸替代出现在同一位点时会产生 p′与分歧时间( t)的非线性变化关系,此时 Nd偏离实际氨基酸的替代数将会增加。泊松分布是能够更好准确估计替代数的方法之一。令 r为一个特定位点每年的氨基酸替换率,并且假设所有的 r都相同,在 t年后每个位点氨基酸替换的平均数为 rt。一个给定位点氨基酸替代数为 kk=0,1,2,3,…)的概率遵循泊松分布,即:
因此,在某一位点氨基酸不变的概率为 P k t =e - rt。如果多肽链的氨基酸数目为 n,则不变氨基酸的期望值为 ne - rt
实际上,人们并不知道祖先物种的氨基酸序列。因而对已有 t年分化的两个同源序列进行比较来估计氨基酸的替代数。由于一个序列无氨基酸替代的概率为e - rt,因而两个序列同源位点均无替代的概率是:
由于 q=1- p,所有两个序列间每个位点氨基酸替代总数( d=2 rt)为:
分子进化研究中,常常需要知道氨基酸的替代率( r)。如果从其他生物学信息中已弄清了两个序列间的分化时间 t,此速率的估计值为:
注意,因为该速率指一个进化系的速率,所以此处 d′被2 t而不是 t所除。
三、密码子置换模型
JC69和K80是核苷酸替换的两个简单模型,如果DNA分子中的核苷酸替换发生在密码子,则可能引起编码氨基酸的改变,因此很有必要研究密码子替换模型。Goldman和Yang等1994年提出了密码子替换模型(codon substitution model),这个模型将三联体密码子作为分析的基本单元,使用马尔可夫链来刻画从一个密码子到其他密码子之间的改变,在这个过程中,它的状态空间是通用遗传编码系统中除三个终止密码子以外的61个有义密码子,使用以下的替换率矩阵 Q={ q ij}来建立马尔可夫模型,其中 q ij是从密码子 i到密码子 j的突变率( ij)。一般使用的是其简化模型,定义替换率为
其中, κ是转换/颠换替换率的比值, ω为异义/同义替换率的比值, π j是密码子 j的平衡频率。可以认为参数 κπ j能够描述在DNA水平的过程特征,参数 ω是异义突变上的选择特征。后续对其他几个不同的假设条件得到了F61等模型。