第二节 DNA序列进化的主要模型

一、DNA序列核苷酸差异及其测量
同一条祖先序列的两条后裔,它们的核苷酸差异会随时间累积,部分差异由自发突变引起。
(一)自发突变率
自发突变指自然发生的突然变异,为诱发突变的对应词。在营养条件好的情况下,自发突变主要由于DNA错误复制,或是自然发生的DNA损伤。基因突变的自发突变率是指在自然状态下,某一基因在一定的群体中,发生突变的频率。基因突变是小概率事件。人类基因的自发突变率为10 -6~10 -4/生殖细胞/代。
(二)序列核苷酸差异的测定
描述序列核苷酸差异大小的指标是不同核苷酸位点的比例,公式为
n dn分别为所检测的两序列间不同核苷酸数和配对总数,用此估计核苷酸间的 p距离。
二、DNA序列进化模型
当序列亲缘关系较近时, p距离可用来估计每位点上的核苷酸替代数,但当 p较大时,由于没考虑回复和平行突变,会低估替代数,因此有学者提出了不同的核苷酸替代的数学模型。考虑到六种不同的替换与四个核苷酸的不同使用频率,理论上有203种不同的核苷酸替换模型,而在实际的应用中,仅仅使用其中几个比较简单的模型,比如JC69和K80等。
(一)JC69模型(Jukes-Cantor模型)
JC69模型是Jukes和Cantor于1969年提出来的,这种模型只有一个未知量,该模型假设任意一个核苷酸都以同样的速率 λ转化其他三个核苷酸( λ为每年每个位点的核苷酸替换率),如果用 q ij来表示核苷酸 i变成核苷酸 j时的速率( ij=T、C、A和G),那么就可以得到式(8-2)的替换率矩阵(substitution-rate matrix):
其中,核苷酸按照T、C、A和G的顺序进行排列,矩阵中的每一行的总和为零,同时也可以看出每一个核苷酸的总替换率为3 λ。由于已经假设每对核苷酸的替换率相同,所以A、T、C、G的期望频率是0.25。
(二)K80模型(Kimura两参数法)
以上介绍的JC69模型是最简单的核苷酸替换模型,在此模型中仅仅考虑一个未知参数,但是在实际过程中,会发现还有其他很多可变因素影响核苷酸的替换,例如转换和颠换存在不一样的速率,一般而言下,转换替换速率高于颠换速率。因此,在继JC69模型之后,Kimura在1980年在JC69模型的基础上考虑了转换与颠换的不同替换率提出了K80模型。模型认为:同类碱基即同时为两个嘌呤(A←→G)或者两个嘧啶(T←→C)之间的替换为转换(transition),而不同类碱基即一个嘧啶和一个嘌呤(T, C←→A, G)之间的替换为颠换(transversion),如图8-1所示:
图8-1 四个碱基之间的置换
在K80模型中,假设转换率为 α,颠换率为 β,得到的速率矩阵如式(8-3):
其中,核苷酸按照T、C、A和G的顺序进行排列,矩阵中的每一行的总和为零,同时也可以看出每一个核苷酸的总替换率为 α+2 β。Kimura模型假设每个核苷酸的平衡频率为0.25。因此,无论核苷酸的初始频率为何,均可应用。这一点与Jukes-Cantor模型类似,使得这两个模型被广泛使用。
(三)Γ距离
JC69和K80模型都假设所有核苷酸位点的替代速率相同,实际上核苷酸的替代速率在不同的核苷酸位点可以不相同。例如,在蛋白质编码基因中密码子的第1、第2和第3位上的替换率是不同的。在RNA编码基因中也观察到替换速率存在差异的现象,这主要是由于RNA功能限制及RNA二级结构的影响造成的。研究表明,不同位点替换速率的分布近似的符合Γ分布。鉴于上述原因,已经开发出适合核苷酸替换的Γ距离,并应用于JC69和K80模型。
(李广林编,高 洁审)