- 分子生物学(全国中医药行业高等教育“十四五”规划教材)
- 唐炳华 郑晓珂主编
- 3256字
- 2024-09-09 16:37:39
第三节 基 因
基因(gene)是遗传物质(DNA,RNA病毒为RNA)所携带遗传信息的表达单位和功能单位,以一段或一组特定碱基序列为载体,通过表达功能产物RNA或蛋白质,控制各种生命活动,从而控制着生物的遗传性状。一个基因除了含有决定功能产物一级结构的编码序列外,还含有表达该编码序列所需的调控元件等非编码序列。
一、基因的基本概念
人类对基因的认识经历了一个漫长过程,在20世纪50年代之前,基本局限在逻辑概念阶段,对其化学本质一无所知。
1944年,O. Avery等通过肺炎链球菌转化实验证明DNA是细菌的遗传物质;1952年,A. Hershey和M. Chase通过大肠杆菌T2噬菌体感染实验进一步证明DNA也是DNA病毒的遗传物质。遗传物质有两个特点:一是能自我复制,从而维持生物体的基本性状;二是会发生突变,从而赋予生物体新的性状,使生命得以进化。
1.结构基因和调控基因 这两类基因的产物都可以是RNA和蛋白质,但产物功能不同:结构基因(structural gene)产物的功能是参与代谢活动或维持组织结构(也有定义tRNA、rRNA基因为第三类基因)。调控基因(调节基因,regulatory gene)产物的功能是调控其他基因的表达。
2.断裂基因 在20世纪70年代之前,人们一直以为基因的编码序列是连续的。1977年,R. Roberts和P. Sharp(1993年诺贝尔生理学或医学奖获得者)均发现真核生物有些基因(如胰岛素基因)的编码序列是不连续的,被一组称为内含子的非编码序列分割成称为外显子的片段,因此这类基因被命名为断裂基因(split gene)。断裂基因在分子生物学的基础研究和肿瘤等疾病的医学研究中具有重要意义。
●不同真核生物基因组中断裂基因占比不同:酿酒酵母仅有3.5%~4%的基因是断裂基因(但其他酵母的基因多为断裂基因);果蝇有83%的基因是断裂基因;哺乳动物有94%的基因是断裂基因(组蛋白、α干扰素、β干扰素基因不是断裂基因)。叶绿体、植物和其他低等真核生物线粒体基因组中存在断裂基因。古细菌、细菌和噬菌体基因组中也存在个别断裂基因。
3.重叠基因 两个或多个基因存在编码序列重叠,则它们被称为重叠基因(overlapping gene)。重叠基因之间有各种重叠方式,例如,ΦX174噬菌体基因组DNA全长5386bp,但所包含10个蛋白质基因(编号A~H、J~K)序列的累计全长5784bp,大于实际全长,这一现象即源于基因重叠(overlapping,图1-13)。
图1-13 ΦX174噬菌体基因组
(1)大基因序列完全包含小基因,例如A基因中包含B基因,D基因中包含E基因,被包含的基因称为基因内基因(嵌套基因,nested gene)。
(2)两个基因的编码序列首尾重叠,有的甚至只重叠一个碱基,例如D基因终止密码子的第三碱基是J基因起始密码子的第一碱基,这一现象称为读框重叠(reading-frame overlapping)。
(3)多个基因存在重叠序列,例如A基因、A*基因、B基因、K基因。
(4)反向重叠。
重叠基因的编码序列虽然存在重叠,但其转录产物mRNA的开放阅读框(第四章,101页)不同,因而翻译合成的蛋白质并无同源序列。
重叠基因存在于病毒(图10-4,278页;图10-6,281页)、原核生物、真核生物(包括人类)DNA中,包括线粒体DNA。
4.转座子 1944年,B. McClintock(1983年诺贝尔生理学或医学奖获得者)在研究玉米基因时发现,有些DNA片段可以自主复制,还可以在染色体DNA中移动位置。现已阐明,几乎所有生物基因组DNA中都存在这类非游离的、能自主复制或自我切割、以相同或不同拷贝在基因组中或基因组间移动位置的功能性片段,称为转座子(transposon,转座元件,transposable element,可移动元件,mobile element,最初称为跳跃基因,jumping gene)。转座子长0.7~20kb,可能是最简单的寄生物,可称为寄生分子(molecular parasite,分子寄生物),可随宿主染色体DNA一起被动复制。某些转座子携带有对宿主有利的基因,与宿主是一种共生关系。
5.顺反子 顺反子一词源于遗传学,多视为基因的同义词。①单顺反子:其转录后加工产物得到单顺反子mRNA,即含单一开放阅读框,指导合成一种肽链。真核基因均为单顺反子。② 多顺反子:其转录产物加工后得到多顺反子mRNA,即含不止一个开放阅读框,每个开放阅读框指导合成一种肽链。原核基因多为多顺反子(第四章,99页)。
6.基因家族 同一物种中,结构甚至功能相似、进化起源上密切相关的一组基因被定义为一个基因家族(gene family,多基因家族,multigene family)。基因家族中的基因同源(homology),即它们来自同一个祖先基因,有相似的结构甚至功能。人类基因组中有1.5万个基因家族,例如rRNA基因及以下蛋白基因组成各自的基因家族:组蛋白、珠蛋白、生长激素、肌动蛋白、丝氨酸蛋白酶、主要组织相容性抗原。基因家族中完全相同的基因成员称为重复基因(多拷贝基因)。重复基因主要存在于真核生物基因组中,如人类有几百个rRNA基因拷贝。原核生物有1~7个rRNA基因拷贝(大肠杆菌有7个),蛋白基因多数只有一个拷贝。
●蛋白质家族(protein family) 同一基因家族编码的蛋白质的相同序列通常都在25%以上,且拥有某些共同的结构特征甚至功能特征,组成相应的蛋白质家族。蛋白质数据库(PDB)里的蛋白质归于4000多个蛋白质家族。
二、基因的基本结构
前面提到断裂基因序列中存在内含子、外显子等序列。为了方便学习,这里先介绍基因序列中的各种功能序列,包括它们的相互位置关系(图1-14)。
图1-14 真核蛋白基因结构
1.转录区(transcribed region) 又称转录单位(transcription unit),是编码初级转录产物核苷酸序列的DNA序列,即RNA聚合酶转录的全部DNA序列,始于转录起始位点,终于终止子,占人类基因组序列的90%以上,其中蛋白基因转录区占人类基因组序列的30%。
2.编码序列(coding sequence) 又称编码区(coding region)、开放阅读框(第四章,99页),是基因组DNA、互补DNA(cDNA,第二章,71页)、mRNA中编码蛋白质氨基酸序列的密码子序列。cDNA和mRNA中的编码序列均始于起始密码子,终于终止密码子。
3.非编码序列(noncoding sequence) 又称非编码区(noncoding region)。①基因序列中除密码子序列之外的所有序列,例如内含子、增强子。②基因组序列中除基因序列之外的所有序列。人类基因组序列中98%以上为非编码序列。
●ENCODE计划(DNA元件百科全书计划)研究表明人类基因组序列90%以上有功能,可被转录,转录产物多为ncRNA。其余不到10%虽不被转录,但含调控元件。
4.调控元件(regulatory element) 又称调节元件、调控区、调控序列、顺式作用元件。① 影响基因表达的DNA序列,是RNA聚合酶或转录因子的结合位点,例如启动子和终止子。广义调控元件还包括反式作用元件,即调控基因,其编码产物称为反式作用因子、调节因子,包括蛋白质和RNA。②影响DNA复制或重组的DNA序列,例如复制起点和重组起点。
5.外显子(exon)和内含子(intron) 是交替串联组成断裂基因转录区的两种序列。
(1)外显子:是在转录产物RNA前体剪接时被保留的序列及其对应的基因序列,即转录区、RNA前体、功能RNA的共有序列。①可根据在RNA前体中的相对位置分为5'外显子、内部外显子和3'外显子。②可根据是否含密码子序列分为编码外显子和非编码外显子。③部分5'编码外显子由密码子序列和非密码子序列构成,分别称为5'编码外显子编码区和5'编码外显子非编码区。部分3'编码外显子由密码子序列和非密码子序列构成,分别称为3'编码外显子编码区和3'编码外显子非编码区。编码外显子编码区和内部外显子构成编码序列。
(2)内含子:又称间插序列(intervening sequence),是在剪接时被切除的序列及其对应的基因序列(即只存在于转录区和RNA前体中的序列)。内含子和非编码外显子、编码外显子非编码区均属于非编码序列。
人类一个基因所含的外显子数少至2个,多至179个,平均7~9个,平均长度145~150nt(50~10000nt),许多外显子仅够编码一个结构域(约50aa),内含子平均长度3365nt(50~10000nt,有的可达800000nt)。人类基因编码序列(几乎都是外显子序列)占转录区的5%~10%,占基因组序列的1%~1.5%。内含子序列占转录区的90%~95%,占基因组序列的24%~25.9%。
6.启动子(promoter) 是指基因序列中能被RNA聚合酶识别、结合,赖以组装转录起始复合物并启动转录的DNA序列,大多数位于基因(或操纵子)转录区的上游,具有方向性,属于调控元件(第三章,78页,82页)。
7.转录起始位点(transcription start site) 是转录区的第一个核苷酸,在指导RNA合成时最先被转录(第三章,78页)。Y. Suzuki等分析了人类基因组276种基因转录的5880种mRNA的转录起始位点:A(47%)、G(28%)、C(14%)、T(12%)。
8. [转录]终止子(terminator) 位于转录区下游的一段DNA序列,是转录的终止信号,其转录产物可通过形成发夹结构或其他二级结构使转录终止(第三章,80页)。