第一节 DNA的结构和功能

DNA的基本结构单位是一磷酸脱氧核苷(dNMP),包括一磷酸脱氧腺苷(dAMP)、一磷酸脱氧鸟苷(dGMP)、一磷酸脱氧胞苷(dCMP)和一磷酸脱氧胸苷(dTMP),分别由腺嘌呤(A)、鸟嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)等碱基与磷酸、脱氧核糖构成。一磷酸脱氧核苷按一定序列连接构成线性DNA单链,这是DNA的一级结构。两股DNA链反向互补结合并形成右手双螺旋结构,这是DNA的二级结构。原核生物及部分病毒的共价闭合环状DNA(第十一章,289页)进一步盘曲形成超螺旋结构;真核生物线性DNA与蛋白质及少量RNA结合,经过层层压缩,最终形成染色体结构,这些是DNA的三级结构

一、DNA的一级结构

1885年,A. Kossel团队(1910年诺贝尔生理学或医学奖获得者)从酵母核素中分离出腺嘌呤,1891年鉴定核酸成分之磷酸、腺嘌呤、鸟嘌呤,1893年鉴定胞嘧啶、胸腺嘧啶,1901年其学生A. Ascoli从酵母细胞核成分中鉴定尿嘧啶(A. Kossel还于1884年鉴定组蛋白,1896年鉴定组氨酸)。

四种一磷酸脱氧核苷通过3',5'-磷酸二酯键连接,构成DNA单链。

在DNA单链中,每个核苷酸的3'-羟基与相邻核苷酸的5'-磷酸基缩合,形成3',5'-磷酸二酯键(受2'-羟基影响,RNA的3',5'-磷酸二酯键不如DNA的稳定)。DNA主链又称骨架,由磷酸基与脱氧核糖交替连接构成,具有亲水性;碱基相当于侧链,具有疏水性。

DNA单链有方向性,即有两个不同的末端,分别称为5'端和3'端,5'端有游离磷酸基(或羟基),是头;3'端有游离羟基,是尾。DNA链有几种书写方式,均为从头到尾,即5'→3'端书写,与核酸的合成方向一致。

不同DNA分子的长度不同,其一磷酸脱氧核苷的排列顺序不同。核苷酸广义上包括一磷酸脱氧核苷,所以DNA的一级结构通常被定义为DNA的核苷酸序列(图1-1)。不同核苷酸只是碱基不同,所以核苷酸序列也称为碱基序列。

图1-1 核酸一级结构及其书写方式

二、DNA的二级结构

DNA典型的二级结构为右手双螺旋结构。此外,DNA分子还存在局部左手双螺旋结构、十字形结构和三股螺旋结构等。

(一)右手双螺旋结构

1953年,J. Watson和F. Crick结合Chargaff规则及R. Franklin和M. Wilkins对DNA纤维X射线衍射图的研究,提出了经典的DNA二级结构模型——双螺旋结构模型(double helix model,图1-2)。

图1-2 B-DNA双螺旋结构示意图

1.两股DNA链反向互补形成双链结构 在该结构中,DNA主链位于外面,碱基侧链位于内部(暴露于大沟和小沟内)。双链碱基形成Watson-Crick碱基配对(图1-3),即腺嘌呤(A)以两个氢键与胸腺嘧啶(T)结合,鸟嘌呤(G)以三个氢键与胞嘧啶(C)结合,这种配对称为碱基配对原则。由此,一股DNA链的核苷酸序列决定着另一股DNA链的核苷酸序列,两股DNA链称为互补链

图1-3 Watson-Crick碱基配对

2. DNA双链进一步形成右手双螺旋结构 在双螺旋结构中,碱基平面与螺旋轴(helical axis)垂直,脱氧核糖为C-2'内构象,糖苷键为反式构象,糖基平面与碱基平面接近垂直,与螺旋轴平行;双螺旋直径为2nm,每个螺旋含10bp(bp,base pair,用作双链核酸长度单位,1bp为1个碱基对),螺距为3.4nm,相邻碱基对之间的轴向距离为0.34nm;双螺旋表面有两道沟槽,相对较深、较宽的为大沟(轴向沟宽2.2nm),相对较浅、较窄的为小沟(轴向沟宽1.2nm)。

3.离子键、氢键和碱基堆积力维持DNA双螺旋结构的稳定性 金属离子与磷酸基形成的离子键和碱基对氢键维持双链结构横向稳定,碱基对平面之间的碱基堆积力(base stacking,包括范德华力和疏水作用)维持双螺旋结构纵向稳定。

上述双螺旋结构模型是在92%相对湿度下制备的DNA钠盐纤维的二级结构,称为B-DNA。在溶液状态下,每个B-DNA螺旋含10.5bp,螺距为3.6nm,且形成碱基对的两个碱基并非共面,而是形成螺旋桨结构。细胞内DNA几乎都以B-DNA结构存在。

(二)其他二级结构

相对湿度、离子强度等条件均能引起DNA二级结构的改变,除B-DNA外,通常还有A-DNA、Z-DNA(图1-4)、十字形结构、三股螺旋结构、四链体DNA等。

1. A-DNA 也是右手螺旋DNA,但脱氧核糖为C-3'内构象,糖苷键为反式构象,因而与B-DNA相比大沟变窄、变深,小沟变宽、变浅。A-DNA双螺旋直径为2.6nm,每个螺旋含11bp,螺距为2.8nm。A-DNA是不高于75%相对湿度下制备的DNA钠盐纤维的二级结构。在细胞内,某些DNA-蛋白质复合物中含A-DNA,RNA双链区及某些DNA-RNA杂交双链的二级结构与A-DNA一致。

2. Z-DNA 是左手螺旋DNA,嘧啶核苷酸脱氧核糖为C-2'内构象,糖苷键为反式构象,嘌呤核苷酸脱氧核糖为C-3'内构象,糖苷键为顺式构象。Z-DNA主链呈锯齿状,其表面只有一道沟槽,对应B-DNA的小沟,窄而深。Z-DNA双螺旋直径为1.8nm,每个螺旋含12bp,螺距为4.5nm。Z-DNA形成于嘧啶嘌呤交替排列序列,特别是CpG序列,在B-DNA大沟暴露的胞嘧啶发生甲基化修饰时,可变构为Z-DNA。DNA的这类变构效应与基因表达调控或DNA重组有关。

图1-4 几种DNA双螺旋结构

3.十字形结构 双链DNA中存在一类反向重复序列(IR),特别是调控序列附近及复制起点处,这种序列可以形成十字形结构。这种结构可能有助于DNA与DNA结合蛋白(DBP)结合,故可能参与复制和转录调控。大肠杆菌DNA复制起点也存在十字形结构(cruciform,图1-5)。

图1-5 DNA反向重复序列与十字形结构

4. G-四链体 DNA分子中,4个共平面的鸟嘌呤可通过Hoogsteen氢键结合形成G-四分体(G-quartet),富含鸟嘌呤序列(如G3+N1~7G3+N1~7G3+N1~7G3+)可形成G-四链体(G-quadruplex)。G-四链体中多核苷酸链的骨架可平行或反平行排布(图1-6)。研究表明,G-四链体序列普遍存在于端粒、复制起点、启动子等处,故可能参与复制和转录调控。人类基因组中约300种基因转录产物mRNA的5'非翻译区也含有G-四链体序列。某些癌基因序列中的G-四链体有望成为药物靶点。

图1-6 G-四分体和G-四链体结构和类型

三、DNA的超螺旋结构

B-DNA的双螺旋结构称松弛结构(relaxed state,每个螺旋碱基对数=10.5bp),其螺旋轴呈没有扭转(加捻,twisting)的线性或环形状态。松弛结构在不破坏双螺旋结构的前提下扭转,则螺旋轴会形成螺旋,称超螺旋结构(supercoil),扭转过程称为超螺旋化(supercoiling)。螺旋轴顺双螺旋方向扭转形成正超螺旋(positive supercoil,单螺旋碱基对数<10.5bp),表现为单位长度所含右手螺旋数多于松弛DNA,被称为扭转过度(overwound)。螺旋轴逆双螺旋方向扭转形成负超螺旋(negative supercoil,单螺旋碱基对数>10.5bp),表现为单位长度所含右手螺旋数少于松弛DNA,被称为扭转不足(underwound)。DNA在细胞内通常处于负超螺旋状态,这有利于其复制或转录时解链。

●DNA扭转应力(DNA torsional stress) 是指施加大小相等、方向相反的旋转力于B-DNA的两股链,使其相对于螺旋轴产生某种旋转而产生的作用力。根据施加旋转力的方向,产生的DNA扭转应力有正和负两种。负应力促使形成负超螺旋结构,正应力促使形成正超螺旋结构。

超螺旋结构分为螺线管型(solenoidal)和相缠型(plectonemic)。螺线管型正超螺旋的螺旋轴形成右手螺旋,负超螺旋的螺旋轴形成左手螺旋(图3-6,第三章,80页)。相缠型正超螺旋的螺旋轴形成左手双螺旋,负超螺旋的螺旋轴形成右手双螺旋(图1-7)。

图1-7 相缠型超螺旋

四、染色体的结构

真核生物染色体DNA与组蛋白、非组蛋白及少量RNA在细胞分裂间期形成染色质结构,在细胞分裂期形成染色体结构,两者的主要区别是压缩程度(称为压缩比、包装比)不同。

(一)染色体组成

染色体的主要成分是DNA和组蛋白,它们含量稳定,含量比接近1∶1。此外,染色体还含有少量RNA和非组蛋白,其含量随着生理状态的变化而变化。

1.组蛋白(histone) 是真核生物染色体的基本结构蛋白、含量最多的染色体蛋白。C端2/3序列富含疏水性氨基酸残基,N端1/3序列富含碱性氨基酸残基Arg和Lys(约占氨基酸残基数的1/4)。组蛋白属于碱性蛋白质,等电点pI>10。

组蛋白主要有H1、H2A、H2B、H3和H4五类,其中H2A、H2B、H3和H4称为核心组蛋白(core histone),H1称为连接DNA组蛋白(linker histone)。核心组蛋白一级结构高度保守,特别是H3和H4,没有明显的种属特异性和组织特异性,含量也很稳定,提示其功能高度保守。例如豆类(Ile60、Arg77)与牛(Val60、Lys77)的组蛋白H4仅有两个氨基酸残基不同,人与酵母的组蛋白H4仅有八个氨基酸残基不同。相比之下,连接DNA组蛋白H1在不同生物体、不同组织细胞中的差异较大,在个体发育过程中也有变化。组蛋白在维持染色体的结构和功能方面起关键作用。

2.非组蛋白(nonhistone) 大多数非组蛋白比组蛋白大,且富含酸性氨基酸,属于酸性蛋白质。非组蛋白种类广泛,具有种属特异性和组织特异性,并且在整个细胞周期中都有合成,而不像组蛋白仅在S期与DNA同步合成。非组蛋白既有支架蛋白(scaffold protein),又有酶和转录因子等,其主要功能是参与DNA折叠、复制、修复、重组,RNA合成与加工,基因表达调控。非组蛋白有以下特性:

(1)种类多样性:有几千种,包括染色质重塑蛋白、DNA复制酶系、转录酶系等,其中含量最多的依次为DNA拓扑异构酶、染色体结构维持蛋白,种类最多的为转录因子。

(2)结合特异性:以离子键、氢键结合于特定DNA序列的大沟。这些序列进化上具有保守性。相应的非组蛋白多可二聚化。

非组蛋白的结合特异性源于其含各种DNA结合基序,如螺旋-转角-螺旋、锌指、亮氨酸拉链、螺旋-环-螺旋(第六章,168页)。

(3)功能多样性:包括染色质组装、染色体重塑、基因表达调控等。

3.非编码RNA(noncoding RNA) 占染色体质量的1%~3%,含量最低,变化较大。功能是通过与组蛋白、非组蛋白相互作用而调控基因表达。

(二)染色体结构

真核生物DNA在双螺旋的基础上与组蛋白等组装,经过多级压缩形成染色质、染色体结构。

1.串珠纤维 核小体是串珠纤维的基本结构单位,由组蛋白核心和核小体DNA(=核心DNA +连接DNA)构成。不同生物核小体DNA长度不同,人核小体DNA长185~200bp。

(1)一个(H3-H4)2四聚体与两个H2A-H2B二聚体构成组蛋白八聚体(histone octamer),又称核小体核心(nucleosome core)、组蛋白核心(histone core)。

(2)组蛋白八聚体被核心DNA(core DNA,145~147bp)以左手螺线管(solenoid,负超螺旋)方式缠绕1.67圈,形成圆盘形核小体核心颗粒(nucleosome core particle),厚约6nm,直径10~11nm。

(3)核小体核心颗粒与连接DNA(linker DNA,15~60bp)构成核小体(nucleosome,人单倍体DNA与核心组蛋白形成1.7×107个核小体)。

(4)若干核小体形成直径约为10nm的串珠纤维(beads-on-a-string,又称核小体纤维、10nm纤维,图1-8)。从DNA双螺旋到串珠纤维,包装比(packing ratio,又称压缩比)为6~7。

图1-8 串珠纤维

串珠纤维进一步包装成高度凝集的染色质、染色体结构,包装机制尚未阐明,以下为早期假说之一。

2.染色质纤维 串珠纤维经过螺旋化形成直径约为30nm、螺距约为12nm的螺线管,称为30nm纤维,其每个螺旋含6~7个核小体,且每个核小体需结合一分子H1(结合于连接DNA与核心DNA的连接部,覆盖约20bp DNA;结合力较弱,可在盐溶液中分离)形成染色质小体(chromatosome,表1-1)。核心组蛋白N端、组蛋白H1、高离子强度对螺线管的形成和稳定起重要作用。从串珠纤维到30nm纤维,压缩比为6。

表1-1 染色质结构单位组成

30nm纤维进一步结合非组蛋白、少量RNA及与复制转录有关的酶类,形成染色质纤维(chromatin fiber)。

3.染色线 在细胞分裂前期,染色质纤维进一步螺旋化形成直径约为300nm的超螺线管(supersolenoid)结构,称为染色线300nm纤维。从30nm纤维到300nm纤维,压缩比为40。

4.染色单体 300nm纤维凝缩成直径约为700nm的染色单体,压缩比为5。因此,细胞分裂中期染色单体的压缩比高达8000~10000;相比之下,在细胞分裂间期,染色质结构的压缩比仅为100~1000。

近期研究表明:①串珠纤维进一步包装形成染色质过程不存在染色质纤维形成环节。②染色质、染色体中存在化学本质为蛋白质的染色体支架(chromosomal scaffold),DNA通过一些特异序列与支架结合。

串珠纤维在细胞分裂间期形成松散的染色质结构。它们并非如几十根面条在碗中相互纠缠,而是像聚拢的钢丝球一样各自独占一定空间(染色体域,chromosome territory)。每一条染色质均含两类区段,一类凝集程度低,所含基因处于活跃状态,位于常染色质区;另一类凝集程度高,所含基因处于沉默状态,或不含基因序列,位于异染色质区。两类染色质都含有一类绝缘子序列(第六章,161页),可募集一类转录抑制因子。相邻绝缘子序列平均间距800kb,与转录抑制因子结合形成DNA环,凝集为拓扑结构域(topologically associating domain,图1-9)。

图1-9 染色质拓扑结构域

实际上,由于细胞内不断进行新陈代谢及基因表达,DNA的扭转盘绕是一个动态过程,所以在不同周期时相、不同代谢状态、不同DNA区段,其盘绕方式和盘绕程度都不相同。

(三)染色体结构生理意义

DNA形成染色体结构具有重要的生理意义。

1.便于细胞核容纳 DNA分子在长度上高度压缩,有利于组装。例如人体细胞核内有23对染色体,其DNA总长度1.7~2m,在细胞分裂期被压缩到长度约200μm(细胞核直径10~15μm),压缩了8000~10000倍。

成年人体约有1014个细胞,所含DNA总长度2×1011km。与地球周长(4×104km)及地球和太阳之间的距离(1.5×108km)对比或更易理解其压缩意义。

2. DNA保护 相比之下,裸DNA(naked DNA)容易受到损伤。

3.便于细胞分裂时正确分配 避免形成非整倍体、异倍体。

4.便于基因表达调控 使基因表达以正调控为主。

5.超螺旋结构影响复制和转录 细胞核内DNA结构处于动态变化之中。超螺旋的转换可以协调DNA局部解链,从而影响复制和转录等的启动及进程。

五、染色体外DNA

真核生物还存在线粒体DNA、叶绿体DNA(植物)等,许多原核生物及个别真核生物(酵母等真菌)还携带质粒,它们统称染色体外DNA。染色体外DNA与原核生物染色体DNA均为裸露结构,统称基因带(genonema)。

(一)线粒体DNA

1894年,R. Altmann发现线粒体。1963年,M. Nass和S. Nass从鸡胚肝细胞线粒体内鉴定线粒体DNA(mtDNA),它所携带的遗传信息可以指导合成部分线粒体蛋白,因而属于细胞核外遗传系统。

一个细胞可以含成百上千个线粒体,一个线粒体含多个mtDNA拷贝,因此一个细胞含大量mtDNA,可达细胞总DNA的1%。mtDNA属于重复序列(26页)。

绝大多数mtDNA为共价闭合环状结构,一股链含较多的嘌呤碱基,浮力密度较高,称为H链(heavy chain,重链);另一股链含较多的嘧啶碱基,浮力密度较低,称为L链(light chain,轻链)。草履虫mtDNA虽为线性结构,但末端为发夹结构,故没有游离单链末端。

人的线粒体多数含2~10个mtDNA拷贝,位于线粒体基质的不同区域。每个拷贝含16569bp,几乎均为编码序列(基因间区累计仅87bp),编码2种rRNA(12S rRNA和16S rRNA)、22种tRNA(负载Leu和Ser的tRNA各有2种)和13种蛋白质多肽链(呼吸链复合物Ⅰ、Ⅲ、Ⅳ和ATP合成酶的7、1、3和2种肽链,每种约50aa。aa:氨基酸,这里作为肽链长度单位)。人mtDNA于1981年完成序列分析。

(二)质粒

质粒(plasmid)是游离于某些细菌及个别低等真核生物(酵母等真菌)染色体DNA之外、能自主复制的遗传物质,大多数是一种共价闭合环状DNA,大小为2~400kb。质粒含复制起点,能够利用宿主细胞(host cell,是指病毒、质粒或其他外源DNA转化并赖以复制或扩增的细胞)的DNA复制系统进行复制,并在宿主细胞分裂时分配给子细胞。质粒在三个方面不同于染色体DNA:①许多质粒不是宿主细胞生长所必需的,许多细菌没有质粒。②一个细胞通常含多个质粒拷贝。③在宿主细胞分裂形成子细胞时,它们向子细胞的分配是随机的。

一个宿主细胞所含质粒的数目称为质粒拷贝数。质粒拷贝数由其复制类型决定,并据此将质粒分为两类:①严紧型质粒(stringent plasmid):其复制与宿主染色体复制同步,拷贝数较低,一个细胞内仅有1~3个,例如pSC101。②松弛型质粒(relaxed plasmid):其复制与宿主染色体复制不同步,可以自主复制,拷贝数较高,一个细胞内可有10~500个,例如ColE1。一种质粒是属于严紧型还是松弛型,常和宿主细胞的代谢状况有关。例如,R质粒在大肠杆菌中属于严紧型,而在奇异变形杆菌中属于松弛型。因此,质粒复制不仅由自身控制,还受宿主细胞制约。

质粒在重组DNA技术中用于构建载体。

质粒可根据所携带基因功能的不同分为R质粒(又称抗性质粒)、F质粒(又称性因子、F因子、致育因子)、Col质粒(又称Col因子、大肠杆菌素生成因子)等。

此外,真核生物细胞核内存在染色体外环状DNA(eccDNA),其意义有待系统阐明。目前发现50%以上肿瘤细胞细胞核内存在eccDNA,携带肿瘤生长所需基因。正常心肌细胞eccDNA携带肌连蛋白(titin)基因。