遗传信息从DNA分子抄录到RNA分子中的过程称为转录(transcription)。在真核生物中,最初转录生成的RNA称为不均一核RNA(heterogeneous nuclearRNA,hnRNA),然而在细胞浆中起作用,作为蛋白质的氨基酸序列合成模板的是mRNA(messengerRNA)。hnRNA是mRNA的未成熟前体。两者之间的差别主要有两点:一是hnRNA核苷酸链中的一些片段将不出现于相应的mRNA中,这些片段称为内含子(intron),而那些保留于mRNA中的片段称为外显子(exon)。也就是说,hnRNA在转变为mRNA的过程中经过剪接,被去掉了一些片段,余下的片段被重新连接在一起;二是mRNA的5′末端被加上一个m7pGppp帽子,在mRNA3′末端多了一个多聚腺苷酸(polyA)尾巴。mRNA从5′末端到3′末端的结构依次是5′帽子结构,5′末端非编码区,决定多肽氨基酸序列的编码区,3′末端非编码区,和多聚腺苷酸尾巴。多聚腺苷酸尾一般由数十个至一百几十个腺苷酸连接而成。随着mRNA存在时间的延续,这段聚A尾巴慢慢变短。因此,目前认为这种3′末端结构可能与增加转录活性以及使mRNA趋于相对稳定有关。原核生物的mRNA没有这种首、尾结构。
图15-13 hnRNA与mRNA的结构比较
(涂斜线者为外显子,空白者为内含子)
1961年,Jacob和Monod首先提出了mRNA的概念。在真核细胞中,由于蛋白质是在胞浆中而不是在核内合成,因此显然要求有一个中间物将DNA上的遗传信息传递至胞浆中。后来的研究证实,这种中间物即信使RNA。mRNA的核苷酸序列与DNA序列相应,决定着合成蛋白质的氨基酸序列。它如何指导氨基酸以正确的顺序连接起来呢?不同的mRNA碱基组成和排列顺序都不同,但都只有A,G,C,U4种碱基。如果一个碱基就可以决定一个氨基酸,则只有四种变化方式,如果两个碱基决定一个氨基酸,则只有16种变化方式,都不能满足20种氨基酸的需要。1961年Crick和Brenner的实验得出了三个核苷酸编码一个氨基酸的结论,并将这种三位一体的核苷酸编码称做遗传密码(genetic code)或三联体密码,这样就可以有64种不同的密码,但此情况下必须假定有一些氨基酸使用两个以上的密码。这一假定很快就被证明是对的。遗传密码具有下列特征:
(1)三个核苷酸组成一个密码子,每个密码子由三个前后相联的核苷酸组成,一个密码子只为一种氨基酸编码。共有64个密码子;
(2)密码子之间不重叠使用核苷酸,也无核苷酸间隔;
(3)一种氨基酸可有多个密码子,这个特点称为密码子的简并性;
(4)密码子的通用性,所有生物从最低等的病毒直至人类,蛋白质合成都使用同一套密码子表(表15-8),仅有极少的例外,如特殊细胞器线粒体,叶绿体所用的密码稍有不同。(表15-9)。
表15-8 通用遗传密码及相应的氨基酸
第一个核苷酸5′ | 第二个核苷酸 | 第三个核苷酸3′ | |||
U | C | A | G | ||
U | 苯丙氨酸 | 丝氨酸 | 酪氨酸 | 半胱氨酸 | U |
苯丙氨酸 | 丝氨酸 | 酪氨酸 | 半胱氨酸 | C | |
亮氨酸 | 丝氨酸 | 终止码 | 终止码 | A | |
亮氨酸 | 丝氨酸 | 终止码 | 色氨酸 | G | |
C | 亮氨酸 | 脯氨酸 | 组氨酸 | 精氨酸 | U |
亮氨酸 | 脯氨酸 | 组氨酸 | 精氨酸 | C | |
亮氨酸 | 脯氨酸 | 谷氨酰胺 | 精氨酸 | A | |
亮氨酸 | 脯氨酸 | 谷氨酰胺 | 精氨酸 | G | |
A | 异亮氨酸 | 苏氨酸 | 天冬酰胺 | 丝氨酸 | U |
异亮氨酸 | 苏氨酸 | 天冬酰胺 | 丝氨酸 | C | |
异亮氨酸 | 苏氨酸 | 赖氨酸 | 精氨酸 | A | |
蛋氨酸 | 苏氨酸 | 赖氨酸 | 精氨酸 | G | |
G | 缬氨酸 | 丙氨酸 | 天冬氨酸 | 甘氨酸 | U |
缬氨酸 | 丙氨酸 | 天冬氨酸 | 甘氨酸 | C | |
缬氨酸 | 丙氨酸 | 谷氨酸 | 甘氨酸 | A | |
缬氨酸 | 丙氨酸 | 谷氨酸 | 甘氨酸 | G |
表15-9 通用遗传密码与线粒体遗传密码之间的一些差异
密码子 | 通用编码 | 线粒体编码 | |||
哺乳动物 | 果蝇 | 酵母菌 | 植物 | ||
UGA | 终止码 | 色氨酸 | 色氨酸 | 色氨酸 | 终止码 |
AUA | 异亮氨酸 | 蛋氨酸 | 蛋氨酸 | 蛋氨酸 | 异亮氨酸 |
CUA | 亮氨酸 | 亮氨酸 | 亮氨酸 | 苏氨酸 | 亮氨酸 |
AGA | 精氨酸 | 终止码 | 丝氨酸 | 精氨酸 | 精氨酸 |
AGA |
注:下标横线者为与通用编码不同的编码
究竟哪一个密码子为哪一种氨基酸编码,即密码子与氨基酸之间的对应关系已在60年代研究解决了。1964年Nirenberg用一种RNA聚合酶体外合成了多聚尿苷酸、多聚腺苷酸等多聚核苷酸,将这些多聚核苷酸分别用于蛋白质的体外合成。发现,当所用的多聚核苷酸为多聚尿苷酸时,只有多聚苯丙氨酸合成,这意味着UUU为苯丙氨酸编码;用其它多聚核苷酸进行相应的实验后发现,CCC为脯氨酸编码,而AAA为赖氨酸编码;其后,有人又用核苷酸比例为已知,但是核苷酸序列随机的多聚核苷酸,以及用已知序列的含两种或两种以上核苷酸的多聚核苷酸进行相应的实验,将结果加以数理统计处理,又解读了一批密码子,其中包括三个终止码,最后,还有一些密码子是通过合成已知序列的三聚核苷酸与核蛋白体和载有放射性同位素标记的氨基酸的tRNA共沉淀原理予以解读的。在所有密码子中,AUG不仅为蛋氨酸编码,而且又是翻译(translation,以mRNA上的遗传信息指导核蛋白体上多肽链合成的过程)的起始信号,UAA、UAG和UGA不为任何氨基酸编码,而是作为翻译的终止信号,统称为终止码(stop codon),又常被叫作无意义码(nonsense codon)。
大多数氨基酸是由一个以上的密码子所编码。这个事实提出了一个问题:编码同一种氨基酸的一组密码子的使用频率是否都相同?细致的分析表明,无论是原核生物,还是高等真核生物,密码子的使用频率并不是平均的,有些密码子的使用率很高,有些则几乎不使用,其使用频率主要与细胞内tRNA含量呈正相关。