每条染色体含1个DNA分子,1个细胞的全部遗传信息(基因)都编码在线状的DNA分子上。由于每个体细胞中有2套染色体(2n),故所含的DNA是由两个基因组(genome)构成。每个单倍体基因组约含3.2×109bp。人类基因的平均长度为1-1.5kb,所以基因组以足以编码1.5×106蛋白质,但实际上编码蛋白质的结构基因只不过5万-10万个,仅占总基因组的2%-3%。其余的DNA顺序包括基因之间的间隔顺序、基因内插入顺序、重复顺序等。目前,对它们的功能知之甚少,绝大多数重复顺序只不过是过剩的DNA。但是,其中一些则有着特殊的功能,包括:调节基因的表达,增强同源染色体之间的配对和重组,维持染色体结构,调节前mRNA的加工以及参与DNA的复制等。

(一)单一顺序

单一顺序(uniquesequence)约占基因组的60%-65%,这种顺序在一个基因组中一般仅有单个或几个拷贝,大多数编码蛋白质和酶基因属于此类。单一顺序还以间隔顺序和散在分布在重复顺序构成侧翼。

(二)重复顺序

重复顺序(repetitivesequence)是指在一个基因组中有很多拷贝,又可分为几类:

1.高度重复顺序(highly repetitive sequence) 其长度可能2、4、6、8等几个bp,较长的顺序可达200bp,但是重复拷贝数可达106次以上,例如染色体着丝粒、端粒和Y染色体长臂上的异染区就是由高度重复顺序的卫星DNA(satellite DNA)构成的,高度重复顺序不能转录,它们参与染色体结构的维持,形成结构基因间隔,可能与减数分裂时同源染色体的联会配对有关。

2.中度重复顺序(moderately repetitive sequence) 其长度300-7000bp,一般都是不编码的顺序。据认为在基因调控中起重要作用,包括开启或关闭基因,促进或终止转录,DNA复制的起始,参与前mRNA加工等。例如人类Alu家族(Alu family),占人类基因组的3%-6%,由300bp构成,在第170位附近都AGCT顺序,可被内切酶AluⅠ所切割(AG↓CT)故得名。这些顺序在基因中重复达30-50万次,平均5kbDNA就有一个Alu顺序。此外还有KpnⅠ家族(KpnⅠfamily),约占基因组的3%-6% ,由3000-4800个拷贝构成,其功能不详。此外,还有小卫星DNA和微卫星DNA(参阅第十三章)。

3.基因家族和基因簇真核基因组中有许多来源相同.结构相似.功能相关的基因,这组基因称为基因家族(genefamily)。基因家族的成员可以分布于几条不同染色体上,也可集中于一条染色体上。集中成簇的一组基因称为基因簇(gene cluster)。例如人类白细胞抗原(HLA)系统的7个连锁基因座位,排列成A-C-B-D-DR-DQ-DP,形成一个基因簇。此外,人类的类α和β珠蛋白基因簇分别集群串联排列于16p13和11p15上,而组蛋白基因簇则群集于7q32-q36。有些基因家族的成员并不集中排列为基因簇,而是散布在基因组中不同部位,如微管蛋白基因家簇,微管相关蛋白2(MAP2)定位于2q34-q35,微管相关蛋白tau,β(MAPT1)定位于17q21,微管相关蛋白tau-2(MAPT2)定位于6q21。

(三)假基因

在基因家族中的某些成员并不产生有功能的基因产物,称为假基因(pseudogene),如Ψξ、Ψα、Ψβ等。假基因起始也可能有功能,后来由于缺失、倒位或点突变等原因使这些基因成为无功能的基因。假基因可以与有功能基因连锁,也可以由于染色体易位或作为转座子,从一部位移到另一新的部位。

此外,人类基因组中还有一些特殊的短顺序位于各基因的侧翼,它们是起到调控作用的调节顺序(启动子、增强子等)。有的是与细胞恶性转化有关的原癌基因(proto-onco-gene)等构成了五花八门的人类基因组结构。