基因测序或DNA测序并没有严格意义的区分,已不再简单地指特定基因序列的测定。DNA分子由四种经典碱基组成:胸腺嘧啶(thyime; T)、腺嘌呤(adenine; A)、胞嘧啶(cytosine; C)和鸟嘌呤(guanine; G),因此,与DNA测序相同,基因测序也是测定一个DNA分子片段内核苷或碱基的精确顺序。它包括任何可测定一条链中四种碱基——腺嘌呤、鸟嘌呤、胞嘧啶、胸腺嘧啶的排列顺序的方法或技术。
基因测序
测定一个DNA分子片段内核苷或碱基精确顺序的技术。
- 英文名称
- gene sequencing
- 所属学科
- 化学
与DNA测序相同,基因测序分析也需要采用一系列的方法和技术。1970年,美国康奈尔大学吴瑞[注]提出了一个位点特异性引物延伸策略,以此为基础,建立了第一个DNA序列测定方法。这一方法中所采用的DNA聚合酶催化和特异性核苷标记仍然是现代测序技术的基础。1977年,F.桑格提出了链终止法,并结合引物延伸策略,发展了更加快速的DNA测序方法,即“基于DNA双脱氧链终止的测序法”。美国哈佛大学的A.马克萨姆[注]和W.吉尔伯特发展了一种基于化学降解的DNA测序法。测序的进步也得益于同期发展的重组DNA技术。1977年,以噬菌体fX174为样本,实现了第一个全基因组测序。1984年,测出了埃博拉病毒全部的DNA序列,发现它含有172282个核苷。由于以前没有病毒的基因组背景知识,这一序列解读的完成标志了DNA测序的一个具有重要意义的拐点。这些早期的DNA测序技术,都需要采用电泳分离和放射性同位素标记,存在操作烦琐、难以自动化、费时费力、成本较高、测序通量低等缺点。20世纪90年代,发展出阵列毛细管电泳测序技术,并于1998年实现商品化,大大提高了测序的水平和速度,开辟了大规模测序的新时代,使人类基因组计划提前完成。
1990年,提出了在DNA阵列上采用3′可去除的阻挡剂的边合成边测序(base-by-base)方法。1996年,发表了焦磷酸测序法。1997年P.迈耶[注]和L.法里内利[注]向世界知识产权组织提交DNA克隆测序的专利。该专利中的DNA制备方法和随机表面-聚合酶链式反应阵列方法与钱永健等提出的边合成边测序方法相结合,构成现在Illumina's Hi-Seq基因组测序仪的方法和技术基础。
高通量测序技术或下一代测序技术是对传统测序一次革命性的改变,一次对几十万到几百万条DNA分子进行序列测定。同时,高通量测序使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又称深度测序(deep sequencing)。下一代DNA测序技术最大的特点就是采用了大规模矩阵结构的循环阵列测序(cyclic-array sequencing),此项技术可以简单概括为:对含有DNA样品的阵列重复进行聚合酶扩增反应,同时,利用显微设备采集在连续循环扩增过程中产生的光学信号,最后利用系列碱基特异性的光学信号确定碱基序列。2005年提出了较为完整的循环阵列测序技术,此项技术的核心思想是边合成边测序:首先构建DNA模板文库,将基因组DNA随机分割成小片段DNA分子(长度为数十到数百碱基不等),然后在这些小片段DNA分子的末端连接上普通接头,变性得到单链模板文库,并固定在载体表面上。利用这些小片段DNA分子制成几百万个空间固定的PCR克隆阵列(polony)或是扩增微球,每个克隆阵列或扩增微球中都含有一个小片段DNA分子的许多个拷贝。克隆的扩增可以通过以下方式完成:原位成簇(in situ polony)、微乳液PCR或是桥式PCR等方法。然后与桑格法类似,由重复的聚合酶促反应进行引物延伸和荧光读取DNA序列信息。由于所有的克隆阵列都在同一个平面上,使得这些测序反应可以大规模平行进行。在此基础上研制开发的较为成熟的测序仪包括:美国Roche Applied Science公司的454基因组测序仪、美国Illumina公司和英国的Solexa technology公司共同开发的Illumina测序仪、美国ABI公司的SOLiD测序仪等。几乎所有的下一代DNA测序技术的测序长度都要明显短于传统桑格法的测序长度,但是读序准确率要比桑格法测序技术低。
在下一代DNA测序技术不断发展的同时,单分子实时DNA测序技术(single molecule real time DNA sequencing; SMRT)也逐渐发展起来。以HeliScope测序平台为例,利用单分子荧光显微分析,针对一个单链DNA模板分子,借助DNA聚合酶可将带有荧光标记的正确dNTP延伸到合成链上,获得可采集的荧光信号,所采集的荧光持续的长短直接与碱基特性有关,因而可报告所加入的碱基。切除荧光标记基团,再进行下一个碱基的延伸与测定。如此反复,最终获得整个片段的序列信息。单分子实时测序可始终以一个母本DNA双链为模板,可进行多次PCR扩增,以提高测序的准确率。与下一代DNA测序技术相比,单分子测序具有信息密度高、误差率不随链延长而增加、读序长等优点。另外,由于始终以一个母本DNA双链为模板,聚合酶催化的链延伸过程对碱基的结构敏感,可用于测定DNA甲基化修饰等,如N6-甲基腺嘌呤。
20世纪80年代早期发展了一种非放射性方法,并由GATC Biotech公司商品化,生产DNA测序仪,并命名为直接印迹电泳系统GATC1500A。该测序仪已强力用于欧盟测序项目,酵母Saccharomyces cerevisiae 2号染色体的完整序列。1986年,L.E.胡德[注]发布了第一台半自动DNA测序仪器。Applied Biosystem于1987年实现了第一台全自动化测序仪(ABI 370)的市场化;以及杜邦公司的Genesis 2000。Genesis 2000利用了一种新的荧光标记,允许全部四种双脱氧核苷酸可在一个分离通道中被识别。到1990年,美国NIH开始了大规模的测序尝试。同时,人cDNA序列测定开始,以解读人基因组编码部分。1995年第一个可自由活动生物(细菌Haemophilus influenzae)的全基因组序列研究成功。这个圆形染色体含有1830137碱基,标志第一个发表的全基因组散弹猎枪测序法,消除了初始拼图的需要。2001年,散弹猎枪测序法已用于人基因组序列草图的测绘工作。现在测序仪器与平台主要有以下几种:大规模平行签名测序(massively parallel signature sequencing; MPSS)、聚合酶克隆(polony sequencing)、454焦磷酸测序(454 pyrosequencing)、Illumina(solexa)sequencing、ABI SOLiD sequencing、离子半导体测序(ion semiconductor sequencing)、DNA纳米球测序(DNA nanoball sequencing)等。
DNA测序可应用于测定单个基因、更长的基因区域(如基因簇或操纵子)、染色体或整个基因组。通过测序可获得从动物、植物、细菌、古菌或其他来源获得的DNA或RNA分子内各种核苷的顺序。相关的序列信息可用于生物学、医学、法医学、环境健康、生态学等领域的研究。快速和高通量DNA测序方法的出现大大加速了生物或医学研究和发现,也推动精准医学的提出和发展。
一个DNA分子除了四种经典碱基之外,也可能出现许多其他碱基。在一些病毒和生物体内,胞嘧啶可为羟甲基胞嘧啶或羟甲基化葡萄糖胞嘧啶所取代。在哺乳动物DNA中,可发现5-甲基胞嘧啶和N6-甲基腺嘌呤。一般测序技术难以直接检测这些修饰碱基。