首页 . 理学 . 生物学 . 遗传学 . 遗传学 . 基因组学 . 比较基因组学

基因预测

/gene prediction/
条目作者杜政霖

杜政霖

最后更新 2023-04-20
浏览 213
最后更新 2023-04-20
浏览 213
0 意见反馈 条目引用

研究DNA结合蛋白(转录因子)如何定位基因组内特异性结合位点紧密关联的基因组注释的关键步骤。

英文名称
gene prediction
所属学科
生物学

基于在细胞内生物化学过程的理解基础上,例如基因的转录、翻译,蛋白质之间相互作用和调节过程进行的,是转录组学蛋白质组学代谢组学等多组学领域中,更为普遍的结构和功能基因组学研究的活跃子课题,已成为生物信息学领域的研究热点。

DNA测序技术飞速发展,一些生物的基因组序列测定相继完成,如何有效处理大量已测定的但未知功能或未经注释的DNA序列,尤其是在基因组序列中找到功能基因,即基因预测。在计算生物学中,基因预测或基因发现是指识别基因组DNA序列中编码基因区域的过程,这包括蛋白质编码基因及RNA基因,也包括其他功能元件(例如调控序列)的预测。

基因预测是研究一个物种基因组测序完成后的第一个也是最关键的步骤。概括来说,基因预测就是从给定的一段基因组DNA序列中预测出基因所在的精准位置。虽然基因有很多类型,但基因预测主要还是针对那些编码蛋白质的基因。早期的基因预测研究开始于20世纪80年代中期,当时预测的方法比较简单,主要都是针对蛋白质编码区的识别,后来基因预测的主要研究方向转移到了识别完整基因上来。随着基因预测研究的不断深入与发展,基因预测的准确性也不断提高,如今已经发展出了几十种重要的基因预测的方法。

已经开发了一些用于基因预测的算法,例如长ORF识别法,同源序列比较法、密码子偏好预测法、神经网络模型、隐马尔可夫模型、Z-曲线法等,产生了genewise、exonerate、geneblastG、geneMoMa等同源性预测工具,augustus、glimmer、genScan、genemark、fgenesh等基因序列组成的统计特征预测工具。由于不同策略具有各自的优缺点,因此,成功的做法是将两种预测结果进行整合,综合这些方法的优点而开发的混合预测方法,得到比较理想的注释结果。

根据预测对象的不同,基因预测方法分为原核基因的预测方法与真核基因的预测方法。相对而言,原核生物基因的预测较为简单,因为原核生物基因组结构相对简单,基因组中基因的分布高度密集,再加上原核生物基因几乎都不存在内含子,因此只需寻找达到一定长度而具有起始密码的开放阅读框(ORF)。其中较为复杂的情形包括:同一转录子编码多个蛋白;不同的基因间相同方向或相反方向互相重叠等。因此用计算的方法识别原核生物基因比较容易。但对于真核生物,基因预测就变得复杂得多。真核生物基因因为有内含子和外显子之分,加之选择性转录本的存在,其基因结构的预测成为生物信息学研究中的一大挑战。其中的难点之一为外显子和内含子交界位点的确定,而第一个包含起始编码子的外显子的预测难度更大。真核生物基因预测的另一难点是许多基因利用多种可能的外显子进行不同的组合获得不同的基因表达产物。

根据基因识别原理的不同,基因预测方法又可以分为同源性预测法(homology-based methods)和基因序列组成的统计特征预测法(statistics-based methods)。同源性预测法又称重新(de novo)基因预测或“外在方法”,主要是基于基因具有同源性的特点,利用数据库中现有的与基因有关的信息,通过同源比较来发现基因。基于序列组成的特征预测法又称从头预测(ab initio)方法或“内在方法”,根据蛋白质编码基因的一般性质和特征进行识别,通过统计值区分外显子内含子及间隔区域。一般意义上,编码基因具有两种类型的特征:一类特征是“信号”,由一些特殊的序列组成,通常预示着其周围存在一个基因;另一类特征是“内容”,即蛋白质编码基因所具有的某些统计学特征。因此,基于序列组成的统计特征预测法又可分为基于内容识别的基因预测法和基于信号识别的预测法。

从基因组测序一开始,一个明确的目标就是能够准确地进行从头开始(ab initio)的基因预测,即只依赖蕴含在DNA序列内部的信息来确定基因结构。这种想法来自人们希望用计算机模拟生物体内转录和翻译的信号识别过程,从而构建一个体外的基因识别系统。

重新(de novo)基因预测的策略是利用对照基因组与目标基因组的比较信息来进行基因预测。随着基因组测序项目的不断进行,越来越多的基因组被测序,人们认识到可以利用自然选择所提供的蛋白质编码基因的信号来分析新的基因组。两个或多个物种中的直系同源序列的突变频率和模式提供了宝贵的注释信息,这为重新基因预测提供了基础。

  • 张革新.简明生物信息学教程.北京:化学工业出版社,2006.
  • 叶子弘.生物信息学.生物信息学:浙江大学出版,2011.
  • YANDELL M, ENCE D.A beginner's guide to eukaryotic genome annotation.Nature reviews genetics,2012,13(1):329-342.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!