1982年,凯特[注]等根据各个氨基酸的疏水标度值,把氨基酸序列通过滑动的矩形窗转换成疏水图谱,设定合适的阈值,从而判定可能的跨膜区。而Von Heijine提出的“正电荷居内规则”被利用到跨膜蛋白的预测中,大大提高了其预测的准确性。已经开发出了一些方法:T0PRED法是第一个将疏水性分析方法和“正电荷内居规则”结合应用的预测方法。
而SPLIT法则是根据统计的已知二级结构的跨膜蛋白中氨基酸的偏好性来预测跨膜蛋白结构的。MEMSAT法将氨基酸偏好性和动态规划法结合, 取得了较好的预测效果。随后,蛋白质家族信息的应用又进一步提高了膜蛋白结构预测的准确性,PHDhtm法就是第一个将这些信息用于膜蛋白结构预测的方法。
在基因组数据中,有20%~30%的基因产物被预测为膜蛋白,这样的比重显示了跨膜蛋白在生物体中的重要性。但是,由于跨膜蛋白具有强疏水性,难于形成X射线衍射所需要的晶体,因此,已知跨膜蛋白三维结构的只有少数几种,如细菌视紫红质、光合反应中心、细胞色素C氧化酶等。可见,已知的跨膜蛋白序列个数和已知的跨膜蛋白结构个数之间存在着巨大差距,这就需要有效的、准确度高的算法来预测跨膜区域和跨膜方向以指导跨膜蛋白的研究。另一方面,通过预测,能够揭示出其隐含的生物学意义,从而指导跨膜蛋白生物学实验。跨膜蛋白的这些结构特点使得其拓扑结构的预测比水活性球蛋白的结构预测容易,也具有更高的准确度。
由于跨膜蛋白穿过膜的磷脂双层,这种特殊的环境就决定了跨膜区必须由强疏水的氨基酸组成。同时,磷脂双层的厚度又决定了跨膜区由20个左右的氨基酸组成。为了稳定地存在于膜的磷脂双层中,跨膜区一般折叠成α螺旋、β桶状结构。已知的跨膜大多数都是α螺旋结构。