化学信息学是一门应用信息学方法来解决化学问题的学科。20世纪中后期,伴随着计算机技术的发展,化学家开始意识到,多年来所积累的大量信息只有通过计算机技术才能有效获得和处理。这些信息必须通过数据库的形式存在,才能为科学界所用。最初这一新领域缺乏合适的名称,活跃在该领域的化学家称他们在“化学信息领域”工作。然而,这一名称难以将处理化学文献的工作和发展计算机方法来处理化学信息的研究分别开来。为了强调计算机技术在处理化学信息中的重要性,一些化学家将其称为“计算机化学”,但是这个名称容易与理论化学计算即“计算化学”混淆。
1973年,北大西洋公约组织(NATO)高级研究所在荷兰举办了“化学信息学的计算机表征与处理”研讨班。参加这次会议的科学家主要从事化学结构数据库、计算机辅助有机合成设计、光谱信息分析和化学计量学等方面的研究,或者开发分子模拟软件。研讨班期间,与会者意识到一个新的研究领域已经形成,并且该领域涵盖了化学各个分支。从此,应用于解决化学问题的计算机科学和信息学方法悄然进入了化学的各个领域。对化学信息学最早的定义为:“应用信息技术和信息处理方法已成为药物发现过程中一个很重要的部分。化学信息学实际上是一种信息源的混合体。它可将数据转换为信息,再由信息转换为知识,从而使我们对药物先导化合物的识别和组织过程的决策变得更有效。”
包括将每一个化合物的立体化学参数、相关光谱数据〔如核磁共振(NMR)谱、红外光谱、质谱等〕、纯度数据〔如高效液相色谱(HPLC)〕以及各种生物活性测定数据等相关信息动态组合到数据库中。
包括应用各种软件建立构效关系模型,其中使用了各种化学计量学方法(如多元统计回归分析等)。构效关系模型就是关联用数值表征的分子结构与其生物活性间的相关性。传统的定量构效关系(QSAR)研究是通过自由能将各种独立变量联系起来,即通过简单的数值来度量相似性。但化学结构的相似性度量相对比较复杂。只有在一个正确有效的描述空间内才有可能客观度量分子之间的相似性和差异性,才能描述一个化学分子是相当活跃的研究领域,从而进行有目的的筛选并得到理想的目标分子库。现代研究多采用二维、三维甚至更高维的药效团指纹图谱或特征树等新方法,以更直观地表征分子结构。
通过计算化学的方法组合各种基元化学分子的结构和片段,虚拟合成大量候选化合物,并在虚拟化合物库中筛选目标药物分子。上述工作包括采用合适的描述因子和相应的算法进行计算库设计(computational library design)。有效的计算库在分子设计中往往起关键作用。遗传算法已成为计算库设计的重要工具,它能对一个虚拟库中各个计算化学性质特性值进行优化,从而最优地接近目标。R.D.克拉默[注]等对库设计的背景和外延问题作了阐述,D.H.德鲁里[注]和S.S.扬[注]对库设计的各种方法进行了全面的总结。一种基于已知活性片段(对于目标受体)的方法被应用在单体选择中。经验表明,库的设计应建立在产品空间的计算化学特性值基础上,而不是在单体空间中。这需要有效的化合物虚拟合成技术,包括:①片段标记(fragment marking)。②合成反应模拟技术。合成化学家一般偏爱后一种,但在分子的各片段都已定义好的情况下使用前者更加快速。杂交系统(hybrid system)也被用来进行库设计。这些方法都需要通过模型计算得到化合物的物理化学性质值。J.F.布莱克[注]对药物的各种性能值,如吸附性、渗透性、水溶性等预测模型进行了评述。
主要是从大量候选药物分子中寻找出所需药物分子,一般通过亚结构、2D或3D相似性度量、分子形状、框架、药效团等进行搜索,或者根据受体和配体之间的三维结构进行药物三维空间筛选。挖掘技术的效果既依赖于对目标分子的认识,如分子三维结构、化学特性等;也依赖于挖掘工具,如计算速度等。从一个多维特征描述空间中选择一个子集作为代表集就是所谓分子的虚拟筛选。通过对数据集合的研究,D.M.巴亚达[注]等得出结论:M.沃德[注]的二维指纹图谱对于随机选择有最大的改善;但在另一项研究中发现,分割的化学结构描述空间适用于不同的子集筛选,解决了有关聚类的技术。D.K.琼斯-赫佐格[注]等使用回归分类法(recursive partition)进行药物筛选,并将其运用到14G-protein双受体检验中。
统计方法如主成分分析、因子分析等被广泛地用来进行分子描述因子的降维,从而可以更加简单有效地表述分子信息并降低计算的复杂程度。
在化学信息学的研究中,需要对成千上万个分子的构效关系模型进行表达,用计算机程序通过图表方式自动地进行数据的过滤和表达有利于分析。
伴随着药物发现和制造技术的发展,化学信息学逐渐成为药物设计的重要工具。F.布朗[注]最早将其定义为:“综合信息资源,将数据转化为信息,将信息转化为知识,并将它用于特定药物先导化合物的辨识和优化领域的一门学科。”组合化学的出现使药物设计革命性变化,现代药物设计通过分子建模和虚拟合成生成各种化合物。然而,理论上可合成的类药分子数量庞大(超过1040个)。如果去实际合成每一种药物来进行筛选是不可能的,因此必须从大量的数据中总结规律,进行虚拟高通量筛选(HTS),以减少需要实际合成的化合物,并尽可能接近目标化合物。面对如此大量的数据,需要将原本独立的化学、数学及计算机等学科融合起来,构建一系列计算技术工具,以便完成从数据到信息、从信息到知识的整个化学信息处理过程。这些技术工具不仅包括实验数据的分析处理,同时也包括分子性质的计算、化合物数据库的建立、分子的虚拟合成、QSAR的研究、化学结构和性质数据库的建立、基于三维结构的分子设计、统计方法的研究等。化学信息学正是在上述需求基础上发展起来的一门交叉学科,它综合了数学、化学、生物学、信息学、计算机应用、药物学等学科知识,主要研究如何适当地选取化合物库的多样性、如何表征药物分子特征、如何度量分子间的差异性、如何识别类药分子、分子结构和生物性能关系、如何研发相应的计算机软硬件等,这就包括了化学计量学及计算化学的研究任务和内容。
与传统化学计量学方法相比,化学信息学更注重有用信息的提取和计算速度的提升,广泛采用人工智能和信息科学领域的先进方法和工具,如数据挖掘技术、特征提取和编码技术、数据库技术及计算机仿真技术。同时,通过使用高性能计算机硬件和高效算法,最大限度地利用计算资源。化学信息学所研究的问题已经超越了传统化学计量学所研究的范畴,现有的化学计量学方法难以解决分子设计研究领域大量出现的新问题。从这个意义上讲,化学信息学的创立和发展是化学学科拓展的历史必然。化学信息学已在化工、药物设计、材料科学等多个领域得到广泛应用。例如,在化工领域,用于优化反应条件和筛选催化剂;在药物设计领域,用于分子模拟、虚拟合成、构效关系分析和虚拟筛选;在材料科学领域,用于分子设计和性能预测,筛选优化后的材料分子。