首页 . 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 文本挖掘

生物医学文本挖掘

/biomedical text mining/
条目作者朱山风

朱山风

最后更新 2024-12-05
浏览 116
最后更新 2024-12-05
浏览 116
0 意见反馈 条目引用

将文本挖掘技术应用于生物和医学等领域的文本上,抽取、分析和挖掘其中蕴含的大量信息,从而发现新的生物医学知识。

英文名称
biomedical text mining
所属学科
计算机科学技术

阅读科学文献是广大生物医学研究人员跟踪科学进展,获取和更新知识的一个重要途径。到2016年6月为止,最大的生物医学文献数据库MEDLINE覆盖了全世界5600多种学术期刊,主要包含了1946年以来约2300多万篇医学文献记录。很多生物医学研究人员都会遇到信息过载(Information Overload)的问题。从大量的文献中找到自己感兴趣的论文,跟踪最新的进展,成为一个越来越困难的任务。生物医学文本挖掘,可通过挖掘生物医学文献进行知识发现和提出新的科学假设,帮助生物医学研究人员解决这个日益迫切的问题,并且已经成为一个非常活跃的研究领域。生物医学文本挖掘包含了三个主要内容:①信息检索(Information Retrieval);②信息抽取(Information Extraction);③知识发现(Knowledge Discovery)。

根据用户的信息需求,例如给定的查询词,检索系统从大量的生物医学文献中返回相关的文档、段落甚至句子,为进一步的分析和处理做准备。美国国家生物技术信息中心(NCBI)开发的PubMed搜索引擎是生物医学研究人员最常用的检索系统,但它并不能满足用户的所有需求。许多其他生物医学文献检索系统提供了更多功能来方便用户查找和定位相关文献。例如GoPubMed使用基因本体GO(Gene Ontology)和医学主题词MeSH(Medical Subject Headings)来组织检索结果,从而方便用户浏览。BMExpert可以根据用户输入的主题,找到相关科学文献,同时推荐和主题相关的专家。eTBLAST根据用户输入的句子或段落,找到相似的文献。BabelMeSH除了支持英语检索美国医学索引(MEDLINE)外,还支持中文、德文、日文、俄文、韩文、阿拉伯文等多种语言的检索。

信息检索技术帮助用户找到相关的生物医学文献,而信息抽取能够从相关文献中进一步抽取各种生物医学知识,为知识发现奠定基础。不同于一般的科学文献,生物医学文献里面包含很多生物医学概念,如基因、蛋白、药物、物种、疾病等。从文本中识别这些生物医学实体,即命名实体识别,是抽取复杂信息的基础。NCBI开发的PubTator工具能够识别文本中的多种常见生物医学实体,如基因、化合物、疾病、物种和变异。除此之外,他们开发的通用生物医学命名实体工具TaggerOne工具,可以根据用户需要,基于提供的训练数据,学习各种不同生物医学实体的识别分类器。在识别实体基础上的关系抽取是构建生物医学数据库,提供效率降低成本的有效手段。早期的工具集中在两个实体之间的关系抽取,比如基因和基因的相互作用,药物与疾病之间的关系,疾病和基因变异之间的关系等。更复杂的关系抽取系统受到越来越多的关注,比如复杂生物过程中的事件抽取,生物网络抽取。

如何分析和挖掘相关文献和抽取的信息,提出新的科学假设,发现新的知识是生物医学文本挖掘的主要目标之一。文本聚类和文本分类是两项常用的文本挖掘技术,帮助人们整理和组织相关文档。生物医学文本聚类作为生物医学文本挖掘一个重要组成部分,通过将相似的文档聚在一起,不相似的文档尽量分开,能帮助用户(如生物学家)有效地组织、概括、导航和定位生物医学文献信息。生物医学文献的一个重要特点是它有特殊的语义标注,医学主题词MeSH。结合这些语义信息能有效提升生物医学文献的聚类性能。生物医学文献的分类能够帮助用户快速聚焦在感兴趣的文献上,节约大量时间。生物医学文献的MeSH标注是一个大规模多标签文本分类问题。MeSH的自动精确标注对于查询词扩展、文本聚类、知识发现等意义重大。基于生物医学文献发现隐含的知识一直是生物医学研究人员的目标。1986年,美国医学专家S.J.斯旺森(Scotl James Swanson)通过挖掘文献发现鱼油和雷诺氏病之间的关联。后来他进一步发现镁和偏头痛,生长调节素C和精氨酸之间的紧密联系。现在文本挖掘进一步用来预测疾病的标志物,蛋白与蛋白的相互作用,药物和靶标之间的相互作用等。

  • NCBI RESOURCE COORDINATORS.Database Resources of the National Center for Biotechnology Information.Nucleic Acids Research,2017,45(D1):D12-D17.
  • RZHETSKY A,SERINGHAUS M AND GERSTEIN M.Seeking a new biology through text mining.Cell,2008,134:9-13.
  • REBHOLZ-SCHUHMANN D,OELLRICH A,HOEHNDORF R.Text-mining solutions for biomedical research: enabling integrative biology.Nature Review Genetics,2012,13(12):829-39.
  • JENSEN L J,SARIC J AND BORK P.Literature mining for the biologist: from information retrieval to biological discovery.Nature Review Genetics,2006,7(2):119-129.
  • LU Z.PubMed and beyond: a survey of web tools for searching biomedical literature.Database (Oxford),2011.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!