首页 . 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 问答系统 . 自动问答技术

知识抽取

/knowledge extraction/
条目作者赵军

赵军

最后更新 2022-12-23
浏览 141
最后更新 2022-12-23
浏览 141
0 意见反馈 条目引用

把蕴含于信息源中的知识经过识别、理解、筛选、归纳等过程抽取出来,存储形成知识元库。

英文名称
knowledge extraction
所属学科
计算机科学技术

研究较多的是自然语言文本,已经出现了一些工具或系统,知识抽取已经成为自然语言处理领域一个重要的研究分支。还有一个相似的概念是信息抽取。

知识抽取的来源主要有结构化文本、半结构化文本、非结构化文本。结构化文本包括词典、主题词表、本体、大百科全书等;半结构化文本主要是指标记文本,包括HTML标记文本与XML标记文本;非结构化文本主要指图书、论文等传统文献。这些文本按前期的标注程度不同又可分为原始文本、粗标注文本和全标注文本。知识抽取的理论模型支撑有粗糙集、遗传算法、神经网络、潜在语义标引等。知识抽取的过程或多或少地都用到自然语言处理技术,这些技术从处理的层面来讲包括形态分析、语法分析、语义分析、语用分析。从文本分析的处理单位来讲,包括词法分析、句法分析、段落分析、篇章分析,用于支撑这些分析的资源包括词典、规则库、常识知识库、领域知识库。知识抽取的结果有多种表示方式,有直接用自然语言表示的,也有转换成知识表示方式的,包括逻辑表示法、框架表示法、脚本表示法、产生式规则表示法、面向对象表示法、语义网表示法等,以及由面向对象表示法演化而来的本体表示法。针对不同的知识所选用的知识表示方式与知识抽取模式都不相同,如实验过程适合脚本表示法、概念关系适合语义网表示法、研究结论适合逻辑表示法等。

知识抽取可以为知识建模提供素材。这些素材不全是“未加工”的,使用抽取技术后的结果通常是得到一种结构化的数据,例如,标记、图表、术语表、公式和非正式的规则等。执行知识抽取和知识分析的知识工程师(或者叫知识分析员)实质上不需要掌握很深的应用领域知识。举一个最简单的例子,知识工程师能够从各种各样的非人力资源中获得信息,这些资源包括书本、技术手册、案例学习等等。然而,在大多数情况下,他(她)实际上需要请教资深专家。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!