随着信息技术的不断发展,互联网上的数据呈爆炸式增长,互联网已经成为人们生活中不可或缺的信息来源。然而,大部分的网络资源都是无结构的文本数据,这使得人们对于信息的利用只能停留在文本层面,而数据中蕴涵的知识无法被计算机理解,不能进行联想和推理,因此无法提供智能化的知识服务。为了解决以上问题,将互联网上的海量数据信息中蕴涵的有用知识抽取出来,以结构化知识库的形式表示和存储,并进行知识推理,这是一种行之有效的方案。知识库允许计算机通过规则或其他逻辑形式对知识进行推理,从而对互联网时代中的智能应用起到推动作用。
知识库已受到了越来越多的重视,其数量和规模也在持续增长。例如,词网(WordNet)、知网(HowNet)和常识库(Cyc)等是专家构建的知识库。随着Web 2.0的飞速发展,出现了维基百科(Wikipedia)等基于群体智慧的网络数据资源。许多知识库是依托于这些资源进行构建。例如,DBpedia是把Wikipedia的信息框结构化得到的知识库;德国的马克斯·普朗克研究院把维基百科中的标签类别层次体系挂载到词网体系上,得到YAGO;Metaweb公司于2007年发布了语义数据库项目Freebase,其数据来自多个数据集:有些来源于网络知识资源,如维基百科,另一些由Freebase数据小组、社区成员或个人用户提供。谷歌于2010年收购了Freebase,以支撑其大力推进的语义搜索引擎。这些知识库构建工作也直接推动了实体抽取、关系抽取和事件抽取等信息抽取技术的发展。
由于知识库通常具有庞大的规模,并且使用特定的词汇,对于用户来说可读性差。所以,由用户提出信息需求,然后以某种自动方式从知识库中查询相关知识是一种更为高效的知识库使用方式。由于知识库是结构化的,所以通常使用专用的结构化查询语言(如SPARQL)来与知识库进行交互。这种结构化查询语言的优点是表达能力强,可以满足用户精细的信息需求。但是,它的缺点也很明显,如用户不但需要掌握复杂的结构化查询语言语法,还要充分了解知识库中的资源表示形式。如果不经过训练,普通用户很难利用此类接口找到所需的知识内容。在实际的互联网应用中,需要这种过于专业的知识检索方式会降低大部分用户的使用热情。
知识库问答系统使用自然语言作为交互语言,为用户提供了一种更加友好的知识库查询方式。一方面,自然语言的表达能力非常强,可以表达用户精细而复杂的信息需求;另一方面,这种方式不需要用户接受任何专业训练。由于其广阔的应用前景,知识库问答在学术界和工业界都成为研究热点。知识库问答已经被用于许多商业搜索引擎(比如:百度、谷歌)中。