首页 . 文学 . 语言文字 . 计算语言学及语料库语言学 . 计算语言学 . 自动问答系统模块

自动问答系统模块

/modules of question answering system/
条目作者冯志伟

冯志伟

最后更新 2024-07-10
浏览 156
最后更新 2024-07-10
浏览 156
0 意见反馈 条目引用

成自动问答系统的模块。

英文名称
modules of question answering system
所属学科
语言文字

在一般情况下,自动问答系统由提问处理模块、文献处理模块、答案提取和构造模块三个模块构成:

在提问处理模块中包含着自动问答系统的很多技术,这些技术能够对提问加以进一步的说明,以便在所采集到的文献中找出对于有关问题的回答。

在自动问答系统中,自然语言的提问不能使用信息检索中的关键词和算子来表示,而是使用人类所能理解的、并且能够由自动问答系统处理的一套固有语义来表示。这套固有语义也就是回答应当归属的语义类别。

开放领域问题的相关段落检索是建立在提问关键词的基础之上的。一般使用经验的方法来提取提问关键词,从提问的语义形式中提取实词,并优先考虑引用表达、命名实体、复合名词。可能的关键词包含所有的名词和它们的形容词性修饰语,还有提问中的主要动词。

自然语言文本中的关键词会出现形态变化、同义表达、语义变换等变体形式,在自动问答系统中,有必要对这些关键词进行必要的变换。

可以从语言学的角度把关键词的变换分为如下三类:①形态变换。在自动问答系统的提问表达式中,可以列举出与关键词有关的各种形态变化的形式。②词汇变换。词网对于大量的很容易挖掘的语义信息都进行了编码,这样,就可以根据词网对关键词进行词汇变换,来检索关键词的同义词和其他语义相关项。这种词汇变换提高了答案的召回率。③语义变换。词网中还记录了单词的上下位关系以及搭配,在自动问答系统之中,可以把单词的上下位关系或搭配定义为关键词的语义变换,这样,也可以提高自动问答系统的召回率

在文献处理模块中,为了处理大范围的提问,开放领域的自动问答系统需要决定,它要寻找什么样的信息,或者要寻找什么样的预期的回答类型,并且还要决定,它到哪些文献中去搜寻这样的回答。

由于答案是靠文献中的文本碎片来呈现的,所以,这样的答案必定应当包含在能够被大多数提问概念辨识的文本碎片之中。因此,可能找到最终答案的文本碎片应当包含最具代表性的问题的概念,并且包含与预期的回答类别相同的文本概念。

现有的检索技术还不能很好地模拟语义知识,因此,大多数自动问答系统只是将这样的搜索分解成基于问题关键词的检索以及文献的过滤机制两个部分,使得在文献中只保留那些预期的答案类型。

在答案提取和构造模块中,要确定答案的类型,答案的语义格式应该直接与提问的主干相关联,并且在提问的语义形式中具有最高的连通性。

答案类型的脱机分类可以依靠大型的词汇语义资源(如词网)来建立。词网(WordNet1.6)的数据库中包含100 000多个英语的名词、动词、形容词和副词,这些词使用“同义词集”(SYNSET)的方式组织起来。在对答案进行分类时,要设法建立起问答系统中的答案类型与词网中的同义词集之间的关联。

答案类型分类的过程可以分三步走。

①对答案中的名词或动词的每一个语义类别,人工选择出它们最具代表性的概念结点,然后把这些概念结点加到答案类型分类(answer type taxonomy)中。

②由于预期的答案类型通常是命名实体,因此,需要在命名实体范畴和答案类型范畴之间建立多对多的映射。如下图所示:

在命名实体范畴和答案类型范畴之间建立的多对多映射在命名实体范畴和答案类型范畴之间建立的多对多映射

从图中可以看出,答案类型范畴的“Speed”(速度)、“Duration”(持续时间)和“Amount”(数量)三个范畴映射到命名实体范畴的“quantity”(数量),形成三对一的映射;而答案类型范畴的一个范畴“Money”(金钱)映射到命名实体范畴的“money”(金钱)和“price”(价格)两个范畴,形成一对二的映射。可见,答案类型范畴和命名实体范畴之间的映射是多对多的。

③把答案类型分类体系中顶端的每一个叶子结点,手工链接到词网的一个或者多个下属层次的结点上。这样则可以把提问中的命名实体范畴与答案中的答案类型范畴联系起来,构造出相关的答案来。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!