首页 . 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 问答系统

面向非结构化文本的问答

/question and answer for unstructured text/
条目作者赵军

赵军

最后更新 2023-02-25
浏览 92
最后更新 2023-02-25
浏览 92
0 意见反馈 条目引用

接受用户以自然语言形式描述的问题,并从大量的非结构化文本数据中查找出能回答该问题的准确、简洁答案。是一类信息检索系统。

英文名称
question and answer for unstructured text
所属学科
计算机科学技术

文本就是书面语言(中文、英文等)的主要表现形式,可以大致分为结构化文本、半结构化文本和非结构化文本三种。结构化文本中的代表是知识库;半结构化文本呈现给用户的模式不如结构化那么规整,但比起纯文本而言,其构成又具有一定规律,比如网络百科页面中的表格数据和列表数据;而非结构化文本(又称自由文本)就是指纯文本,比如最常见的网页文本等形式的数据。

面向非结构化文本的问答系统,早已成功商业化的搜索引擎可以看作是非结构化文本的问答系统的前身。但是现在的搜索引擎很难直接给出用户所需的答案,而是返回大量经过排序的相关(或者不相关)的网页,需要用户自行在这些搜索结果中寻找答案。因为面向非结构化文本的问答是从非结构化文本中提取答案,所以它的技术难度相对于结构数据问答系统要大得多。另一方面,互联网上绝大部分的文本信息都是以非结构化数据的形式存在的,因此研究面向非结构化文本的问答技术是非常有意义的。

1999年,文本检索会议(TREC)发起的问答任务是一种典型的面向非结构化文本的问答。TREC QA 与之前依赖知识库的专家系统不同,其主要采取信息检索方式,对于一个用户输入的问句,首先是问句分析,提取出关键词,确定问句的答案类型以及对问句进行句法、语义表示等;然后是篇章检索,该步骤根据问题处理模块生成的查询关键词,使用某种检索方式,检索与问句相关的信息,返回的信息可以是段落、也可以是句群或者句子;最后是答案的抽取,该步骤从检索出的相关段落、句群或句子中抽取出和提问答案类型一致的短语或实体,根据某些准则对候选答案进行打分,把得分最高的候选答案返回给用户。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!