文本蕴涵主要测试在给定一段自然语言文本的前提下,判断另一段自然语言文本是否成立。分别将两段文本叫作前提(premise)和假设(hypothesis)。比如:前提为“香港的主权和领土是在1997年由英国归还给中国的”,假设为“1997年香港回归中国”。然后判断前提T是否可以推导出假设H(T⇒H)。文本蕴涵关系是有方向性的,如上面的例子,T可以推导出H,但反向的H不能推导出T。
文本蕴涵是判断计算机是否理解自然语言的测试任务之一。
一项用来测试计算机是否理解自然语言文本的语义的研究。有时又称文本蕴含。
文本蕴涵主要测试在给定一段自然语言文本的前提下,判断另一段自然语言文本是否成立。分别将两段文本叫作前提(premise)和假设(hypothesis)。比如:前提为“香港的主权和领土是在1997年由英国归还给中国的”,假设为“1997年香港回归中国”。然后判断前提T是否可以推导出假设H(T⇒H)。文本蕴涵关系是有方向性的,如上面的例子,T可以推导出H,但反向的H不能推导出T。
文本蕴涵是判断计算机是否理解自然语言的测试任务之一。
文本蕴涵可以扩展为更一般的文本推断(text inference)任务。从更宽泛的层面,给定任意两段自然语言文本A和B,它们之间的关系可以为前向蕴涵(A->B)、反向蕴涵(B->A)、双向蕴涵(B<->A)、独立和矛盾这五种关系。
其中,双向蕴涵也叫作复述(paraphrasing),指两段文本有着相同的含义。
主流的文本蕴涵方法主要基于机器学习模型。一般文本蕴涵可以看作是一个两类或五类的分类问题。给定两段文本判断它们之间的关系属于哪个类别。
最前沿的文本蕴涵方法是基于深度学习的模型,将两段文本通过神经网络模型进行编码表示为连续向量形式,然后用另外的一个神经网络来判断它们之间的关系。基于深度学习的方法可以端到端的进行训练,因此在大规模数据集SNLI上达到了最好的效果。
在文本蕴涵方面有两个知名的评测会议:①帕斯卡识别文本蕴涵的挑战(PASCAL Challenge - Recognizing Textual Entailment)。②国际语义测评(Semantic Evaluation, SemEval)。