首页 . 文学 . 语言文字 . 计算语言学及语料库语言学 . 计算语言学 . 概率下文无关语法

概率词汇化上下文无关语法

/probabilistic lexicalized context-free grammar/
条目作者冯志伟

冯志伟

最后更新 2024-07-10
浏览 157
最后更新 2024-07-10
浏览 157
0 意见反馈 条目引用

概率上下文无关语法剖析树的中心结点上引入词汇的形式语法。由美国学者E.查尼阿克于1997年提出。

英文名称
probabilistic lexicalized context-free grammar
创立时间
1997
创立者
E.查尼阿克
所属学科
语言文字

这种语法实际上是一种词汇语法(lexical grammar)。在概率词汇化上下文无关语法中,剖析树的每一个结点要标上该结点的中心词。

例如,句子“Workers dumped sacks into a bin”(工人们把袋子倒入一个垃圾桶中)的树形图可如图1所示:

图1 Workers dumped sacks into a bin的树形图图1 Workers dumped sacks into a bin的树形图

这时,概率词汇化上下文无关语法的规则数目将比概率上下文无关语法的规则多得多。例如,可以有如下的规则,规则中既包括概率,也包括词汇信息:

VP(dumped) VBD(dumped) NP(sacks) PP(into)[3×]

VP(dumped) VBD(dumped) NP(cats) PP(into)[8×]

VP(dumped) VBD(dumped) NP(hats) PP(into)[4×]

VP(dumped) VBD(dumped) NP(sacks) PP(above)[1×]

这个句子也可以被剖析为另一个不正确的树形图,如图2所示:

图2 Workers dumped sacks into a bin被错误剖析得到的树形图图2 Workers dumped sacks into a bin被错误剖析得到的树形图

如果把VP(dumped)重写为VBD NP PP,可以得到正确的剖析树;如果把VP(dumped)重写为VBD NP,就得到上面的这个不正确的剖析树。

可以根据宾州树库中的布朗语料库来计算这种词汇化规则的概率。第一个词汇化规则VP(dumped)VBD NP PP的概率为:

第二个词汇化规则VP(dumped)→VBD NP从不在布朗语料库中出现,因为“dump”(倒)这个动词要求指明动作所到达的新的位置,如果它后面没有介词短语,就是不合理的。

在实际的应用中,如果概率出现零值,一般都要进行平滑。由于第二个词汇化规则的概率为零,所以使用这个规则得到的剖析树是不正确的。也可以用同样的方法来计算中心词的概率。

在正确的剖析树中,结点PP的母亲结点(X)是中心词“dumped”;在不正确的剖析树中,结点PP的母亲结点(X)是中心词“sacks”(袋子)。

根据宾州树库中的布朗语料库,得到:


可见,通过计算PP结点的母亲结点的概率,也可以判断PP(into)修饰“dumped”的概率比修饰“sacks”的概率大。

概率词汇化上下文无关语法对于规则方法和统计方法的结合进行了有成效的探索,大大增强了上下文无关语法消解歧义的能力,是自然语言处理中一个值得关注的形式模型。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!