这种语法实际上是一种词汇语法(lexical grammar)。在概率词汇化上下文无关语法中,剖析树的每一个结点要标上该结点的中心词。
例如,句子“Workers dumped sacks into a bin”(工人们把袋子倒入一个垃圾桶中)的树形图可如图1所示:
图1 Workers dumped sacks into a bin的树形图
这时,概率词汇化上下文无关语法的规则数目将比概率上下文无关语法的规则多得多。例如,可以有如下的规则,规则中既包括概率,也包括词汇信息:
VP(dumped) VBD(dumped) NP(sacks) PP(into)[3×
]
VP(dumped) VBD(dumped) NP(cats) PP(into)[8×
]
VP(dumped) VBD(dumped) NP(hats) PP(into)[4×
]
VP(dumped) VBD(dumped) NP(sacks) PP(above)[1×
]
这个句子也可以被剖析为另一个不正确的树形图,如图2所示:
图2 Workers dumped sacks into a bin被错误剖析得到的树形图
如果把VP(dumped)重写为VBD NP PP,可以得到正确的剖析树;如果把VP(dumped)重写为VBD NP,就得到上面的这个不正确的剖析树。
可以根据宾州树库中的布朗语料库来计算这种词汇化规则的概率。第一个词汇化规则VP(dumped)VBD NP PP的概率为:
第二个词汇化规则VP(dumped)→VBD NP从不在布朗语料库中出现,因为“dump”(倒)这个动词要求指明动作所到达的新的位置,如果它后面没有介词短语,就是不合理的。
在实际的应用中,如果概率出现零值,一般都要进行平滑。由于第二个词汇化规则的概率为零,所以使用这个规则得到的剖析树是不正确的。也可以用同样的方法来计算中心词的概率。
在正确的剖析树中,结点PP的母亲结点(X)是中心词“dumped”;在不正确的剖析树中,结点PP的母亲结点(X)是中心词“sacks”(袋子)。
根据宾州树库中的布朗语料库,得到:
可见,通过计算PP结点的母亲结点的概率,也可以判断PP(into)修饰“dumped”的概率比修饰“sacks”的概率大。
概率词汇化上下文无关语法对于规则方法和统计方法的结合进行了有成效的探索,大大增强了上下文无关语法消解歧义的能力,是自然语言处理中一个值得关注的形式模型。