假设内容包括位置无关性假设、上下文无关性假设、祖先结点无关性假设。
①位置无关性假设。子结点的概率与该子结点所直接管辖的字符串在句子中的位置无关。在非终极结点上加了概率的树形图T1中,给每一个非终极结点标上号码,得到如下的树形图:
在这个树形图的位置4,有一个规则NP(名词短语)Noun(名词);在位置8,也有一个规则NP
Noun。尽管结点NP处在不同的位置,可是由于这个结点NP直接管辖的字符串都是Noun,所以结点NP在这两个不同位置的概率都是相同的,都等于[0.4] 。结点的概率只与它所直接管辖的字符串Noun有关,而与Noun在句子中的位置无关。
②上下文无关性假设。子结点的概率与不受该子结点直接管辖的符号串无关。例如,在上面的树形图中,如果把单词swat(拍)换成单词kill(杀),只会改变在位置3的结点Verb(动词)的概率,不会改变这个树形图中不受位置3的结点Verb所直接管辖的其他结点的概率。树形图中的其他结点NP、PP(介词短语)等的概率都保持不变。可见,单词的改变只对于直接支配该单词的非终极符号的概率有影响,而对于树形图中的其他非终极结点的概率没有影响。这个假设是上下文无关假设在概率方面的体现,它说明了在概率上下文无关语法中,不仅重写规则是上下文无关的,而且重写规则的概率也是上下文无关的。
③祖先结点无关性假设。子结点的概率与支配该结点的所有祖先结点的概率无关。例如,在上面的树形图中,位置4的结点NP和位置8的结点NP的概率都是相同的,因为它们所直接管辖的字符串都是Noun。可是,在位置4的结点NP的祖先结点是位置2的VP(动词短语)以及位置1的S(句子),在位置8的结点NP的祖先结点是位置6的PP,这些祖先结点的概率都不会影响在位置4和在位置8的结点NP的概率。
由于有这三个假设,概率上下文无关语法就不仅继承了一般的上下文无关语法的上下文无关的特性,还使得概率值也具备了上下文无关的特性。利用概率上下文无关语法进行句法剖析的步骤如下:首先,使用上下文无关语法的分析算法来剖析句子,得到句子的句法剖析树形图;然后,给每一个非终极结点加上一个概率值,在上述三个假设下,每一个非终极结点的概率值也就是对该非终极结点进一步重写所使用的规则后面附带的概率,得到的树形图是带有概率的树形图。如果句子是有歧义的,就会得到不同的带有概率的树形图,比较这些树形图的概率,选择概率最大的树形图作为句法剖析的结果,便可以达到对句子进行歧义消解的目的。