20世纪70年代中期,美籍华裔科学家傅京孙教授在形式语言理论的基础上建立了句法模式识别。句法模式识别方法强调对模式对象的结构的描述,并将其视为由一组简单子结构按照一定的规则组合而成。从模式描述的角度看,这一出发点与结构模式识别是一致的。因此,句法模式识别与结构模式识别在用词上经常互换。技术上,由于“句法”更多地对应着形式语言中的方法,因此这里着重从这一角度来对句法模式识别进行解释。相对于结构模式识别,句法模式识别强调如何构建和识别基元的内在细致关系。在方法论上,句法模式识别往往采用形式语言理论与方法中的文法来表示模式的结构信息。典型的,一个句法模式识别系统包括模式表示、文法推断和句法分析等部分。
在句法模式识别中,模式表示部分由模式分割和基元提取所组成。模式分割的任务是将模式对象分割为不同的子图。子图将被进一步提取出更简单的模式基元。基元是模式对象的基本模式元素,并能通过一定的结构关系紧凑地对模式进行描述。基元可采用统计、几何度量、基于视觉计算技术的估计等方法进行提取。
句法模式识别中两个重要概念是句法和文法。根据形式语言理论与方法,句法是指由字、词等构成句子的方式或规则。句法采用简单的规则来表达复杂的结构。因此,句法是一种表达基元结构关系的重要手段。文法是指语法规则,如用以产生具有某类句法的句子的推导规则。因此,文法是一种度量模式特征和识别模式的工具。
文法推断和句法分析是句法模式识别的中心内容。在文法推断和句法分析方面,学术界已有大量的研究工作。其中,文法表示是文法推断的基础,包含短语结构文法和高维文法。短语结构文法(乔姆斯基文法)是一种普遍使用的文法表示方法,并主要用于描述串模式。短语结构文法可细化为上下文敏感文法、上下文无关文法、正则文法等。高维文法包含树文法、网文法、图文法、阵列法等,主要用于表示二维图形和三维图形。文法推断的核心任务是从一组样本中构建或学习文法。扩展树文法是一种广泛使用的推断方法。另外,在实际应用中,基于对先验知识的掌握,文法还可以通过人工设计来得到。句法分析的核心任务是判定样本是否由可某个文法来产生,实际上执行了一个模式分类预测任务。句法分析方法与文法类型高度相关。比如,库克-杨格-卡塞米(Cocke-Younger-Kasami)算法、填充树法等在句法模式识别中多用于上下文无关文法。另外,图匹配方法也得到广泛应用。
句法模式识别系统与统计模式识别系统具有相似的结构。相对于统计模式识别的特征选取,句法分析的主要任务是进行基元提取,并用句法来表达每个样本。在分类器训练阶段,需要执行基元提取、句法特征提取、文法推断三个基本任务。在分类器识别阶段,首先对待识别的样本的句法进行分析,然后判断它是否符合已知类别的文法规则并由此确定样本的类别属性。