美国情报学家F.W.兰开斯特最早提出后控制词表概念。20世纪80年代初,中国情报语言学家张琪玉提出用后控制词表改善关键词检索性能的思想,提出了“分类词表+字顺/轮排表”模式,认为后控制词表的关键是,必须在检索系统中实有的自然语言检索标识的基础上进行编制。国际上利用后控制词表建立的信息检索系统典型的有:美国国防技术信息中心科技报告全文检索系统、美国教育资源信息中心数据库全文检索系统、统一医学语言系统等。
后控制词表
据受控语言原理和方法编制的用于检索阶段对检索词进行控制的自然语言检索用词表。是自然语言检索和人工受控语言结合的范例。
- 英文名称
- post-controlled vocabulary
- 提出者
- F.W.兰开斯特
- 所属学科
- 情报学
从正文中抽取自由词的原则。包括:①选词原则。指要选择具有检索意义、概念完整的自由词作为检索词。②词组拆开组配与保留词组原则。当一个词组是由概念上为整体与局部关系、概念交叉关系和事物及行动、过程、工艺、性能等关系的两个词组成时,应拆开作为单独的自由词标引,其他情况则作为一个自由词标引。③最大专指度标引原则。按作者所述主题中的专指词组选择自由词。④上位词标引原则。指按最大专指度原则标引后,如果已标引的自由词中能抽出概念内涵较浅且具有独立检索意义的词,也应作为自由词标引。例如,已标引“快速数字滤波器”一词时,还要求标引“数字滤波器”和“滤波器”二词。⑤同义词标引原则。指同一概念在正文中出现的所有同义词都可选为自由词。
对已标引的自由词进行规范化处理后编成的控制词表。一般由同义词族和宏词族两部分组成,也有一部分自由词表只包括同义词族。同义词族指将一个数据库中标引的同一概念的两个以上同义词之间建立起相互参照关系。宏词族指将概念内涵相同但字面不同的一组词,选概念最浅的自由词作为族首词,其余词作为其下位词构成的二级词族。如家禽、鹌鹑、鹅、鸽、火鸡、鸡、鸭和珠鸡一组词中,选“家禽”作为族首词,其他词作为下位词构成的二级词族即宏词族。宏词族之下可能有许多下位词,如“鸡”,其下位词有蛋鸡、肉鸡等,而蛋鸡的下位词又有产蛋鸡、高产蛋鸡、来航蛋鸡、卵用鸡、罗斯蛋鸡等,肉鸡的下位词又有爱拔益加肉鸡、安纳克肉鸡、海佩科肉鸡、红羽肉鸡、罗曼肉鸡和肉用种鸡等,肉用种鸡之下又有红河谷肉种鸡。所有这些词都不收入“宏词族表”,因为按上位词标引原则,“鸡”以下的词族关系,都隐含在标引的自由词中了。有的自由词表比较简单,只处理词间的同义关系,不处理种属关系。
后控制词表是一种规范自然语言的语义分析工具,具有动态性、可扩充性,是计算机应用于信息检索之后的产物,同时后控制词表的使用也促进了情报检索的发展。
扩展阅读
- 张琪玉.论后控制词表.图书情报工作,1994,(1):1-4.
- 包冬梅.后控制技术的应用和发展.中国索引,2003,(3):36-39.