适用于所有语种、所有类型词典的编纂、编辑、出版和发行。已经发布了3个版本,2007年2月1日发布的第3版(ISO 1951:2007)是对第2版(ISO 1951:1997)的修订,扩大了词典编纂的适应范围,充分考虑到各种类型的电子词典和网络词典,以及词典编纂的语言资源和词典的传播及词典数据的再利用问题。
国际词典编纂标准
为词典数字化编纂和出版而设置的操作规范和通用的框架模式。由国际标准化组织第37技术委员会(ISO/TC37)起草。又称XmLex(旧称LEXml)。
- 英文名称
- international dictionary compilation standard
- 又称
- XmLex
- 旧称
- LEXml
- 创建人
- 国际标准化组织第37技术委员会
- 所属学科
- 语言文字
标准(ISO 1951:2007)考虑了词典自动化发展所需的严格形式结构。
①统一框架结构和微观信息项:无论编纂什么类型的词典,编者都可在同样的树形结构模式下进行编写操作。
②分别处理编纂形式与显示信息结构:词典编写录入的格式与词典信息显示格式不同,编者只需按树形结构指向录入信息,所有的标点和结构标记在数据显示阶段可以自动生成。
③标识宏观和微观信息项之间的关系:在信息录入时可以自动标注,在使用时可以自动检测,以便各种数据项都可以按需任意调取。
④规范和统一所有数据信息格式:基于XmLex模式构建词典数据库,以便数据可以按需导出,并与其他排版系统的数据库接口对接,或应用于其他语言处理系统。
⑤灵活调用和显示词典数据信息:只要按相关国际标准用XML格式来构建数据子集,就能使子集数据结构适应特定的需求。
⑥与现有XML工具有良好的兼容性:统一使用通用XML及其编码格式,使XmLex可以像XML模式那样灵活应用。
阐释了标准的目的和适用范围,对词典结构和表述形式的一些基本术语进行定义和解释,如comment(元语言注释)、data element(数据元素)、compositional element(复合元素)、container(注释元素)、group(组合元素)、dictionary entry/lexicographical entry/entry(词条)、 headword(词头)、lemma(词目)、lexical unit(词汇单位)、lexicographical symbol(词典符号)、nested entry(聚合词条)等。结合这些元素的功能说明对词条结构做了形式化描述,描述的核心是词条的形式化结构(formal structure of a dictionary entry)。譬如,在形式语法的上层结构(formal grammar for high-level structures)方面,一个词条的构成成分包括:①一个或多个词目及其相关注释单位,如词类、发音、拼写变体、屈折形式、派生词等;②词目每一义项及其相关辅助词汇单位(复合短语、多词单位、翻译对等词和同义词等)描写;③当一个词形有两个及以上的区别很大的意义时,可以从主词目分裂出同形异义的子词目或相应数量的相互独立的主词目(带词目序号);④多个词目可以组合在单一的聚合词条(nest)中,以便在一部紧凑型的词典中能把一些相关的词目组合在一起。
在微观结构信息项的其他层面,以表格的形式介绍了以下内容:其他词汇单位注释元素的形式语法(formal grammar for other lexical unit containers)、其他注释元素的形式语法(formal grammar for other comment containers)、词汇单位的形式语法(formal grammar for lexical units)和注释的形式语法(formal grammar for comments)等,共计124项。标准(ISO 1951:2007)发布后,中国术语标准化技术委员会也在国际标准的基础上拟定并发布了《中华人民共和国国家标准(GB/T 23829-2009/ISO 1951:2007):辞书条目XML格式》,沿承了国际标准的主要内容和方法,并结合汉语辞书的特点提出了一个中国通用词典数据规范结构,覆盖了辞书所有可能的信息内容,不受编辑版面和出版媒介的限制,可以应用于中国各种类型词典的编纂和出版。