词典数据库的主旨是按词典宏观和微观结构数据项汇集词典编纂所需要的各种数据资料,也可以是加工好的词典条目的汇集,直接服务于终端用户;其核心内容是把词典的全部词条内容(文本、声音、图形、图像和视频频段等)通过融媒体和数字技术进行数据化处理。
数据库的数据化可以由结构化查询语言(SQL)来实现,一般是由字段、记录和文件等数据元构成。字段是数据记录中可识别的基本信息项;记录是为适应数据处理要求而把多个字段组合在一起的相关数据项,是有实用意义的实体单位;而文件则是全部词目某类记录的所有信息集合。词典数据库是以字段、记录和文件的方式来描述词典微观结构的知识库。
具体地讲,在词典微观结构中字段表现为词条横向组合的一个末端数据项,如特定词目的词形、读音、词类、屈折变化、句法、搭配、释义、例证、内词条、参见、辞源、插图、附加说明以及多模态表征等简单信息项;记录是特定词条上述语言属性的复杂特征集;对于信息项多的学习词典和大型历时性词典,可把词条分为若干个特征集,比如语词拼写和读音变体特征集、屈折变化特征集、释义特征集、例证特征集、注释特征集等;文件则包含数据库全部词目特定信息项的纵向数据集合,如拼写集、读音集、语法标注集、句法模式集、搭配结构集、释义集、例证集,以及各种附加信息集等。词典数据库就是按这种结构层次来构建词典微观数据结构。一般具有以下特征:①数据应记录并描述普通或/和专门词典微观结构的共性,一般词典所需的微观数据(含文字、视频和声频等信息)都可以汇集到数据库中。②各数据记录或数据表中的信息项都有特定的词典学标记,数据项之间的各种关系都能自动链接,形成一个逻辑上紧密相关的数据集。③数据来源和处理采用基本自足的多元化模块方式,即能提供关键词索引行的文本语料,又能通过数据挖掘和索引技术有效利用广域网上的语料数据。④数据库后台处理程序能够对输入数据进行自动标记、存储,并能动态反映和描述词典的宏观和微观结构体系,以便管理员监控词条的现状和问题。