计算词典学是词典学与计算机技术结合的产物。在20世纪70年代末期计算机硬件和软件有了较大的发展,词典编纂开始与计算技术有了实质性结合,这种结合直接推动了辞书研究和编纂现代化的进程;其现实含义就是在辞书整个编纂过程中充分使用数字技术和各种语言数据资源,包括开发功能强大的语料库、数据库和适用于辞书编纂的软件系统。
国际上自20世纪六七十年代就开始了计算词典学的理论研究,到八九十年代其理论框架和研究范围渐渐趋于明朗。德国词典学刊物《词典学国际年刊》在1988年推出了“计算词典学和计算语言学专辑”;B.K.博古拉夫等人在1989年出版了《自然语言处理中的计算词典学》一书;J.M.辛克莱尔的《语料库、检索、搭配》、B.T.S.阿特金斯等人的《计算机词库》和V.魏伊的《计算机语料库词典学》等都对计算词典学的发展做出了贡献。
计算词典学从学理上可以解释为以计算机技术为手段、以词典学研究为目的的学科。词典学是研究词典理论和编纂实践的,计算词典学当然不能偏离这个方向;其区别在于前者着重传统词典和编纂范式的研究,而后者着重基于计算机数字技术的新型词典和编纂方法论的研究。
计算机在词典语料的搜集和处理、语料库建设,以及词典数字信息的输入、存取、分析、编辑、传播、交换等方面发挥了重要作用,为词典学的理论与实践提供了新的方法。另一方面,在自然语言处理中,词库或机器词典也是实现数据处理的关键。从计算词典学形成的历史来看,它首先是解决词典信息的“电子化”和“机读性”问题,为建设词典数据库提供数据资源;其次,是研究如何使用计算机进行词典的辅助编纂、编辑、修订和出版;其三,是对现有的商业词典进行数字化升级,设计编纂供人阅读的电子词典或网络词典。在词典编纂数字化方面,面对海量的语料库,连续真实文本的分析以及词汇的索引和提取工具也是计算词典学的主要任务之一;通过索引和语料库模式分析可以从海量、无序的原始语料中提取词典编纂的有用信息,弄清有关语词在自然话语中的分布,抽象出词的语法、句法、语义和语用等功能属性,同时得到词的义项分布或划分的根据。
计算词典学是一个跨学科的研究领域,在长期的研究中已有了明确的研究范围、研究内容和任务,有一整套的研究方法和和比较明确的研究方向,涉及词典编纂的语言资源研究与开发、计算机辅助词典编纂和融媒体出版等三大板块。总的来说,计算词典学是研究如何实现词典语料处理电子化,词典编纂半自动化或自动化,词典信息数据化、释义表征多模态化、词典载体多媒体化、词典编排形式化、词典查检智能化、词典出版融媒体化。