计算语言学中基于语言的客观事实构建的一类形式化的数学模型,是对语言客观事实的抽象与近似,反映语言中各成分的性质关系、内在规律及概率分布等。
语言模型是对语言的形式化,因此其适合进行计算机的算法化和自动化。在对自然语言进行信息处理上,语言模型最早应用在语音识别问题中。现语言模型已广泛应用于多种自然语言处理任务,如机器翻译、句法分析、信息检索和光学文字识别等。
早期的语言模型的构建主要基于人工撰写的规则,不仅极度依赖编写者的经验和精力,而且难以保证覆盖所有语言现象,对于不同的语言也需要重新编写。20世纪80年代,随着计算能力的提高,基于数据统计的语言模型被提出。统计语言模型的构建主要基于对语料库的统计、分析,即统计、分析包含大量语言知识的电子语言材料。统计语言模型的典型任务是基于语料库的知识,判断一句话在此语言中出现的概率,也即一个词序列的联合概率。另一个典型任务是在给定上文的情况下,给出下一个可能的语言元素(如字或词)的概率分布。常见的统计语言模型有n-gram模型和神经语言模型等。