具体而言,为构建语言排序模型,首先针对每篇被检索出的文档构建一个语言模型,用于预测查询出现的概率。由于查询中的词有可能并不在文档中出现,因而出现了数据稀疏而导致零概率的出现。为了解决上述问题,语言检索模型通常同时在整个文档集上计算一个全局的语言模型,被称为文档集模型。文档集模型可以对单个文档的语言排序模型进行平滑,即对非零的概率结果进行折扣,并对未出现的词的概率赋予一定的值,较好地解决了数据稀疏和检索零概率问题。
语言检索模型通常都会计算文档集模型进行平滑,常用的平滑方法包括潜狄利克雷平滑法、JM平滑法和绝对折扣平滑法。