文档集模型

首页 . 理学 . 计算机科学技术 . 计算机应用 . 信息系统 . 信息检索（计算机科学技术） . 文档表示

/document collection models/

条目作者文继荣

文继荣

最后更新 2022-01-20

浏览 156次

最后更新 2022-01-20

浏览 156次

0 意见反馈条目引用

在信息检索模型中，文档集模型是指对整个文档集合构建一个语言模型，用以解决语言排序模型中参数稀疏的问题。

英文名称: document collection models

所涉及学科: 计算机科学技术

具体而言，为构建语言排序模型，首先针对每篇被检索出的文档构建一个语言模型，用于预测查询出现的概率。由于查询中的词有可能并不在文档中出现，因而出现了数据稀疏而导致零概率的出现。为了解决上述问题，语言检索模型通常同时在整个文档集上计算一个全局的语言模型，被称为文档集模型。文档集模型可以对单个文档的语言排序模型进行平滑，即对非零的概率结果进行折扣，并对未出现的词的概率赋予一定的值，较好地解决了数据稀疏和检索零概率问题。

语言检索模型通常都会计算文档集模型进行平滑，常用的平滑方法包括潜狄利克雷平滑法、JM平滑法和绝对折扣平滑法。

文档集模型

文继荣

阅读历史

感谢您的反馈

文档集模型

文继荣

精选发现

相关条目

阅读历史

感谢您的反馈