首页 . 理学 . 计算机科学技术 . 计算机应用 . 信息系统 . 信息检索(计算机科学技术) . 文档表示

文档集模型

/document collection models/
条目作者文继荣

文继荣

最后更新 2022-01-20
浏览 156
最后更新 2022-01-20
浏览 156
0 意见反馈 条目引用

在信息检索模型中,文档集模型是指对整个文档集合构建一个语言模型,用以解决语言排序模型中参数稀疏的问题。

英文名称
document collection models
所涉及学科
计算机科学技术

具体而言,为构建语言排序模型,首先针对每篇被检索出的文档构建一个语言模型,用于预测查询出现的概率。由于查询中的词有可能并不在文档中出现,因而出现了数据稀疏而导致零概率的出现。为了解决上述问题,语言检索模型通常同时在整个文档集上计算一个全局的语言模型,被称为文档集模型。文档集模型可以对单个文档的语言排序模型进行平滑,即对非零的概率结果进行折扣,并对未出现的词的概率赋予一定的值,较好地解决了数据稀疏和检索零概率问题。

语言检索模型通常都会计算文档集模型进行平滑,常用的平滑方法包括潜狄利克雷平滑法、JM平滑法和绝对折扣平滑法。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!