首页 . 理学 . 计算机科学技术 . 计算机应用 . 信息系统 . 信息检索(计算机科学技术) . 文档表示

文档主题模型

/document topic model/
条目作者文继荣

文继荣

最后更新 2022-01-20
浏览 211
最后更新 2022-01-20
浏览 211
0 意见反馈 条目引用

机器学习自然语言处理等领域是用来在一系列文档中发现抽象主题的一种统计模型。

英文名称
document topic model
所属学科
计算机科学技术

观来讲,如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。比方说,如果一篇文章是在讲狗的,那“狗”和“骨头”等词出现的频率会高些。如果一篇文章是在讲猫的,那“猫”和“鱼”等词出现的频率会高些。而有些词例如“这个”、“和”大概在两篇文章中出现的频率会大致相等。但真实的情况是,一篇文章通常包含多种主题,而且每个主题所占比例各不相同。因此,如果一篇文章10%和猫有关,90%和狗有关,那么和狗相关的关键字出现的次数大概会是和猫相关的关键字出现次数的9倍。一个主题模型试图用数学框架来体现文档的这种特点。主题模型自动分析每个文档,统计文档内的词语,根据统计的信息来断定当前文档含有哪些主题,以及每个主题所占的比例各为多少。常见的主题模型包括非负矩阵分解模型NMF、潜狄利克莱划分模型LDA、潜语义分析模型LSA、概率潜语义分析模型PLDA等。主题模型最初是运用于自然语言处理相关方向,但已延伸至如生物信息学的其他领域。

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!