潜在狄利克雷分配是一种主题模型,它可以将文档集中每篇文档的主题按照概率分布的形式给出。同时它是一种无监督学习算法,在训练时不需要手工标注的训练集,需要的仅仅是文档集以及指定主题的数量k即可。此外LDA的另一个优点则是,对于每一个主题均可找出一些词语来描述它。LDA首先由D.M.布莱(Blei, David M.)、吴恩达和M.I.乔丹(Jordan, Michael I)于2002年提出。在文本挖掘领域包括文本主题识别、文本分类以及文本相似度计算方面都有应用。
首页
[{"ID":42422,"Name":"理学"},{"ID":81272,"Name":"计算机科学技术"},{"ID":81532,"Name":"人工智能"},{"ID":81569,"Name":"自然语言处理"},{"ID":81594,"Name":"文本挖掘"},{"ID":81599,"Name":"主题模型"}]
. 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 文本挖掘 . 主题模型潜在狄利克雷分配
/Latent Dirichlet Allocation/
最后更新 2022-12-23
浏览 144次
可以将文档集中每篇文档的主题按照概率分布的形式给出的主题模型。又称隐含狄利克雷分布。简称LDA。
- 英文名称
- Latent Dirichlet Allocation
- 又称
- 隐含狄利克雷分布
- 所属学科
- 计算机科学技术
在LDA最初提出的时候,人们使用EM算法进行求解,后来人们普遍开始使用较为简单的吉布斯抽样(Gibbs Sampling)。
扩展阅读
- GEMAN S, GEMAN D.Gibbs distributions, and the Bayesian restoration of images.1984.
- BLEI D M, NG A Y, JORDAN M I.Journal of machine Learning research.2003.
- WALLACH H M.beyond bag-of-words[C]//Proceedings of the 23rd international conference on Machine learning.2006.
- DEMPSTER A P, LAIRD N M, RUBIN D B.Journal of the royal statistical society.Series B (methodological),1977,1-38.