首页 . 理学 . 计算机科学技术 . 人工智能 . 自然语言处理 . 文本挖掘

关键词提取

/keyword extraction/
条目作者张奇

张奇

最后更新 2022-12-23
浏览 223
最后更新 2022-12-23
浏览 223
0 意见反馈 条目引用

识别文本中最能反映出文本主题的相关词语或片段的技术。

英文名称
keyword extraction
所属学科
计算机科学技术

早在1958年,美国IBM公司的H.P.卢恩(Hams Peter Luhn; 1896-07-01~1964-08-19)就对自动提取摘要进行了研究。例如卢恩就是通过统计文章中词语的词频和词语的位置作为统计特征值,通过为不同的特征设定不同的权值计算出总得分,然后比较得分和阈值的大小,将得分大于阈值的词语保存下来,从而得到文章的关键词。一些较常用的机器学习方法,包括遗传算法,支持向量机,最大熵模型,条件随机场等也逐渐应用到关键词提取领域中。

关键词提取被广泛应用于自动文摘、信息检索、文本分类、文本聚类、在线广告等任务。早在1958年,卢恩就对自动提取摘要进行了研究。在关键词提取任务中,用到的主要方法可以分为三类:①基于统计的方法;②基于机器学习方法;③基于语言学的方法。

针对关键词提取任务衍生了许多算法,但这些新生方法都基于以上三类方法。基于图模型的关键词提取算法发展较为迅速,这类算法一般将词或句抽象成图的结点,再根据一些统计信息或知识信息构建网络。S.拉希里(S.Lahiri)衡量了文本中词语和名词短语的中心性,设计了一个在线基于图模型和中心性措施的关键词提取系统。网页排名(PageRank)算法被广泛应用于关键词提取任务,基于相关的研究工作,PageRank相关的变体方法和基于打分的tf-idf 被认为是无监督关键词提取的先进方法。

关键词提取不仅仅可以从单一文档中获取,也可以从多个文档来获取。C.卡拉贾(Cornelia Caragea)等人证实了,除了文档的文本内容和相似性文本,其他临近的信息很有可能包含着提高关键词提取的因素。例如,在学术研究领域的关键词提取,同一领域的研究论文之间有一定的相关性。此外,相似论文之间通常被高度的引用网络所连接。这些引用或者被其他论文引用的上下文并不是随意的,它通常是被引用文章的简短总结。从抽取结果的不同,关键词抽取也可以分两种。第一种仅抽取关键词语,这个简单实现也比较多,比如FudanNLP、jieba、SnowNLP。另一种除了抽取关键词语外,也抽取连词和短语,这一类的实现包括ICTCLAS、ansj_seg等。对于聚类或者分类,短语比词语更有参考价值。 

  • LUHN H. P. A.statistical approach to mechanized encoding and searching of literary information.1957.
  • WITTEN I H, PAYNTER G W, FRANK E.ractical automatic keyphrase extraction.1999.
  • TURNEY P D.Learning algorithms for keyphrase extraction.2000.
  • WAN X, XIAO J.towards a collaborative approach to single-document keyphrase extraction.2008.
  • Medelyan O, Frank E, Witten I H.Human-competitive tagging using automatic keyphrase extraction.2009.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!