首页 . 管理学 . 情报学 . 信息组织 . 信息加工处理 . 标引

统计标引法

/statistical method of indexing/
条目作者曹树金

曹树金

最后更新 2023-12-08
浏览 204
最后更新 2023-12-08
浏览 204
0 意见反馈 条目引用

以词频统计为基础的自动标引方法。

英文名称
statistical method of indexing
所属学科
情报学

统计标引法是依据下述假设来选择标引词:某词在文献中的出现频率与该词的文献区分功能有密切关系。一个词(实词)在文献中使用越频繁,就越有可能是一个指示主题的词,也就是先按词频给每个词加权,权值超过一定阈值的词选作标引词。此法由美国情报学家H.P.卢恩[注]首创于1957年,包括:词频统计标引法、加权统计标引法、N-Gram法等。后来又有研究者加以改进和补充,派生出了多种不同的统计标引方法,如绝对频率法、相对频率法、倒置文献频率法等。

统计标引法的基本方法是将文献中每个词出现的频率按照递减顺序排列起来 (高频词在前,低频词在后),并用自然数给这些词编上等级序号,频次最高的是1级,其次是2级、3级……如果用表示词在文献中出现的频次,用表示词的等级序号,则有。通过对这些词语的统计,求出其中的高频词、中频词和低频词,并使用中频词作为标识文献的词。此外,还可以根据取词的不同位置、词语本身的重要性给每个词赋予不同的权值,使得最终的加权统计结果更加符合实际情况,更能体现文献的主题。

统计标引法最大的优点是简单易用,符合计算机的逻辑处理能力和人类语言应用的一般语形特征,但是使用这种纯粹统计的方法去处理千差万别的人类思维的语言记录结果,不可能准确描述文献的复杂主题。因此,这种方法仅作为计算机处理语言的研究手段,或在一些机助标引系统与语义分析系统中发挥其辅助的作用。

  • 赖茂生,徐克敏.科技文献检索.北京:北京大学出版社,1994.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!