重复文本检测是一种优化搜索结果和数据存储的技术,它避免了搜索结果和存储数据中出现多份具有相同或者相似内容的文本。它主要是从语义方面对文本进行分析聚类,对每份文本计算一个指纹或者信息码,根据这个指纹或者信息码计算两份文本的相关性或者距离。若两份文本的相关性大于某个值,则可判定这两份文本相互重复。
重复文本检测大多基于一种思想:为每一份文本生成一个或多个指纹,若两份文本中相同的指纹数目超出一个阈值,则两份文本即被认为是相互重复的。
随着重复文本检测的研究日益深入,指纹生成和指纹匹配技术也越来越多,根据指纹生成和匹配方法的不同,主要有两类方法:①基于特征匹配的方法。②基于特征统计的方法。