重复检测

/duplication detection/

最后更新 2022-12-23

浏览 113次

最后更新 2022-12-23

浏览 113次

0 意见反馈条目引用

给定一份文本和一个文本集合，判断文本集合中是否存在一份文本与给定文本相重复。又称重复文本检测。

重复文本检测是一种优化搜索结果和数据存储的技术，它避免了搜索结果和存储数据中出现多份具有相同或者相似内容的文本。它主要是从语义方面对文本进行分析聚类，对每份文本计算一个指纹或者信息码，根据这个指纹或者信息码计算两份文本的相关性或者距离。若两份文本的相关性大于某个值，则可判定这两份文本相互重复。

重复文本检测大多基于一种思想：为每一份文本生成一个或多个指纹，若两份文本中相同的指纹数目超出一个阈值，则两份文本即被认为是相互重复的。

随着重复文本检测的研究日益深入，指纹生成和指纹匹配技术也越来越多，根据指纹生成和匹配方法的不同，主要有两类方法：①基于特征匹配的方法。②基于特征统计的方法。

肖鹏元．基于 GPU 并行计算的重复文本检测系统．杭州：浙江大学，2011．
BRODER A Z, GLASSMAN S C, MANASSE M S．Syntactic clustering of the Web．．6th International WWW conference, 1997，1997．
INDYK P, MOTWANI R．Approximate Nearest Neighbor: Towards Removing the Curse of Dimensionality．Theory of Computing，2012，（1）：604-613．
CHOWDHURY A, FRIEDER O, GROSSMAN D．Collection statistics for fast duplicate document detection．ACM Transactions on Information Systems，2002，20(2)：171-191．
THEOBALD M, SIDDHARTH J, PAEPCKE A．SpotSigs: robust and efficient near duplicate detection in large web collections．．International Acm Sigir Conference on Research & Development in Information Retrieval. ACM，2008．

阅读历史