项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的数据条目数,简称为项集的频率,支持度计数或计数。支持度是指某个集合在所有数据中出现的频率,如果项集的支持度满足预定义的最小支持度阈值,则该项集是频繁项集。
频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。经典的频繁项集挖掘算法有Apriori算法和FP-growth算法。
在Apriori算法中,用到了频繁项集的先验原理:频繁项集的非空子集都必须是频繁的。Apriori算法的步骤可概括为以下两步:
第一步:设定支持度阈值,扫描一遍数据集,找出频繁1-项集。
第二步:从频繁1-项集中生成候选2-项集,然后再次扫描数据集,找出频繁2-项集。以此类推,依据频繁k-项集生成候选k+1-项集,然后扫描数据集,找出k+1-项频繁项集,直到无法再生成频繁项集。