首页 . 理学 . 计算机科学技术 . 人工智能 . 知识发现 . 关联规则

频繁项

/frequent itemsets/
最后更新 2024-12-05
浏览 284
最后更新 2024-12-05
浏览 284
0 意见反馈 条目引用

频繁项集表示在商品关联数据集中经常一起出现的商品变量。

英文名称
frequent itemsets
所属学科
计算机科学与技术

项的集合称为项集。包含k个项的项集称为k-项集。项集的出项频率是包含项集的数据条目数,简称为项集的频率,支持度计数或计数。支持度是指某个集合在所有数据中出现的频率,如果项集的支持度满足预定义的最小支持度阈值,则该项集是频繁项集。

频繁项集挖掘是关联规则、相关性分析、因果关系、序列项集、局部周期性、情节片段等许多重要数据挖掘任务的基础。因此,频繁项集有着很广泛的应用,例如:购物篮数据分析、网页预取、交叉购物、个性化网站、网络入侵检测等。经典的频繁项集挖掘算法有Apriori算法和FP-growth算法。

在Apriori算法中,用到了频繁项集的先验原理:频繁项集的非空子集都必须是频繁的。Apriori算法的步骤可概括为以下两步:

第一步:设定支持度阈值,扫描一遍数据集,找出频繁1-项集。

第二步:从频繁1-项集中生成候选2-项集,然后再次扫描数据集,找出频繁2-项集。以此类推,依据频繁k-项集生成候选k+1-项集,然后扫描数据集,找出k+1-项频繁项集,直到无法再生成频繁项集。

  • Han J,Micheline Kamber.Data Mining Concepts and Techniques.2nd Edition.2006.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!