个人隐私主要指个人不愿意公开的私密数据,如银行卡号、用户密码等; 共同隐私主要指两人及两人以上所拥有的共同信息或模式。
1995年,第一届KDD(knowledge discovery in datasets)会议首次提出数据挖掘隐私保护的概念。1999年,数据挖掘隐私保护被列为数据挖掘研究领域的重点研究之一。
数据挖掘隐私保护包括两个方面的内容:①对敏感数据本身进行隐藏。隐藏的方法就是在数据发布之前将原数据中涉及隐私或敏感的信息删除或修改,这类方法一般是通过扰动、抽样、泛化、随机、匿名化、加密等技术来实现。 ②对敏感知识进行隐藏。这类方法保护的是敏感的挖掘结果,例如挖掘出的知识样模。此方法会与特定的某种数据挖掘算法结合起来,用数据失真或阻塞等技术来防止敏感知识样模的泄露。
数据挖掘隐私保护的重要内容是数据挖掘过程的保护,同时防止信息泄露。数据挖掘的过程可以划分为三个阶段:数据预处理、数据挖掘算法和知识表达。随着PPDM的不断发展进化,隐私保护算法并不是仅仅用在其中的某一个步骤上,而是用在数据挖掘的整个过程中。