随着大数据时代的来临,数据爆发式增加,共享使得信息道德出现危机。
原始数据集具有个体标识属性、准标识属性、敏感属性、非敏感属性等特性。攻击者会通过链接攻击、同质性攻击、相似性攻击等方式窃取用户敏感属性数据,利用数据挖掘技术加以提炼,获取威胁用户隐私安全的信息。
科学的数据挖掘系统应保证挖掘信息完整准确的同时,限制挖掘个人隐私信息的能力。匿名化是数据挖掘保护个人隐私的最主要技术。
常见的四种匿名保护模型为K-匿名隐私保护模型、L-多样性模型、(α,k)-匿名模型、t-closeness模型,其中K-匿名隐私保护模型应用广泛,针对一次性静态单敏感属性数据,K取值影响隐私保护度和数据可用性。
匿名技术主要包括泛化技术、抑制技术、扰乱技术、有损连接,以一般化、隐藏敏感属性、加入噪声值、损失连接等方式进行匿名化处理。
判断数据匿名化程度的方法有可辨别度量法、匿名表效用度量法、泛化层次度量法、分布距离度量法,通过度量隐私保护度和数据完整可用性来评价方法的有效性。