您的当前位置:首页正文

基于奇异值分解的银行客户数据隐私保护算法研究

2021-09-02 来源:爱go旅游网
i息安全●Information Security 基于奇异值分解的银行客户数据隐私保护算法研究 文/季文韬 魏巍 如何在保护客户数据隐私的 前提下进行有效的数据挖掘,已 经成为金融业数据挖掘领域的重 要课题。用矩阵的奇异值分解进 行数据扰动,不仅能消除数据噪 音,还能获得准确的聚类效果。 区 图1:SVD-clustering模型 本文提出了一种奇异值分解的聚 类算法,实验表明算法能有效的 保护客户数据隐私,而且保留了 聚类分析的准确特征。 键词】奇异值分解隐私保护聚类分析 随着数据挖掘技术和机器学习算法的快 :展,数据隐私保护问题已经越来越引起人 J关注。目前的隐私保护方法主要分为两类 (1)对原始数据值进行扭曲、扰动、随 和匿名化,使数据使用者不能得出数据的 ;值。 (2)修改数据挖掘算法,使分布式数据 i中的参与者在不知道确切数据值的情况下 }得出数据挖掘的结果。 似关联的数据结构。 图2:扰动前后的数据点相对距离 原始数据,这样,包含隐私保密信息的原始数 设A是任意一个mxn阶实矩阵,即 据就得到了保护。 2.1 SVD—clustering算法流程 输入:初始矩阵D,划分的聚类的数目K 输出:转换后的矩阵D ,聚类结果 r n-  数据扰动是隐私保护数据挖掘应用的重 A∈Rm ,则存在一个mxm阶的正交矩阵u,l成部分,我们利用奇异值分解(Singular mxn阶的广义对角矩阵w和nxn阶的正交矩 e decomposition)SVD)对保密数值属性 :扰动,并在矩阵分解的基础上进行隐私数 !类。我们所提出的的奇异值分解聚类方法, 可以满足保护敏感数据属性的要求,同时 f K-means聚类分析的一般特点,能得到准 ,阵v,使得 A=UWV (1)在矩阵D中找出需要保密的数据属 A=【al,a2,…,an】; )i=l,2,…,n.形成一个新的矩阵A, 其中, l vJ,∑f=diag(o1,G2,… 性序列(a ar),o1≥a2 … ox>O。并且A的秩等于r。 】数据模型和分析结果。 奇异值分解的显著特点是在降维压缩数 据的同时保护了主要的数据模式。在隐私保护 (2)用SVD算法对矩阵D进行分解 SVD(A)=UWV ; 法的理论基础 K一均值聚类算法 K.均值聚类算法是一个将包含有n个对 金融数据挖掘应用中,扰动的数据集Ak可以 在同时提供数据隐私保护,还保留了原始数据 (3)找出扰动后的矩阵A =u wkVkT: (4)用Ak的值更新数据库D,形成新的 矩阵D ; (5)在矩阵D 中对保密数据的属性进 行聚类分析。 的可用性,使其真实地表现原始的数据集结构。 奇异值分解(SVD)是一种常见的数据挖 掘矩阵分解方法和信息检索方法。它开始被用 l数据集划分成k个聚类的过程,使同一聚 ,的对象属性相似度较高,而不同聚类中的 来降低数据集的维度。文献[3]提出了用SVD 进行数据扰动的技术,在文献[4]中,SVD技 术是用来扰动数据集的模式部分。 2.2算法示例 样本数据如表1所示,在隐私保护的第 一属性相似度较小。聚类分析的基本指导思 }是最大程度地实现类中对象相似度最大, 】对象相似度最小。 奇异值分解 奇异值分解在数据挖掘的应用中,特别 2 SVD—c I uster i ng模型及算法 阶段采用匿名保护,用编号代替被采样者, 假设已经去除了标识符(如姓名、身份证号码、 SVD—clustering模型包含两部分:数据扰 地址等)。在这个样本中我们比较关注年龄和 动部分和数据的聚集部分。模型如图1所示。 年薪两个属性,假设数据的使用者想利用这些 我们假设只有数据的拥有者和授权用户才可以 人的年龄和年薪对他们进行分类。但是这些属 对数据进行处理。经过数据扰动,原始的数据 性值都是保密的信息,即要对这两个属性进行 集转换成完全不同的数据矩阵,数据使用者利 用K.means聚类等数据挖掘算法对扰动的数据 隐私保护。 为了达到隐私保护的目的,我们利用 :文本挖掘中并不是新技术,但在隐私保护 [据扰动中的应用是最近兴起的。一个奇异 ‘解的显著特点是在降维压缩数据的同时维 :要的数据模式。矩阵分解的主要目的是从 }数据集获得一些低维的,对象和属性的近 进行检索。因为数据使用者未经授权不能得到 SVD.clustering模型对数据进行扰动。图2显 28・电子技术与软件工程Electronic Technology&Software Engineering Information Security・信息安全 表1:原始数据集样本 示经过扰动后各个数据对象在扰动前后聚类中 的相对距离。 clustering算法得到的误差率在0.1%左右,可 noveI dat a di stO rti On aPPrOa ch vi a s e1 ecti ve s s vd fO r Pri vacY protect iOn.2009. 以证明我们的算法在数据扰动前后聚集的准确 性非常好。 3.2相对误差分析 3实验结果分析 为简单起见,我们只考虑转化两个隐私 数据属性,年龄和年薪。每次聚类包含6个数 个属性的六个数据点。在扰动前,当K=3时, 对象1,3,6在聚类l中,对象4,5在聚类2中, [3】V.Veryki OS,E.Be rtino,I.FovinO,L. Proveflza,Y.SaYgin,Y.Theodoridi s. 当一个数据矩阵扰动后,它的属性值也 St at e—Of—t h e—a rt i n P ri V a c Y 据点,在表2中,分别表示包含年龄和工资两 发生改变,数据值的变化可以用范数的相对误 差表示。这样,可以用RE(Relative E1TOr)表 preserving data mining.ACM SIGMOD Record,2014,3(01):50-57. [4]L.Hnbe rt,J.Meu1man,W.Hei S e r.Two purpoSes fOr matrix factOrizat ion: 示原始值D到扰动后的属性值D 的变化。 Re= 对象2在聚类3中,在数据扰动后,当K=3时, 数据1,3,6在聚类1中,对象2在聚类2中, 对象4,5在聚类3中。 实验的效率根据原始数据和扰动后数据 的合法点聚类检测出来的。在进行数据扰动后 a h i s t 0 r i C a 1 a P P r a i S a I.S I AM 其中lIDl『F是矩阵D的欧式范数,D’为扰 动后的数据集。可以看出,RF的数值越大, 表明数据扰动的程度越大,即数据的保密性能 越好。  .Review,2009,42(04):68—82. [5】张国荣,印鉴.应用等距变换处理聚类 分析中的隐私保护[J].计算机应用研 究,2015(07):8 3-86. 聚类的簇元素和原始数据聚类后的簇元素应该 一致,但是在数据扰动过程中可能存在一些潜 在的问题:一些噪音点中断了聚类过程;一个 4结论 我们提出一个奇异值分解的聚类方法, [6]黄伟伟,柏文阳.聚类挖掘中隐私保护 的几何数据转换方法[J】.计算机应用研 究,2006(06):l80-i84. 聚类中的数据点变成噪音点;一个数据点从一 个聚类转移到另一个聚类。由于我们采用的 K.means聚类算法已经消除了噪音,所以我们 验证结果的时候只考虑第三种情况。 3.1误差率分析 我们利用误差率M 来评估聚类挖掘的 用来扰动保密数值的属性,以满足银行客户隐 私保护的要求,同时保留K-means聚类分析的 一作者简介 季文韬(1986-),男,河南省南阳市人。主 要研究方向为隐私保护数据挖掘。 魏巍(1 992-),男,河南省南阳市人。主要 般特点.实验结果表明,该方法在高准确性 隐私保护应用中非常有效,保证聚类挖掘结果 正确性的基础上,对数据集中的敏感属性也进 行了很好的隐私保护。 研究方向为数据处理。 准确性,M 采用百分率。在理想情况下, M =o%。M 的计算公式如下: 参考文献 f1】R.Ag r awa1,R.S ri k ant.P ri va Cy— preserving data mining.in:Proceedings of the 2O00 ACM SIGMOD International COnfe r en c e on Man a g ement Of 作者单位 1.中国农业银行成都青羊支行 四川省成都 市610015 Me= 1∑(ICtuste ̄,(D)[一I‰ (叫) 其中,N代表原始数据集D中点的个 数,k为聚类的个数,D’为扰动后的数据 2.电子科技大学成都学院通信与信息工程系 四川省成都市610500 集,lClusteri(D)l代表第i个聚类中的合法数 据点的个数。从表3中可以看到,利用SVD. Data,2000,439—450. [2】J.Wang,J.Zhang,W.ZhOng,S.XU,A Electronic Technology&Software Engineering电子技术与软件工程・229 

因篇幅问题不能全部显示,请点此查看更多更全内容