一种数据脱敏的方法及装置与流程

专利2022-06-30  91


本发明涉及数据处理技术领域,特别涉及一种数据脱敏的方法及装置。



背景技术:

近年来,随着信息技术的不断发展,个人数据的产生呈指数型增长,大量的个人信息被政府部分、商业机构等存储、发布。数据发布作为信息共享的一种手段,在为数据交换和数据共享提供便利的同时,也增大了个人隐私数据泄露的风险。“隐私数据”即指数据拥有者不愿意其他人知道的敏感信息,如家庭地址、身份证号码、电话号码、疾病信息、位置信息等。例如,有关部门可能为了研究各类型药物的使用量以及病人的患病情况等原因,需要医院提供相关的购药表数据,而购药表数据中包含许多的隐私数据。显然,如果将购药表数据直接发布,则可能会泄露病人的隐私信息。如何对表数据进行处理,以防止病人的疾病隐私泄露,最简单的办法就是将患者的名字属性去掉,则攻击性可能根据敏感属性,借助背景知识、关联攻击等方式推断出个人的身份信息。如果把数据中的敏感属性全部去掉,那么这样的数据会导致研究变得毫无意义。

目前,关于在数据发布中的隐私泄露问题,现有的研究主要是通过限制数据发布、数据加扰、k-匿名等方法,虽然这些方法能在一定程度上保护数据的隐私,但是还存在着一些安全性和可用性缺陷。比如,限制数据发布主要是切断数据之间的关联,但其将会导致数据的可用性降低,而且限制发布的数据个数也不好控制;数据加扰主要是对数据进行扰动,通过增加适当的噪音来改变数据,有利于数据特征的维持,但是其有较低的聚类可用性,并且计算开销大;k-匿名主要是要求发布的数据中至少存在k个不可区分的记录,使攻击者不能判别出隐私信息所属的具体个体,从而保护了个人隐私,虽然k-匿名在一定程度上保护了个人的隐私,但同时会降低数据的聚类可用性。

因此,在现有的数据发布的隐私保护机制中,主要存在两方面的问题:一方面是计算复杂、开销大的问题;另一方面是难以维持数据可用性和隐私性的平衡问题。



技术实现要素:

(一)要解决的技术问题

为了解决现有技术的上述问题,本发明提供一种数据脱敏的方法及装置,能够减少计算开销,并在保证数据的可用性的前提下保护隐私数据。

(二)技术方案

为了达到上述目的,本发明采用的一种主要技术方案包括:

一种数据脱敏的方法,包括步骤:

s1、获取原始数据,并进行核化处理,得到新的数据;

s2、对所述新的数据进行降维处理,得到降维后的数据;

s3、对所述降维后的数据进行中心化处理,得到脱敏后的数据。

为了达到上述目的,本发明采用的另一种主要技术方案包括:

一种数据脱敏的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:

s1、获取原始数据,并进行核化处理,得到新的数据;

s2、对所述新的数据进行降维处理,得到降维后的数据;

s3、对所述降维后的数据进行中心化处理,得到脱敏后的数据。

(三)有益效果

本发明的有益效果在于:通过获取原始数据,并进行核化处理,得到新的数据;对所述新的数据进行降维处理,得到降维后的数据,不仅去除了数据中的冗余信息,简化了计算复杂度,减少不必要开销;对所述降维后的数据进行中心化处理,得到脱敏后的数据,在保证数据的可用性的前提下保护隐私数据。

附图说明

图1为本发明实施例的数据脱敏的方法流程图;

图2为本发明实施例的数据脱敏的装置的结构示意图。

【附图标记说明】

1:数据脱敏的装置;

2:存储器;

3:处理器。

具体实施方式

为了更好的解释本发明,以便于理解,下面结合附图,通过具体实施方式,对本发明作详细描述。

实施例一

请参照图1,一种数据脱敏的方法,包括步骤:

s1、获取原始数据,并进行核化处理,得到新的数据;

步骤s1具体为:

获取原始数据,并对所述原始数据中的非线性数据进行核化处理转换为线性数据,得到新的数据。

s2、对所述新的数据进行降维处理,得到降维后的数据;

步骤s2具体为:

通过主成分分析对所述新的数据进行降维处理,得到降维后的数据。

s3、对所述降维后的数据进行中心化处理,得到脱敏后的数据。

所述中心化处理包括:

按照距离最小化原则构造与所述降维后的数据相对应的等价集。

所述中心化处理还包括:

计算所述降维后的数据的每列数据的均值,并将每列数据的均值代替每列数据的具体值。

实施例二

本实施例和实施例一的区别在于,本实施例将结合具体的应用场景,进一步说明本发明上述数据脱敏的方法是如何实现的:

本发明主要包括数据降维和中心化处理两个阶段;

1、数据降维阶段

获取待发布的原始表数据sn×h,其中,n为表数据的记录数量,h为表数据的维度,首先,对所述原始表数据sn×h中的数值型非线性数据进行核化处理转换为数值型线性数据,得到新的表数据s′n×h;然后,通过主成分分析对所述新的数据s′n×h进行降维处理,得到降维后的表数据s″。

每条记录包括m个公开属性和t个敏感属性,其中m t=w。令u=(u1,u2,…,um)为表数据中的公开属性,其中ui(i=1,2,…,m)为第i个公开属性;v=(v1,v2,…,vt)为表数据中的敏感属性,其中vj(j=1,2,…,t)为第j个敏感属性,从所述原始表数据sn×h中提取的数值型非线性表数据tn×l,其样本记录为n,维度为l。

具体实施步骤如下:

首先,对表数据中的数值型非线性数据进行核化处理,将表数据sn×h转化为表数据s′n×h。

s111:提取表数据中的非线性数据,用矩阵a表示:a=(a1,a2,…,an)t。其中,af=(af1,af2,…,afl)表示a中的第f行数据;

s112:将a中的每行数据af=(af1,af2,…,afl)依次投影到超平面zf=(zf1,zf2,…,zfd),得到投影后的数据,其中f=1,2,…,n;

s113:获取所述投影后的数据的第f行数据:则对于zfj满足其中wfi是数据afi在超平面中的像,即wfi=φ(afi);

s114:计算zfj:其中是afi的第j个分量,λf为af的特征值;

s115:引入核函数:kf(afi,afj)=φ(afi)tφ(afj);

s116:计算得到kfaj=λjaj,其中kf为第f行数据核化后的向量;

s117:最终得到核矩阵:k=(k1,k2,…,kn)t

通过对则原始表数据中的数值型非线性数据进行核化处理,则表数据转化为s′n×h=(sn×(h-l),kn×l)。

其次,对s′n×h中的数值型线性数据采取主成分分析法进行降维,得到降维后的表数据s″。具体实施步骤如下:

s121:计算每列数据的均值:其中j=1,…,h;

s122:将线性数据中的各个数据去中心化,即每个数据减去对应列的均值:sij=sij-ej,其中i=1,…,n;

s123:计算其协方差矩阵f:

s124:对f进行特征值分解,计算其特征值λi及其所对应的特征向量μi:令|λe-f|=0,求解λ的值即为特征值;将λ的值带入|λe-f|=0,求解出的线性无关的向量即为特征向量。

s125:并对特征值λi进行排序:λ1>λ2>…>λh,其对应的特征向量为μ1,μ2,…,μh;

s126:选取主成分个数:给定一个可用性的阈值α和剩余主成分个数参数b,然后根据是否判断式1-p≤α来选取主成分的个数,若不等式成立,则输出b,否则,令b=b 1。其中:λi为特征值;

s127:输出前b个特征值对应的特征向量集合:vb={μ1,μ2,…,μb};

s128:单位化特征向量vb,得到特征矩阵a:首先计算特征向量集合vb中各个特征向量的模:然后进行单位化处理,得到单位矩阵:

s129:计算投影矩阵:s″n×b=s′n×ha。

2、中心化处理阶段

s21:创建与降维后的表数据s″相对应的数据集s*,令设置等价集的个数r,得到r个等价集d1,…,dr。令令j=1;

s22:从s″中任选一条记录si作为等价集dj的初始元;即dj={si},并且s″=s″-{si};

s23:计算s″中与等价集dj距离最近的记录si,di←di {si},s″=s″-{si};重复本步骤,直到dj中的记录大于或等于k个为止;

s24:对等价集dj中的元素进行中心化处理:计算dj中各列数据属性的均值,以均值来代替各列数据属性的具体值,得到新的等价集d′j;

s25:s*=s* {d′j};如果j<5,则j=j 1,重复步骤s22,否则结束。

具体地,(1)针对现有数据发布中的隐私保护方法难以保证原始数值型数据聚类可用性问题,本发明通过聚类思想将n条记录按照距离最小化原则构造等价集,以均值来代替等价集中的属性值,实现中心化匿名,在保证数据的隐私安全性的同时保证较小的信息损失度;并且从理论上对该算法进行了有效性和安全性分析;(2)针对现有数据发布保护机制中存在的数据开销大、计算复杂度高等问题,本发明在数据降维以后对数据进行隐私保护:通过对数值型非线性数据进行核化处理,将其转化为线性数据,然后对线性数据采取主成分分析法进行降维。其可以去除冗余信息,简化计算复杂度,减少不必要的开销;(3)本发明通过合理了两条记录间的距离和记录与等价集之间的距离,使其正向反映中心化数据信息损失。

实施例三

请参照图2,一种数据脱敏的装置1,包括存储器2、处理器3及存储在存储器2上并可在处理器3上运行的计算机程序,所述处理器3执行所述程序时实现实施例一中的各个步骤。

以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。


技术特征:

1.一种数据脱敏的方法,其特征在于,包括步骤:

s1、获取原始数据,并进行核化处理,得到新的数据;

s2、对所述新的数据进行降维处理,得到降维后的数据;

s3、对所述降维后的数据进行中心化处理,得到脱敏后的数据。

2.根据权利要求1所述的数据脱敏的方法,其特征在于,步骤s1具体为:

获取原始数据,并对所述原始数据中的非线性数据进行核化处理转换为线性数据,得到新的数据。

3.根据权利要求2所述的数据脱敏的方法,其特征在于,步骤s2具体为:

通过主成分分析对所述新的数据进行降维处理,得到降维后的数据。

4.根据权利要求1所述的数据脱敏的方法,其特征在于,所述中心化处理包括:

按照距离最小化原则构造与所述降维后的数据相对应的等价集。

5.根据权利要求1所述的数据脱敏的方法,其特征在于,所述中心化处理还包括:

计算所述降维后的数据的每列数据的均值,并将每列数据的均值代替每列数据的具体值。

6.一种数据脱敏的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:

s1、获取原始数据,并进行核化处理,得到新的数据;

s2、对所述新的数据进行降维处理,得到降维后的数据;

s3、对所述降维后的数据进行中心化处理,得到脱敏后的数据。

7.根据权利要求6所述的数据脱敏的方法,其特征在于,步骤s1具体为:

获取原始数据,并对所述原始数据中的非线性数据进行核化处理转换为线性数据,得到新的数据。

8.根据权利要求7所述的数据脱敏的装置,其特征在于,步骤s2具体为:

通过主成分分析对所述新的数据进行降维处理,得到降维后的数据。

9.根据权利要求6所述的数据脱敏的装置,其特征在于,所述中心化处理包括:

按照距离最小化原则构造与所述降维后的数据相对应的等价集。

10.根据权利要求6所述的数据脱敏的装置,其特征在于,所述中心化处理还包括:

计算所述降维后的数据的每列数据的均值,并将每列数据的均值代替每列数据的具体值。

技术总结
本发明提供的一种数据脱敏的方法及装置,通过获取原始数据,并进行核化处理,得到新的数据;对所述新的数据进行降维处理,得到降维后的数据,不仅去除了数据中的冗余信息,简化了计算复杂度,减少不必要开销;对所述降维后的数据进行中心化处理,得到脱敏后的数据,在保证数据的可用性的前提下保护隐私数据。

技术研发人员:张美跃;周业;陈佳伟;周定云;俞宏青;俞基锋
受保护的技术使用者:恒瑞通(福建)信息技术有限公司
技术研发日:2020.01.21
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-55918.html

最新回复(0)