【技术领域】
本发明涉及人工智能领域,其特别涉及一种数据共享方法及模型、存储介质。
背景技术:
现阶段,基于人工智能的数据分析与预测模型已广泛应用在不同领域的不同机构。机构内部所拥有的数据量(训练样本的原始样本数据集合),直接影响了对应人工智能模型的准确度与性能。基于多个机构的数据所获得的人工智能或数据分析模型,其性能与准确度相较基于单个机构数据的模型有显著提升。出于隐私保护的目的,不同机构之间无法将数据直接共享或集成。
因此,如何在满足隐私保护需求下,让机构之间进行数据共享,继而共同获得一个更高性能的人工智能模型,是目前急需解决的一项任务。
技术实现要素:
为解决机构内部数据的隐私保护的前提下实现数据共享的技术问题,本发明提供一数据共享方法及模型、存储介质。
本发明为解决上述技术问题,提供如下的技术方案:一种数据共享方法,其包括如下步骤:基于对抗生成网络gan(generativeadversarialnetworksorgenerativeadversarialnets)对训练样本的原始样本数据进行训练,以获得对应的分布估计;生成随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本,去除与训练样本的数据一致的伪样本,将保留的伪样本进行存储以形成该机构的待分享样本数据集合;共享该机构对应的待分享样本数据集合。
优选地,所述对抗生成网络gan包括生成器g和判别器d,其中,所述生成器g对训练样本的原始样本数据进行训练获得分布的隐式估计。
优选地,在上述生成随机数中,所述随机数为d维随机数。
优选地,去除与训练样本的原始样本数据一致的伪样本,将保留的伪样本进行存储以形成该机构的待分享样本数据集合,具体包括如下的步骤:判断该伪样本xi存在于训练样本的原始样本数据集合o;若是,则重新生成新的随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本xi的步骤;若否,则将该伪样本xi纳入待分享样本数据集合s。
优选地,在获得待分享样本数据集合s后,还包括如下步骤:更新计数器i=i 1;判断更新后的计数器i是否小于所需伪样本的样本量n;若是,则重新生成新的随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本的步骤;若否,则共享该机构对应的待分享样本数据集合。
优选地,待分享样本数据集合中伪样本的数量大于或等于训练样本的样本量。
本发明为解决上述技术问题,还提供如下的技术方案:一种数据共享模型包括:输入模块;用于输入至少一机构的原始样本数据集合;分布预估模块:用于通过对抗生成网络gan,对本机构内部数据的分布进行估计;采样模块:生成随机数,并向对抗生成网络gan中的生成器g中输入该随机数,生成同训练样本的原始样本数据相比具有相同分布的伪样本,去除与训练样本的数据一致的伪样本,将保留的伪样本进行存储以形成待分享样本数据集合;及数据共享模块:将不同机构对应的待分享样本数据集合进行共享。
优选地,所述采样模块具体包括:随机数生成单元,用于生成d维随机数;伪样本生成单元,用于向对抗生成网络gan中的生成器g中输入该d维随机数,生成同训练样本的原始样本数据相比高度仿真的同分布的伪样本;伪样本筛选单元,用于比对伪样本中是否有与该d维随机数所对应的训练样本相同的数据,并去除数据一致的伪样本;及数据采集单元,用于采集经过筛选后的伪样本,并获得待分享样本数据集合。
优选地,在所述分布预估模块中分布估计为隐式估计,并将该分布的隐式估计以多层神经网络进行刻画与编码。
本发明为解决上述技术问题,还提供如下的技术方案:一种存储介质,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行如上所述数据共享方法。
与现有技术相比,本发明所提供的数据共享方法及数据共享模型、存储介质具有如下的有益效果:
本发明提供了一种基于对抗生成网络gan的具备隐私保护功能的数据共享方法及数据共享模型,在保证机构内部数据的隐私的前提下,可将对抗生成网络gan所产生的伪样本进行跨机构共享,进而提升模型性能。
通过对抗生成网络gan,对不同机构的内部数据在高维空间中的分布进行估计。获得分布估计后,可生成属于该数据所服从的分布中的伪样本。所对应生成的伪样本的从均值,方差等统计量上,符合原始样本数据所属的分布的统计性质。不同的机构之间通过共享伪样本,达到兼顾隐私保护的数据分享的目的。
所述存储介质内包括所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行如上所述数据共享方法。其也具有与数据共享方法及其模型相同的有益效果。
【附图说明】
图1是本发明第一实施例所提供的数据共享方法的流程示意图;
图2是本发明第一实施例所提供的数据共享方法另一具体实施方式的流程示意图;
图3是本发明第二实施例所提供的数据共享模型的模块示意图;
图4是图3中所示采样模块的具体模块示意图。
附图标注说明:
20、数据共享模型;21、输入模块;22、分布预估模块;23、采样模块;24、数据共享模块;231、随机数生成单元;232、伪样本生成单元;233、伪样本筛选单元;234、数据采集单元。
【具体实施方式】
为了使本发明的目的,技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
请参阅图1,本发明的第一实施例提供一数据共享方法,该数据共享方法可用于不同机构之间内部数据的共享。所述数据共享方法可分为如下的步骤:
步骤s1,分布估计过程:基于对抗生成网络gan对训练样本的原始样本数据进行训练,以获得对应的分布估计;
步骤s2,采样过程:生成随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本,去除与训练样本的数据一致的伪样本,将保留的伪样本进行存储以形成待分享样本数据集合;
步骤s3,共享该机构对应的待分享样本数据集合。
多个不同的机构将各自生成网络所产生的伪样本中包含的数据进行共享,并基于不同机构所提供的伪样本,建立更大的人工智能与数据分析模型。
在本发明此处及以下所述的不同机构,可包括如银行、医院、学校等机构,本发明所提供的数据共享方法,可便于不同机构之间的数据共享,以构建更优的人工智能模型。
具体地,在上述步骤s1中,进行分布估计具体是在机构内部的训练样本的原始样本数据集合上,构建对抗生成网络gan,其中,对抗生成网络gan包括生成器g和判别器d。利用对抗生成网络gan对不同机构提供的训练样本的原始样本数据进行训练。其中,对抗生成网络gan的分布估计可看作是对机构内部训练样本的原始样本数据在高维空间的分布进行隐式估计。
向该生成器g输入任意d维随机数,即可生成同训练样本的原始样本数据相比高度仿真的同分布伪样本。也即,伪样本中的数据分布与训练样本的原始样本数据的分布相同。
其中,在本发明中基于对抗生成网络gan生成的对应于训练样本中原始样本数据的伪样本,具有与原始样本数据相同的分布的统计性质。所述数据分布的统计性质可体现在如从均值、方差等统计量上。进一步地,待对抗生成网络gan对不同机构提供的训练样本的原始样本数据训练稳定后,向对抗生成网络gan中的生成器g中输入任意d维随机数,即可生成同训练样本的原始样本数据相比高度仿真的同分布的伪样本。其中,d维随机数为对应于不同机构的对抗生成网络gan,d维随机数可由人工依据实际的需要设定,也可自动生成。
在获得伪样本之后,还包括如下步骤:将与该d维随机数所对应的伪样本中所包含的数据同训练样本的原始样本数据进行比对,去除与训练样本的原始样本数据完全一致的伪样本,并保留与训练样本的原始样本数据不一致的伪样本至待分享样本数据集合s中去,以完成待分享样本数据集合s的采样操作。通过上述步骤可避免与训练样本的原始样本数据相同的伪样本进入待分享样本数据集合s中。在此处所比对的数据为样本内具体的数据。
在上述步骤s2中,由于保留在待分享样本数据集合s中的伪样本的数据仅与训练样本的原始样本数据的分布相同,当各个机构均按照前述分布估计与采样过程建立了各自的待分享样本数据集合s后,由于待分享样本数据集合s不包含任何真实的用户数据,因此,可安全地在不同机构之间进行数据共享,以共同建立对应的人工智能模型。
请参阅图2,基于上述的内容,在本发明一些具体的实施例中,本发明所提供的数据共享方法还可细分为如下的步骤:
步骤p01,输入单一机构内部的训练样本的原始样本数据集合o;
步骤p02,基于该训练样本,训练对抗生成网络gan;
步骤p03,初始化计数器i=0;初始化待分享样本数据集合s=空集;
步骤p04,生成d维随机数;
步骤p05,该d维随机数通过对抗生成网络gan产生伪样本xi;
步骤p06,判断该伪样本xi是否存在于训练样本的原始样本数据集合o;若是,则返回步骤p04;若否,则进入步骤p07;
步骤p07,将该伪样本xi纳入待分享样本数据集合s;
步骤p08,更新计数器i=i 1;
步骤p09,判断更新后的计数器i是否小于所需伪样本的样本量n;若是,则返回步骤p04;若否,则进入步骤p10;
步骤p10,将包含n个伪样本的待分享样本数据集合s共享给其他结构;及
步骤p11,结束。
可以理解,步骤p03不限定执行顺序,其在步骤p07之前完成即可。
假设需要对m个机构的数据进行共享:
选取第1个机构的全部训练样本的原始样本数据集合o1,为了获得所需的精确度需求,设定在第1个机构内的所需伪样本的样本量为n。
在起始时,对应第1个机构的待分享样本数据集合s1为空集。
在上述步骤p02中,利用训练样本训练对抗生成网络gan,可获得训练样本的原始样本数据的分布估计。
针对训练样本,当计数器i=1时,利用d维随机数对训练后的对抗生成网络gan产生具有相同数据分布的伪样本x1。训练样本的原始样本数据与伪样本x1中的数据具有相同的分布,但其具体数据可以为相同或不相同。
进一步,需要判断伪样本x1的数据是否落入训练样本的原始样本数据集合o之内:
如果落入其集合范围之内,则生成新的d维随机数,并基于该d维随机数通过对抗生成网络gan产生新的伪样本x1;
如果未落入,则将该伪样本x1对应的数据进行采集至待分享样本数据集合s1,并对应更新计数器i=1 1=2,进一步判断更新后的计数器2是否小于设定的所需伪样本的样本量n,如果小于,则生成新的d维随机数,并基于该d维随机数通过对抗生成网络gan产生新的伪样本x2;
进一步地,判断获得的伪样本x2是否落入训练样本的原始数据集合o中。
依次类推,获取并采集对应不同d维随机数的伪样本x3、伪样本x4……伪样本x(n-1)、伪样本xn,以形成待分享样本数据集合s1。
基于上述形成待分享样本数据集合s1的方法,获得对应于不同机构的待分享样本数据集合s2、待分享样本数据集合s3、……待分享样本数据集合s(m-1)、待分享样本数据集合sm。
进一步将获得的待分享样本数据集合s1、待分享样本数据集合s2、……待分享样本数据集合s(m-1)、待分享样本数据集合sm进行数据共享。
其中,在上述待分享样本数据集合中的伪样本内包括与对应的训练样本的原始样本数据相同的分布及不相同的数据,因此,在不同机构之间共享数据时,不会将真实数据泄露,实现了对数据的保密。
可选地,在本发明中,待分享样本数据集合s中伪样本的样本量n大于或等于训练样本的样本量。具体地,在本发明的一个实施例中,待分享样本数据集合中伪样本的样本量n与训练样本的样本量一致。在另一些实施例中,伪样本的样本量n可远远大于训练样本的样本量,从而可获得更多组与训练样本的原始样本数据具有相同分布的伪样本数据,从而可提高训练样本的原始样本数据与待分享样本数据集合中数据分布的关联度。
本发明所提供的数据共享方法可满足在不泄露用户隐私的前提下,将本机构的数据分布采样同其他机构进行分享,从而可基于分享的数据分布采样,进行相应的数据分析或模型训练。
请参阅图3,本发明第二实施例为一种数据共享模型20,数据共享模型20包括:
输入模块21;用于输入至少一机构的训练样本的原始样本数据集合;
分布预估模块22:用于通过对抗生成网络gan,对本机构内部数据的分布进行估计。
采样模块23:生成随机数,并向对抗生成网络gan中的生成器g中输入该随机数,生成同训练样本的原始样本数据相比具有相同分布的伪样本,去除与训练样本的原始样本数据完全一致的伪样本,将保留的伪样本进行存储以形成待分享样本数据集合。
数据共享模块24:将不同机构对应的待分享样本数据集合s进行共享。
在上述分布预估模块22中所提供的分布估计为隐式估计,具体为将该分布隐式以多层神经网络进行刻画与编码。
请继续参阅图4,具体地,所述采样模块23还可具体分为如下的单元:
随机数生成单元231,用于生成d维随机数;
伪样本生成单元232,用于向对抗生成网络gan中的生成器g中输入该d维随机数,生成同训练样本的原始样本数据相比高度仿真的同分布的伪样本;
伪样本筛选单元233,用于比对伪样本中是否有与该d维随机数所对应的训练样本相同的数据,并去除数据一致的伪样本;及
数据采集单元234,用于采集经过筛选后的伪样本,并集合成待分享样本数据集合。
可见,在上述的数据共享模型20中,可满足在不泄露用户隐私的前提下,将多个不同机构之间的数据分布采样进行分享,从而可基于分享的数据分布采样,并进行相应的数据分析或模型训练。
在本实施例中,有关分布估计、随机数的相关解释说明与上述第一实施例中的一致,在此不再赘述。
本发明的第三实施例还提供一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述第一实施例提供的数据共享方法中的步骤。
在本实施例中,所述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
分布估计过程:基于对抗生成网络gan生成与对训练样本的原始样本数据进行训练,以获得对应的分布估计;
采样过程:生成随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本,去除与训练样本的原始样本数据完全一致的伪样本,将保留的伪样本进行存储以形成待分享样本数据集合;及
数据共享过程:不同机构之间分享其对应的待分享样本数据集合;
在本实施例中,所述存储介质还可被设置为存储用于执行上述实施例的方法中所包括的步骤的计算机程序,本实施例中在此不再赘述。
可以理解的是,上述实施例的方法步骤中全部或者部分步骤是可以通过程序来指令终端设备相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括如软盘、光盘、dvd、硬盘、闪存、u盘、cf卡、sd卡、mmc卡、sm卡、记忆棒(memorystick)、xd卡等。
在本实施例中,计算机软件产品存储在存储介质中,包括若干指令用以使得一台或多台计算机设备(可以是个人计算机设备、服务器或其他网络设备等)用以执行本发明各个实施例所述方法的全部或部分步骤。
与现有技术相比,本发明所提供的数据共享方法、数据共享模型及存储介质具有如下的有益效果:
以银行客户数据为例,如需要给多个银行提供一种判断用户购买理财产品意向的数据分布估计,在现有技术中,一般需要利用多个银行的底层客户数据进行分析,然而这样的操作往往会造成底层客户数据的泄露。而采用本发明所提供的数据共享方法及数据共享模型,则可以通过对抗生成网络gan获得对应的伪样本的待分享样本数据集合,并将该所述待分享样本数据集合共享给其他机构。由于待分享样本数据集合中不包括训练样本的原始样本数据,因此,可满足在不泄露用户隐私的前提下,将本机构的数据分布采样同其他机构进行分享的目的。
进一步地,通过对抗生成网络gan,对不同机构的内部数据在高维空间中的分布进行估计。获得分布估计后,可生成属于该数据所服从的分布中的伪样本。所对应生成的伪样本的从均值,方差等统计量上,符合原始样本数据所属的分布的统计性质。不仅可以保护用户的隐私,避免数据泄露,还可保证伪样本的数据与原始样本数据仿真度,从而可提高共享数据的准确度。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
1.一种数据共享方法,其特征在于:其包括如下步骤:
基于对抗生成网络gan对训练样本的原始样本数据进行训练,以获得对应的分布估计;
生成随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本,去除与训练样本的数据一致的伪样本,将保留的伪样本进行存储以形成该机构的待分享样本数据集合;及
共享该机构对应的待分享样本数据集合。
2.如权利要求1中所述数据共享方法,其特征在于:所述对抗生成网络gan包括生成器g和判别器d,其中,所述生成器g对训练样本的原始样本数据进行训练获得分布的隐式估计。
3.如权利要求1中所述数据共享方法,其特征在于:在上述生成随机数中,所述随机数为d维随机数。
4.如权利要求1中所述数据共享方法,其特征在于:去除与训练样本的原始样本数据一致的伪样本,将保留的伪样本进行存储以形成该机构的待分享样本数据集合,具体包括如下的步骤:
判断该伪样本xi存在于训练样本的原始样本数据集合o;若是,则重新生成新的随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本的步骤;若否,则将该伪样本xi纳入待分享样本数据集合s。
5.如权利要求4中所述数据共享方法,其特征在于:在获得待分享样本数据集合s后,还包括如下步骤:更新计数器i=i 1;判断更新后的计数器i是否小于所需伪样本的样本量n;若是,则重新生成新的随机数,并向对抗生成网络gan中输入随机数,生成具有与训练样本的原始样本数据的分布相同的伪样本的步骤;若否,则共享该机构对应的待分享样本数据集合。
6.如权利要求4中所述数据共享方法,其特征在于:待分享样本数据集合中伪样本的数量大于或等于训练样本的样本量。
7.一种数据共享模型,其特征在于:所述数据共享模型包括:
输入模块;用于输入至少一机构的原始样本数据集合;
分布预估模块:用于通过对抗生成网络gan,对本机构内部数据的分布进行估计;
采样模块:生成随机数,并向对抗生成网络gan中的生成器g中输入该随机数,生成同训练样本的原始样本数据相比具有相同分布的伪样本,去除与训练样本的数据一致的伪样本,将保留的伪样本进行存储以形成待分享样本数据集合s;及
数据共享模块:将不同机构对应的待分享样本数据集合进行共享。
8.如权利要求7中所述数据共享模型,其特征在于:所述采样模块具体包括:
随机数生成单元,用于生成d维随机数;
伪样本生成单元,用于向对抗生成网络gan中的生成器g中输入该d维随机数,生成同训练样本的原始样本数据相比高度仿真的同分布的伪样本;
伪样本筛选单元,用于比对伪样本中是否有与该d维随机数所对应的训练样本相同的数据,并去除数据一致的伪样本;
数据采集单元,用于采集经过筛选后的伪样本,并获得待分享样本数据集合。
9.如权利要求7中所述数据共享模型,其特征在于:在所述分布预估模块中分布估计为隐式估计,并将该分布的隐式估计以多层神经网络进行刻画与编码。
10.一种存储介质,其特征在于:所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1-6中任一项中所述数据共享方法。
技术总结