本发明属于数据共享技术领域,具体涉及一种可溯源的医疗数据共享方法。
背景技术:
伴随着欧盟出台的新法案——《通用数据保护条例》(generaldataprotectionregulation,简称gdpr),数据隐私保护已经成为全世界关注的趋势。心脏外科患者就诊不仅局限在某个医院或者诊疗中心,其就诊时的病史、检查化验结果、诊疗过程等一般会存储于不同的医院和诊疗中心,患者查询历史和现有的就诊数据时经常需要辗转于好几家医院和诊疗中心,很不方便。另外,患者诊疗数据的使用常常未经当事人和医院的同意或者授权下被使用,且使用后很难追踪和溯源,这正是现有医疗大数据存在的两大问题:数据孤岛和隐私保护。关于“数据孤岛”:由于竞争关系、安全问题、审批流程等因素,数据之间的流通存在难以打破的壁垒。即使行业间有意交换数据,也可能遭遇政策问责,因为重视数据隐私和安全已经成为世界性的趋势。通过本实施方案可以在无需打通数据的前提下实现联合建模,真正得使用大数据提高模型预测效果。关于用户隐私数据的保护:向云端传输的是终端模型的参数,而非终端数据信息。但是,是否向云端只更新模型参数就能保证用户隐私数据没有任何的信息泄漏?根据目前的研究,答案是否定的。例如,在图像领域,图像数据的梯度和原始数据是成正比关系的,对于单个图像数据,可以通过梯度还原图像效果。解决梯度信息暴露的方法主要有以下几种,一是加大量梯度数据进行混淆,减弱某个梯度对于整个数据样本的影响;二是通过同态加密对原始梯度数据进行加密,保护原始梯度数据的泄漏;三是由谷歌提出的痛过私密共享上传梯度数据,效果与同态加密类似。大数据的发展已经在不同的领域和行业发挥作用,但是由于竞争、安全问题、审批流程等因素,医院之间甚至医院内部的数据之间实现真正的互联互通仍然存在很大的阻碍,数据之间巨大壁垒导致了“数据孤岛”的现象存在。经检索,cn108717861a公开了一种基于区块链的医疗数据共享方法,通过在区块链记录所有操作记录,透明地公开所有数据操作,并且提供数据清洗、数据映射功能,方便外界对该数据来源的识别与使用,并且使用智能合约统一管理各个医疗数据库,并对外提供统一的访问接口。该技术方案从一定程度上缓解了“数据孤岛”的现象,但是由于数据操作过程完全透明化,无法解决隐私保护问题。
技术实现要素:
有鉴于此,本发明的目的是提供一种可溯源的医疗数据共享方法,以解决现有技术中的不足,同时为心外科领域用户隐私数据保护和数据孤岛打破释放价值。
为了达到上述目的,本发明的目的是通过下述技术方案实现的:
提供一种可溯源的医疗数据共享方法,其中,操作对象包括数据a方和数据b方,操作方法包括:
确立数据a方和数据b方的加密样本并在数据a方和数据b方之间进行加密样本匹配;
为数据a方建立a方加密模型,为数据b方建立b方加密模型,对a方加密模型和b方加密模型进行加密模型训练;
基于加密模型训练后的a方加密模型和b方加密模型进行联合建模。
上述可溯源的医疗数据共享方法,其中,在进行数据加密样本匹配时,将加密样本进行横向或纵向的切分和对齐,在不暴露用户数据信息的前提下,确认数据集间共同的特征维度或者用户,以便训练数据特征维度的确立。
上述可溯源的医疗数据共享方法,其中,在进行加密模型训练时使用同态加密作为数据隐私保护工具,引入信任第三方c:
①第三方c将公钥分发给数据a方与数据b方,用于加密数据a方与数据b方各自计算出的梯度信息,第三方c拥有解密私钥;
②数据a方与数据b方以加密形式交互用于计算梯度的中间结果;
③数据a方与数据b方分别基于加密的梯度值进行计算,数据b方根据标签数据计算损失,并把结果汇总给第三方c,第三方c通过汇总结果计算总梯度值并解密;
④第三方c将解密后的梯度分别发送给数据a方与数据b方,数据a方与数据b方根据梯度更新各自加密模型的参数。
本发明技术方案的有益效果是:
参与各方(各医院、各诊疗中心)可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型,可以实现各个医院或诊疗中心的自有数据不出本地,而是通过加密机制下的参数交换方式,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型;数据共享方不能互相反推出对方拥有的、自己没有的特征,用户隐私可以得到很好的保护,在不违反隐私保护监管条例的情况下,使得各方都能享受数据建模的优势。
附图说明
图1为本发明方法流程示意图;
图2为本发明方法原理示意图。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
参看图1和图2所示,本发明可溯源的医疗数据共享方法,操作对象包括数据a方和数据b方,操作方法包括:
s1、确立数据a方和数据b方的加密样本并在数据a方和数据b方之间进行加密样本匹配。在进行数据加密样本匹配时,将加密样本进行横向或纵向的切分和对齐,在不暴露用户数据信息的前提下,确认数据集间共同的特征维度或者用户,以便训练数据特征维度的确立。
s2、为数据a方建立a方加密模型,为数据b方建立b方加密模型,对a方加密模型和b方加密模型进行加密模型训练。在进行加密模型训练时使用同态加密作为数据隐私保护工具,引入信任第三方c:
①第三方c将公钥分发给数据a方与数据b方,用于加密数据a方与数据b方各自计算出的梯度信息,第三方c拥有解密私钥;
②数据a方与数据b方以加密形式交互用于计算梯度的中间结果;
③数据a方与数据b方分别基于加密的梯度值进行计算,数据b方根据标签数据计算损失,并把结果汇总给第三方c,第三方c通过汇总结果计算总梯度值并解密;
④第三方c将解密后的梯度分别发送给数据a方与数据b方,数据a方与数据b方根据梯度更新各自加密模型的参数。
s3、基于加密模型训练后的a方加密模型和b方加密模型进行联合建模。储存在医院a和医院b的患者诊疗数据,通过加密样本对齐和加密训练的方式,进行交互传递分享应用,以及进一步联合建模。
具体操作部署时,技术上可遵循现有的b-c等架构实现,前端侧包括在电脑端(windows版和mac版)的相关程序或者手机端(ios版或者android版)的app,进行使用,后端侧包括服务器集群及其部署软件等。
本发明使得参与各方(各医院、各诊疗中心)可以在不披露底层数据和底层数据的加密(混淆)形态的前提下共建模型。它可以实现各个医院或诊疗中心的自有数据不出本地,而是通过加密机制下的参数交换方式,即在不违反数据隐私法规的情况下,建立一个虚拟的共有模型,解决了数据孤岛和数据隐私保护的问题。
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书及图示内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
1.一种可溯源的医疗数据共享方法,其特征在于,操作对象包括数据a方和数据b方,操作方法包括:
确立数据a方和数据b方的加密样本并在数据a方和数据b方之间进行加密样本匹配;
为数据a方建立a方加密模型,为数据b方建立b方加密模型,对a方加密模型和b方加密模型进行加密模型训练;
基于加密模型训练后的a方加密模型和b方加密模型进行联合建模。
2.如权利要求1所述可溯源的医疗数据共享方法,其特征在于,在进行数据加密样本匹配时,将加密样本进行横向或纵向的切分和对齐,在不暴露用户数据信息的前提下,确认数据集间共同的特征维度或者用户,以便训练数据特征维度的确立。
3.如权利要求1所述可溯源的医疗数据共享方法,其特征在于,在进行加密模型训练时使用同态加密作为数据隐私保护工具,引入信任第三方c:
①第三方c将公钥分发给数据a方与数据b方,用于加密数据a方与数据b方各自计算出的梯度信息,第三方c拥有解密私钥;
②数据a方与数据b方以加密形式交互用于计算梯度的中间结果;
③数据a方与数据b方分别基于加密的梯度值进行计算,数据b方根据标签数据计算损失,并把结果汇总给第三方c,第三方c通过汇总结果计算总梯度值并解密;
④第三方c将解密后的梯度分别发送给数据a方与数据b方,数据a方与数据b方根据梯度更新各自加密模型的参数。
技术总结