本发明属于医疗领域及机器学习领域,尤其涉及一种基于多源迁移学习的多中心协同癌症预后预测系统。
背景技术:
癌症死亡率高,随着其发病率的不断攀升,已经成为人类死亡的主要原因之一。高质量的癌症预后预测可以为医生的临床决策提供依据,对于癌症的控制和治疗意义重大。
传统预后预测基于专家临床经验(如tnm模型),缺乏循证支持。随着医疗信息技术,特别是电子病历、医疗大数据分析挖掘等技术发展,数据驱动预后预测模型越来越受到关注。这些预测模型需要大规模临床数据,但针对单一病种,单家机构往往缺少足够标签数据,不足以支撑模型训练,模型效果差,需要多中心协同构建预后预测模型。
现有技术方案通常将多家机构的数据进行汇总后训练通用模型。因不同机构之间数据存在异质性(主要体现在边缘分布、条件概率分布差异性上),训练得到的通用模型的泛化能力较差,当目标机构数据与训练数据有较高异质性时模型表现往往不佳,只有在目标机构中积累一定数量的有标签样本后,利用本地有标签样本对通用模型进行校准才能获得较好的性能。目前尚缺乏将模型训练与应用环境有机整合的机制。
无论是直接利用本地有标签样本训练模型还是利用本地有标签样本对通用模型进行校正都对本地有标签样本的数量有一定要求。在缺少本地标签的情况下,现有方法难以应用。且大规模数据需要多家机构共同参与,存在患者隐私泄露风险。
技术实现要素:
本发明的目的在于针对现有技术的不足,提供一种基于多源迁移学习的多中心协同癌症预后预测系统,主要解决如下技术问题:
1.单一机构电子病历数据资源有限,虽然患者规模以及病历数据总量较大,但是面向特定疾病预后研究需要,单一机构中有明确预后结局事件(如死亡、复发等)的患者数量有限,从而限制了特定疾病构建高质量预后预测模型的建立;
2.缺乏对于模型泛化能力的研究,现有方法构建的模型(特别是统计模型)在与训练数据集具有相近似特征分布的数据集上可以得到较好的预测性能表现,但是在与训练环境具有不同边缘概率分布、条件概率分布差异的数据集上的表现往往不佳。
本发明的目的是通过以下技术方案来实现的:一种基于多源迁移学习的多中心协同癌症预后预测系统,该系统包括:模型参数设置模块、数据筛选模块和多源迁移学习模块。
所述模型参数设置模块:布置于管理中心,负责设置癌症预后预测模型参数,包括癌症类别(如结直肠癌)、源中心与目标中心、样本特征(如年龄、性别、结直肠癌分级、组织学分类等)、样本数据预处理方法、预后指标(如五年生存状态);
所述管理中心对各临床中心的资源进行协调管理,接受用户访问;
所述源中心为针对特定癌症类别,拥有有标签样本的临床中心,负责源癌症预后预测模型训练;
所述目标中心为针对特定癌症类别,拥有无标签样本的临床中心,负责目标癌症预后预测模型训练;
所述临床中心为实际持有临床数据的机构,负责样本数据筛选和癌症预后预测模型训练。
所述数据筛选模块:布置于临床中心,管理中心将设置好的模型参数传输到各临床中心,各临床中心利用数据筛选模块筛选数据,依据模型参数从该临床中心的本地数据库中查询样本特征与预后指标数据,依据设定的样本数据预处理方法对样本数据进行预处理,源中心得到有标签样本集,目标中心得到无标签样本集。
所述多源迁移学习模块包括源模型训练单元、迁移权重计算单元和目标模型计算单元;
所述源模型训练单元布置于各个源中心,设有k个源中心记为s1,s2,s3…sk,第i个源中心通过其源模型训练单元训练本地的源癌症预后预测模型
所述迁移权重计算单元布置于目标中心,接收管理中心发送的k个源癌症预后预测模型,设目标中心有无标签样本nt个,第i个无标签样本表示为
对预测标签向量
其中
其中θ′为θ转置,e为单位向量,wij表示样本间的相似度;
将以上优化问题转换为:
其中hs是一个nt×k矩阵,lt表示与目标中心相关的图拉普拉斯算子,可由lt=d-w计算得到,其中w是目标中心样本的相似度矩阵,d是由
由此,将优化问题转换为一个标准的二次规划问题,求解此二次规划问题得到迁移权重θ;
所述目标模型计算单元布置于目标中心,根据迁移权重θ得到样本伪标签,利用伪标签在目标中心进行目标癌症预后预测模型训练,并将训练完成的目标模型回传至管理中心。
进一步地,该系统还包括模型应用模块,所述模型应用模块布置于管理中心,接收模型参数设置时用户输入的样本特征,调用目标模型进行癌症预后预测,并将预测结果呈献给用户,呈现方式可为数值,表格,图形等。
进一步地,所述癌症预后预测模型可以采用逻辑回归模型、支持向量机模型、决策树模型、神经网络模型等。
进一步地,所述样本间的相似度wij可以为余弦相似度、高斯相似度等。
进一步地,所述样本数据预处理方法包括缺失值处理、哑变量处理、归一化处理等。
进一步地,所述样本特征包括从患者电子病历中提取的人口统计学信息、生理参数、癌症病理检查信息(如年龄、性别、结直肠癌分级、组织学分类等)。
本发明的有益效果是:本发明利用多源迁移学习解决源中心与目标中心之间数据存在异质性的问题;利用多源迁移学习解决目标中心标签数据不足问题,在考虑多中心数据异质性的前提下构建更加精准的预测模型。同时,模型训练过程中各机构的原始数据互补共享,避免患者隐私泄露。
附图说明
图1为本发明系统分布框架图;
图2为数据流图:圆角矩形为管理中心操作,直角矩形为临床中心操作。
具体实施方式
下面结合附图和具体实施例对本发明作进一步详细说明。
如图1所示,本发明提供的一种基于多源迁移学习的多中心协同癌症预后预测系统,该系统包括:模型参数设置模块、数据筛选模块和多源迁移学习模块。
所述模型参数设置模块:布置于管理中心,负责设置癌症预后预测模型参数,本实施例中设置癌症类别为结直肠癌,设置4个源中心分别为s1,s2,s3,s4,设置目标中心为t,设置样本特征为年龄、性别、结直肠癌分级、组织学分类、阳性淋巴结个数、癌组织大小、血小板计数,设置样本数据预处理方法为对所有样本特征缺失值进行均值填补和对样本特征中的分类特征进行哑变量处理,设置预后指标为五年生存状态;
所述管理中心对各临床中心的资源进行协调管理,接受用户访问;
所述源中心为针对特定癌症类别,拥有有标签样本的临床中心,负责源癌症预后预测模型训练;
所述目标中心为针对特定癌症类别,拥有无标签样本的临床中心,负责目标癌症预后预测模型训练;
所述临床中心为实际持有临床数据的机构,负责样本数据筛选和癌症预后预测模型训练;
本实施例中癌症预后预测模型为逻辑回归模型:
其中β为模型系数,x为样本特征向量,
所述数据筛选模块:布置于临床中心,管理中心将设置好的模型参数传输到各临床中心,各临床中心利用数据筛选模块筛选数据,依据模型参数从该临床中心的本地数据库中查询样本特征与预后指标数据,依据设定的样本数据预处理方法对样本数据进行预处理,源中心得到有标签样本集,目标中心得到无标签样本集;
所述多源迁移学习模块包括源模型训练单元、迁移权重计算单元和目标模型计算单元;
所述源模型训练单元布置于各个源中心,4个源中心记为s1,s2,s3,s4,第i个源中心通过其源模型训练单元训练本地的源癌症预后预测模型
所述迁移权重计算单元布置于目标中心,接收管理中心发送的4个源癌症预后预测模型,设目标中心有无标签样本936个,第i个无标签样本表示为
对预测标签向量
其中
其中θ′为θ转置,e为单位向量,wij表示样本间的相似度,通过余弦相似度计算;
将以上优化问题转换为:
其中hs是一个936×4的矩阵,lt表示与目标中心相关的图拉普拉斯算子,可由lt=d-w计算得到,其中w是目标中心样本的相似度矩阵,d是由
由此,将优化问题转换为一个标准的二次规划问题,求解此二次规划问题得到迁移权重θ。
所述目标模型计算单元布置于目标中心,根据迁移权重θ得到样本伪标签,利用伪标签在目标中心进行目标癌症预后预测模型训练,并将训练完成的目标模型回传至管理中心。
本实施例中模型应用模块布置于管理中心,接收模型参数设置时用户输入年龄、性别、结直肠癌分级、组织学分类、阳性淋巴结个数、癌组织大小、血小板计数数据,调用目标模型进行癌症预后预测,并将预测的五年生存状态呈献给用户。
本发明中迁移学习的提出主要用来突破原有机器学习方法对于模型训练与测试数据需要具有相同特征空间以及相同分布的假设限制。本发明系统利用多源迁移学习应对预测模型训练的多来源数据集与模型应用的目标数据集存在差异性时(边缘差异、概率分布差异)的模型泛化能力不足问题。
以上仅为本发明的实施实例,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,不经过创造性劳动所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
1.一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,该系统包括:模型参数设置模块、数据筛选模块和多源迁移学习模块。
所述模型参数设置模块:布置于管理中心,负责设置癌症预后预测模型参数,包括癌症类别、源中心与目标中心、样本特征、样本数据预处理方法、预后指标;
所述管理中心对各临床中心的资源进行协调管理,接受用户访问;
所述源中心为针对特定癌症类别,拥有有标签样本的临床中心,负责源癌症预后预测模型训练;
所述目标中心为针对特定癌症类别,拥有无标签样本的临床中心,负责目标癌症预后预测模型训练;
所述临床中心为实际持有临床数据的机构,负责样本数据筛选和癌症预后预测模型训练。
所述数据筛选模块:布置于临床中心,管理中心将设置好的模型参数传输到各临床中心,各临床中心利用数据筛选模块筛选数据,依据模型参数从该临床中心的本地数据库中查询样本特征与预后指标数据,依据设定的样本数据预处理方法对样本数据进行预处理,源中心得到有标签样本集,目标中心得到无标签样本集。
所述多源迁移学习模块包括源模型训练单元、迁移权重计算单元和目标模型计算单元;
所述源模型训练单元布置于各个源中心,设有k个源中心记为s1,s2,s3…sk,第i个源中心通过其源模型训练单元训练本地的源癌症预后预测模型
所述迁移权重计算单元布置于目标中心,接收管理中心发送的k个源癌症预后预测模型,设目标中心有无标签样本nt个,第i个无标签样本表示为
对预测标签向量
其中
其中θ′为θ转置,e为单位向量,wij表示样本间的相似度;
将以上优化问题转换为:
其中hs是一个nt×k矩阵,lt表示与目标中心相关的图拉普拉斯算子,可由lt=d-w计算得到,其中w是目标中心样本的相似度矩阵,d是由
由此,将优化问题转换为一个标准的二次规划问题,求解此二次规划问题得到迁移权重θ;
所述目标模型计算单元布置于目标中心,根据迁移权重θ得到样本伪标签,利用伪标签在目标中心进行目标癌症预后预测模型训练,并将训练完成的目标模型回传至管理中心。
2.根据权利要求1所述的一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,该系统还包括模型应用模块,所述模型应用模块布置于管理中心,接收模型参数设置时用户输入的样本特征,调用目标模型进行癌症预后预测,并将预测结果呈献给用户。
3.根据权利要求1所述的一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,所述癌症预后预测模型可以采用逻辑回归模型、支持向量机模型、决策树模型、神经网络模型等。
4.根据权利要求1所述的一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,所述样本间的相似度wij可以为余弦相似度、高斯相似度等。
5.根据权利要求1所述的一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,所述样本数据预处理方法包括缺失值处理、哑变量处理、归一化处理等。
6.根据权利要求1所述的一种基于多源迁移学习的多中心协同癌症预后预测系统,其特征在于,所述样本特征包括从患者电子病历中提取的人口统计学信息、生理参数、癌症病理检查信息等。
技术总结