本申请涉及icu机械通气危重患者,具体而言,涉及一种模型训练方法,一种基于模型的机械通气表型自动识别方法,以及模型的呼吸机应用。
背景技术:
机械通气时不恰当的通气策略导致肺损伤,其机制包括较高气道压或较大潮气量导致肺的气压/容积伤,呼气末肺容积过低或肺不张导致终末肺单位反复的开放和塌陷的剪切伤。此外,在机械通气中,即使没有肺组织解剖上的改变,各种力的作用可以诱导促炎症反应细胞因子的释放、白细胞的募集,从而启动局部炎症过程,该过程称为生物伤。前3种被认为是机械因素所致的机械伤,而后者是由于机械性损伤导致的后期伴有炎性细胞和炎性介质参与的二次损伤和打击。因此如何调整和控制好机械通气具有重要的临床意义。既往研究表明,小潮气量和高peep并控制好适当的平台压是解决目前机械通气问题的原则。但是临床实践发现,呼吸机引起的肺损伤的决定性因素尚有争议,即便是控制潮气量和平台压并不能完全保证安全。另一方面,临床实践也可能会遇到各项保护性策略互相矛盾的情况,如增加peep会引起平台相应升高,且往往是病变越严重、肺顺应性越差的患者,达到目标平台压所需的peep越低。因此我们亟待用新的方法去审视传统遗留的临床问题。
技术实现要素:
本申请实施例的目的在于提供一种模型训练的方法、机械通气表型识别方法及呼吸机,用以根据被测试者情况确定被测试者的机械通气表型,并根据机械通气表型对患者实施有针对性救治。
本申请实施例提供了一种表型分类模型训练方法,所述方法包括:获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;对所述多维特征数据进行补全及关联性分析,得到分析数据;基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型;根据所述高斯混合模型以及所述分析数据训练机械通气表型分类模型。
本申请实施例基于被测试者的生命体征值等多维特征参量来训练高斯混合模型,得到的高斯混合模型可以确定被测试者的机械通气表型,之后医生可以结合疾病表型和其他的临床数据结合来确定治疗方案或者根据疾病表型和其他的临床数据对患者的预后健康进行预测评估。
在一些实施例中,基于所述分析数据进行高斯混合聚类,包括:对候选的表型类别数逐一进行对角型高斯混合聚类,并计算相应的戴维斯-鲍尔丁指数dbi;根据戴维斯-鲍尔丁指数选定最小的类别数;根据所述最小类别数进行高斯混合聚类。本申请实施例通过戴维斯-鲍尔丁指数dbi指数确定最合适的表型类别数,并在自动推荐的类别数的条件下,进行高斯混合聚类模型的训练。
在一些实施例中,所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:根据链式方程对所述多维特征变量进行多元差值插补。所述多元差值插补对应的插补模型包括线性回归模型和分类回归树模型。采用这些插补模型可以改善对缺失值插补的效果。
在一些实施例中,所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:对所述多维特征数据根据敏感性分析进行排序统计,以排除强关联的所述多维特征变量。
在一些实施例中,所述方法还包括:对所述多维特征数据采用t分布随机邻域嵌入进行降维,得到两个主特征数据。
第二方面,本申请实施例还提供一种表型类别识别方法,所述方法包括:获取被测试者的多维特征数据;将所述多维特征数据输入机械通气表型分类模型,识别所述被测试者的机械通气表型,该机械通气表型再和患者的综合临床观测数据结合可以帮助医生快速给出预后评估和治疗方案的建议。
在一些实施例中,所述获取被测试者的多维特征数据,包括:获取被测试者的基础和评分特征数据、呼吸特征数据、循环与灌注特征数据以及残留特征数据。
在一些实施例中,所述将所述多维特征数据输入表型分类模型,识别所述被测试者的机械通气表型,包括:根据所述多维特征变量计算所述被测试者属于具体类别的机械通气表型的概率值;将概率值最大的表型确定为所述被测试者的机械通气表型类型。本申请实施例通过概率计算确定患者的具体机械通气表型。
第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现上述第一方面或者第二方面所述的方法。
第四方面,本申请实施例提供一种模型训练装置,所述装置包括:特征数据获取模块,用于获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;预处理模块,用于对所述多维特征数据进行补全及关联性分析,得到分析数据;模型确定模块,用于基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型。
第五方面,本申请实施例还提供一种基于高斯混合模型的疾病表型类别识别装置,所述装置包括:信息采集模块,用于获取被测试者的多维特征数据,其中,所述多维特征参量至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;患者表型识别模块,用于接收输入的多维特征数据并根据高斯混合模型确定所述被测试者的机械通气表型。
第六方面,本申请实施例还提供一种呼吸机,所述呼吸机至少被配置为执行如下方法:获取被测试者的多维特征数据;将所述多维特征数据输入表型分类模型,识别所述被测试者的机械通气表型。
在一些实施例中,所述呼吸机包括表型类型提示模块,被配置为提供所述机械通气表型或者对确定的机械通气表型进行提示。
本申请实施例通过采集与某类疾病治疗设备相关的特征参量来确定对应疾病的表型,后续医生根据疾病表型类型和患者的综合临床观测数据相结合可以对不同患者进行分类别的救治和护理。以此类推,该算法可以推广到其他的疾病表型识别,目的在于早期预警并提供给医生临床决策的线索,使得临床患者获益。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1是本申请实施例提供的一种模型训练方法的流程图;
图2是本申请实施例提供的一种模型训练及测试的方法流程图;
图3为本申请实施例提供的一种确定机械通气表型的方法的流程图;
图4是本申请实施例的五中机械通气表型与特征参量之间的关系图;
图5为本申请实施例提供的模型训练装置的组成框图;
图6是本申请实施例提供的基于高斯混合模型的疾病表型类别识别装置的组成框图;
图7是基本申请实施例提供的呼吸机的组成框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
如图1所示,本申请实施例提供一种表型分类模型训练方法,所述方法包括:s10,获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征出入量平衡;s11,对所述多维特征数据进行补全及关联性分析,得到分析数据;s12,基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型;s13,根据所述高斯混合模型以及所述分析数据训练机械通气表型分类模型。本申请实施例根据得到的高斯混合模型可以自动识别被测试者的机械通气表型,之后医生可以结合患者的机械通气表型分类和患者的综合临床观测数据结合来确定治疗方案,或者根据患者的机械通气表型和患者的综合临床观测数据对患者的预后进行预测评估。
在一些实施例中,所述基于所述分析数据进行高斯混合聚类,包括:对候选的表型类别数逐一进行对角型高斯混合聚类,并计算相应的dbi(戴维斯-鲍尔丁指数);选定dbi(戴维斯-鲍尔丁指数)最小的类别数;根据所述最小类别数进行高斯混合聚类。
s11所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:根据链式方程对所述多维特征数据进行多元差值插补。例如,所述多元差值插补对应的插补模型包括线性回归模型和分类回归树模型。
s11所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:对所述多维特征数据根据敏感性分析进行排序统计,以排除强关联的所述多维特征变量。
所述方法在步骤s11之后还包括:对所述多维特征数据采用t分布随机邻域嵌入进行降维,得到两个主特征参数。
本实施例还提供了一种高斯混合模型训练的方法,所述方法包括:针对上述降维后的主特征参数,依据dbi(戴维斯-鲍尔丁指数)选择候选的聚类类别数,进行高斯混合聚类,学习模型参数,确定最优模型参数,生成机械通气表型分类模型m。
本申请实施例还提供一种基于高斯混合模型的机械通气表型类别识别方法,所述方法包括:获取被测试者的多维特征数据,包括:获取被测试者的基础和评分特征数据、呼吸特征数据、循环与灌注特征数据以及残留特征数据;所述根据高斯混合模型识别所述被测试者的机械通气表型,包括:根据所述多维特征变量计算所述被测试者属于具体类别的机械通气表型的概率值;将概率值最大的表型确定为所述被测试者的机械通气表型类型。
下面结合图2简要阐述上述模型训练以及机械通气表型识别方法。
模型训练方法包括图2虚线框指示的训练过程。模型的训练过程包括如下步骤:获取患者的某项疾病相关的生命体征、实验测得量和基本信息构成病人的特征表示;之后对获取的数据进行预处理,例如,采用k近邻算法(k-nearestneighbor,knn)补全缺失值,得到预处理后的数据;针对候选的表型类别数,分别进行对角型高斯混合聚类,并计算相应的dbi(戴维斯-鲍尔丁指数);选定dbi(戴维斯-鲍尔丁指数)最小的类别数k;进行k类别高斯混合聚类,学习模型参数,输出最终表型分类模型(即机械通气表型分类模型)m。
采用最表型分类模型m进行疾病表型识别的方法包括:采集给定病人的多维特征数据,将多维特征数据输入最终表型分类m,根据表型分类模型m确定病人的机械通气表型分类,以使医生根据患者的机械通气表型分类和患者的综合临床观测数据结合给出预后评估结果或进一步的治疗方案。
下面结合机械通气表型的确定为例,详细说明模型的训练过程以及根据模型确定被测试者表型的方法。
如图3所示,该图提供了一种模型训练以及根据训练模型自动识别患者机械通气表型的方法,所述方法包括:步骤101,获取多个被测试者的与诊疗过程相关的多维特征变量,其中,所述多维特征变量包括基础和评分特征、呼吸特征、循环与灌注特征以及残留特征;步骤102,根据所述多维特征变量对高斯混合聚类,学习模型参数,确定最终的高斯混合模型m。其中,本申请实施例后续可以根据最终的高斯混合模型m和多维特征参考训练机械通气表型分类模型,在基于表型分类模型确定呼吸表型的数量。步骤103,获取待测试者的多维特征变量,根据所述机械通气表型分类模型确定所述待测试者的机械通气表型,例如,将所述的多维特征变量输入最终的高斯混合模型m确定所述待测试者的机械通气表型。
在一些示例中,基础和评分特征可以进一步包括:年龄(age)、体温(temperature,t)、急性生理与慢性健康评分(acutephysiologyandchronichealthevaluation,apache2)和全身性感染相关性器官功能衰竭评分(sepsis-relatedorganfailureassessment,sofa)。呼吸特征可以进一步包括:呼吸频率(respiratoryrate,rr)、吸入气中的氧浓度分数(fractionofinspirationo2,fio2)、脉搏血氧饱和度(经皮)(pulseoxygensaturation,spo2),平均气道压(meanairwaypressure,pmean)、气道峰压(peakpressure,ppeak)、呼气末正压(positiveendexpiratorypressure,peep),潮气量(tidalvolum,vt),(一般指动脉)氧分压(partialpressureofoxygen,po2)和(一般指动脉)二氧化碳分压(partialpressureofcarbondioxide,pco2)。循环与灌注特征可以进一步包括:心率(heartrate,hr),平均动脉压(meanarterialpressure,map),中心静脉压(centralvenouspressure,cvp),静动脉二氧化碳分压差gap,乳酸(lactate,lac),静动脉二氧化碳分压差/动静脉氧饱和度差ratio,血流灌注指数(perfusionindex,perf)和血红蛋白(hemoglobin,hb)。残留特征可以进一步包括:出入量平衡(balanceofinputandoutput,balance)。
步骤102还可以通过贝叶斯信息量、最小信息化准则、每个表型中的高中值概率、最大熵和潜在群体的临床特征等来确定最优的机械通气表型的数量。
步骤103还可以使用高斯分布拟合机械通气表型观察的分布,即形成的机械通气表型和对应的概率密度,求解概率概率密度权重和表型下的均值和方差,即可以计算出它属于各表型的概率,概率最大值对应的类型则为表型类型。
步骤103可以进一步包括:根据多维特征变量获取机械通气表型观察分布,根据高斯混合模型作潜在剖面分析得到多个高斯分布;根据所述多个高斯分布与所述机械通气表型观察分布的拟合数量和类型确定所述机械通气表型数量和类型。
在一些实施例中,步骤102还包括:对所述多维特征变量进行缺失性分析和相关性分析,得到目标多维特征变量;所述基于所述多维特征变量获取多种机械通气表型,包括:根据所述目标多维特征变量和高斯混合模型确定机械通气表型类型和数量。本申请实施例通过对多维特征变量进行数据分析,以排除缺失值高的和强关联的变量,进而保证高斯混合模型的稳定性。
在一些实施例中,步骤102对所述多维特征变量进行缺失性分析,包括:根据链式方程对所述多维特征变量进行多元差值插补。本申请实施例在缺失值和异常值处理上,考虑到样本的稀缺性,并没有简单的采取变量删除和均值替代,而是采用了链式方程进行多元插补,弥补了样本数据的缺失。例如,所述多元差值插补对应的插补模型包括选择线性回归模型或者分类回归树模型,采用这些插补模型可以改善对缺失值插补的效果。在一些实施例中,所述对所述多维特征变量进行关联性分析,包括:对所述多维特征变量根据敏感性分析进行排序统计,以排除缺失值高的所述多维特征变量和强关联的所述多维特征变量。在一些实施例中,所述方法还包括:对所述目标多维特征变量采用t分布随机邻域嵌入进行降维,得到两个主特征变量,根据所述两个主特征变量和高斯混合模型确定机械通气表型的类型和数量。本申请实施例将多维特征变量降至两个有效改善了数据处理的速度。
本申请实施例还提供一种表型识别方法,所述识别方法包括:采集被测试者的与机械通气相关的多维特征变量;将所述多维特征数据输入机械通气表型分类模型(高斯混合模型的训练过程如下述“机械通气表型的模型建立过程”),被测试者的机械通气表型将被自动识别。
在一些实施例中,所述确定被测试者具体机械通气表型的方法还包括:根据所述多维特征变量计算所述被测试者属于具体类别的机械通气表型的概率值;将概率值最大的表型确定为所述被测试者的机械通气表型类型。
下面结合测试集和验证集来详细说明本申请实施例的上述确定机械通气表型方法的技术方案。
测试集病人样本情况说明:使用北京协和医院的临床数据库,本申请实施例的发明人对机械通气患者进行了回顾性研究。从2013年5月至2016年12月,确定了入住北京协和医院重症病房的机械通气患者为研究对象,其中年龄小于18岁或入住重症监护病房(icu)的患者被排除在24小时以内。北京协和医院的机构研究与伦理研究所批准了这项针对人类受试者的研究。
呼吸机模式选择:对入住icu的所有患者进行机械通气的肺保护策略。当患者处于足够的镇静和镇痛但没有自主呼吸时,使用容量控制或压力控制通气。一旦患者自主呼吸,控制通气立即转换为压力支持通气。所有呼吸机接入中央服务器,呼吸机参数实现每分钟传输并记录。
测试集数据收集和清洗:本申请实施例的发明人使用机械通气在临床表现上的23个特征,这些特征往往能反映病人对呼吸机相关肺损伤的反应。将23个特征值分为四类,这四类分别为基础和评分特征(例如,包括age、t、apache2和sofa)、呼吸特征(例如,包括rr、o2,spo2,pmean,ppeak,peep,vt,po2和pco2)、循环与灌注特征(例如,包括hr,map,cvp,gap,lac,ratio,perf和hb)和残留特征(例如,包括balance)。
为发掘与机械通气相关的各种机械通气表型,本申请实施例首先评估候选特征变量(例如,上述23个特征变量)的分布、缺失值分析、异常值分析和相关性分析。在缺失值和异常值处理上,考虑到样本的稀缺性,本申请实施例并没有简单地采取变量删除和均值替代,而是分别采用链式方程对缺失值进行多元差值插补(multipleimputationmissingdata)和对数变换。而在相关性分析评估上,本申请实施例使用在敏感性分析中的排序统计,排除了高度相关性变量。
机械通气表型的模型建立过程:考虑到候选特征变量(例如,上述23个特征变量)的数据类型均为数值型,本申请实施例使用高斯混合模型做潜在剖面分析(latentprofileanalysis,lpa),该高斯混合模型的约束条件有多种,例如,约束条件分别包含:“model_1”,等方差,协方差为零;“model_2”,变方差,协方差为零等。以使用“model_1”等方差为例,即用来拟合的高斯分布的方差相同。通过最大期望算法(expectation-maximizationalgorithm),对隐变量的概率参数做两步迭代(e步:假设隐变量和特征变量的联合分布,求解样本关于隐变量的概率函数;m步:在已知样本联合分布,采用极大似然估计求解参数)直至高斯混合模型模型参数不再变化。
此外,本申请实施例还定义了在跨表型空间的边界对病例的分配比例,45-55%。同时,本申请实施例还对多维特征变量进行敏感性分析,包含排除缺失值高的变量和强关联变量,以保证高斯混合模型的稳定性。最终,通过贝叶斯信息量、最小信息化准则、每个表型中的高中值概率、最大熵和潜在群体的临床特征等来确定最优的表型数量。使用高斯分布拟合机械通气表型观察的分布,即形成的机械通气表型和对应的概率密度,求解概率密度权重和表型下的均值和方差,即可以计算出它属于各表型的概率,概率最大值对应的类型则为表型类型。
在确定了表型数量之后,本申请实施例将通过三种方法来可视化各表型的临床表现模式,(1)箱线图,通过变量的最大值、中位数等显示表型成员间的差异;(2)t分布随机邻域嵌入(t-distributedstochasticneighborembedding,t-sne),将多维候选特征降至两维,结合观察量的属于各表型的最大概率值形成三维空间,在这个三维空间里用不同颜色可视化各表型的表现模式;(3)弦图,显示表型成员在主要候选变量上的分布差异;(4)生存分析,各表型成员在28天生存曲线及病例占比。
为描述机械通气表型与23个特征之间的潜在的关联关系,本申请实施例比较各表型在这些特征上的中位数(四分位距离)和比例等。同时,本申请实施例对各表型在28天的累计死亡率进行试验,以确定其是否存在统计学上的差异。本申请实施例做了进一步分析来观察新的表型划分与sofa评分之间的相互关系,分别包含:(1)是否可用传统的反映疾病严重程度的sofa评分来解释;(2)使用弦图检查各表型是否在sofa评分值区域内重叠;(3)在sofa评分的四分位数(尤其是表型重叠的分区区域)中检查各表型的死亡率。
下面结合验证数据对上述实施例确定的机械通气表型的数量及类型的合理性进行验证。
基础验证数据说明:本次研究所用的数据来至于北京协和医院重症病房的数据集。本申请实施例一共收集了5103位在重症加强护理病房接受机械通气的患者,抽取其在院24小时内的特征并对其做取均值。按照所提取的特征参数分别为:基础和评分特征(age、t、apache2和sofa)、呼吸特征(rr、fio2,spo2,pmean,ppeak,peep,vt,po2和pco2)、循环与灌注特征(hr,map,cvp,gap,lac,ratio,perf和hb)和残留特征(balance)。首先,评估上述候选变量的分布和缺失值占比,如表(1)所示,共有六个特征有缺失值,分别是apache2、sofa、peep、cvp、gap和ratio,对应的缺失值占比为12.3%、10.42%、39.70%、43.32%、45.42%和47.38%。考虑到样本的稀缺性,本申请实施例并没有采取简单的缺失值删除,而是通过链式方程进行多元差值插补(multipleimputationmissingdata),对应的插补模型可以选择线性回归、分类回归树等方法。通过处理后,将5103例患者数据随机分成两个数据集分别进行进行模型验证,基本数据如表1和表2所示。同时为了对比icu生存患者与死亡患者的特征,两组患者的参数也分别列在了表1和表2。
表1
表2
五种临床表型:采用高斯混合模型做潜在剖面分析发现五个高斯分布能拟合表型观察的分布,即形成的机械通气表型剖面(profiles)数量为5个,并形成概率密度分布函数描述这五个表型。我们对五个表型的特征数据按照基础评分、呼吸和循环做标准化处理并统计其分布,发现:在基础评分特征里,表型“2”和“5”的apache2分值中位数为24、12,其sofa分值中位数分别为21、10,显著高出其它表型“1”、“3”和“4”的中位数13、11、14和5、5、6,对呼吸特征rr、fio2、pmean和ppeak,表型“5”的中位数值为97、46、11和21均显著高出其它表型的值,分别超出其它四个剖面中的中位数均值506%、14.3%、25.7%和16.7%;而对循环特征hr,剖面“1”、“2”、“3”和“4”中位数为81、100、99和86,超出表型“5”中位数350%、455%、450%和377%。
降维处理:对上述23维特征使用t分布随机邻域嵌入(t-distributedstochasticneighborembedding,t-sne)进行降维,即在高维空间做非线性降维,从而在低维空间形成两个主特征commponent_x1和commponent_x2,结合概率密度分布的计算结果,观察量对应的各剖面概率得到主特征commponent_x1和commponent_x2的值域范围分别为[-80,70]和[-80,80]。五个机械通气表型对应的病人数量为2682,583,931,439和468,占总病人数的比例为52.5%,11.4%,18.2%,8.60%和9.18%。
在呼吸表型的种类数的分析和最佳模型分析中,我们采用如下步骤确定最佳种类和最佳模型:
1.首先对k=2,3,4,5,6,7,8,用eii型的高斯模型进行k类别聚类,计算dbi(戴维斯-鲍尔丁指数):
选择dbi(戴维斯-鲍尔丁指数)指数最小的两个值作为我们的候选种类数。上式中,k表示我们选择的聚类类别数,ci表示聚成第i类的样本集合,avg(ci)表示ci中的样本间的平值距离,dcen(ci,cj)表示ci和cj中心点的距离。
2.临床医生结合候选的两个类别数的聚类剖面图,聚类弦图,累计死亡率曲线,选择更符合临床情况的表型种类数k。在dbi推荐的前两位评分4类和5类中,结合临床评分,最终推荐5类为最佳类别数。
3.分别对十四种不同的高斯混合分布模型进行k类别高斯聚类.计算贝叶斯信息判别标准得分bic,除去其中bic最小的6个模型,选择剩余8个模型作为我们的备选模型。
4.对剩余8个模型计算dbi指数和dunn指数,选择两个指数评分都处在前5的模型作为我们的备选模型(可能有2-5个)。我们情况剩余4个。
5.临床医生根据不同表型在peep值分布、累计死亡曲线区分情况,选择区分度最大的模型作为我们的最终模型。在我们实验中,最终选择eee型高斯模型作为我们的最终模型。
经过em算法求最优解,本申请实施例发现五个高斯分布能拟合机械通气表型观察的分布,即形成的机械通气表型剖面(profiles)数量为5个,对应的概率密度分布为,
其中,pl表示第l类的高斯分布的权重,
以数据特征点[75106.03.064.08.097.010.017.04.0214.082.037.025.082.07.05.01.02.0106.0134.02.0]为例,代入方程(4)中,可计算出其属于五个类别(剖面)的概率值[0.08370.0000.0000.0000.9163],取最大值0.916对应的剖面类别,即属于剖面五。
我们选择分组稳定性指数psi来评估表型的稳定性,以确保识别的剖面类别具有实际的临床应用价值。psi的计算方法如下:
在不同数据集中测试psi小于0.1,认为是稳定的表型。我们评估了两个数据集表型在28天死亡率分布方面的psi,这里,actual%是测试集中的实际死亡率,expected%是依据训练集所得的期望死亡率,试验结果分别为0.0045和0.007,验证了算法所识别的5个剖面是稳定的。
表型分型的方法对机械通气患者预后提供了很好的启示。通过自动识别方法,机械通气的患者基本上分为五个亚型。五种机械通气表型的参数如图4所示。
表型1代表的是年龄较小但评分偏高病情偏重的患者,这部分患者之所以会成为一种独立的表型,可能是由于肺的顺应性好,没有看出机械通气的参数对于这部分患者有影响,患者的预后好。
表型2,代表了大多数使用机械通气的临床患者,这些患者病情较为均一。
表型3不同于表型2,这些患者是一类评分较重的患者,但是年龄方面不占优势。这部分患者由于脏器功能水平较差,可能并非体现在肺上,因此这部分患者也成为独立的一组。
表型4表现为平均气道压和气道峰压高,呼吸频率快但心率偏慢。
表型5仅表现为peep的增高。
通过生存分析我们可以清楚的看到,表型4病死率是最高的。也就是说通过增加气道压力改善氧合的患者,其预后较通过peep不增加气道压力能够改善氧合的患者差。呼吸机引起肺损伤的发生取决于呼吸机和肺的相互作用,即呼吸机施加于肺的压力、容量、流速和频率以及肺实质对此的反应性,将机械通气使肺扩张时肺组织内所产生的压力称为应力,以跨肺压来反映。说明了驱动压可能在机械通气表型方面能够更好的反应实际的通气状态。相同的潮气量,功能残气量越大,产生的应变越小,呼吸机引起的肺损伤的发生概率越小,患者的预后就会越好。我们的研究利用大数据的建模方法证明了驱动压在呼吸机患者表型中的作用。也就是说只用在可复张性好的患者增加peep才能获益,而在可复张性较差的患者,增加peep引起过度扩张,反而有害。甚至说是否我们使用pmean-peep对于呼吸的监测是否会更加有益。
本申请的一个实施例将机械通气患者分为了五种表型,并将其与不同的预后效果联系起来,为患者的后续治疗和护理起到提示作用,有利于医护人员对其中预后效果较差的患者采取措施,尽量降低病人死亡率,提高预后。
本申请实施例提供一种重症患者机械通气表型自动识别的方法,并使用北京协和医院icu机械通气患者为例进行实施与验证。自动识别重症患者机械通气表型的方法包括:基于临床患者回顾性数据库,提取每一个患者的与重症机械通气诊疗相关的多维特征变量,包含患者基础数据,生命体征,治疗设备产生的数据,实验室化验结果,生物标记物等结构化医疗数据。具体而言,所述多维特征变量包括基础和评分特征、呼吸特征、循环与灌注特征以及残留特征。基于上述多维患者表型数据,采用高斯混合模型自动识别确定重症患者的机械通气表型的数量和类型,模型用于指导重症机械通气患者的表型分类预测,并进一步根据模型预测出的不同的患者亚型,使用呼吸机治疗的重症患者的机械通气表型可以作为指导医生快速评估临床预后的辅助参数,其余的参数还可以包括患者基础数据,生命体征,治疗设备产生的数据,实验室化验结果,生物标记物等结构化医疗数据。
本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时可实现上下述图1所述的方法。
请参考图5,图5示出了本申请实施例通过的模型训练装置,应理解,该装置与上述图1方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置的具体功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。图5的装置包括至少一个能以软件或固件的形式存储于存储器中或固化在装置的操作系统中的软件功能模块,该模型训练装置包括:特征数据获取模块601,用于获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征(age、t、apache2和sofa)、呼吸特征(rr、fio2,spo2,pmean,ppeak,peep,vt,po2和pco2)、循环与灌注特征(hr,map,cvp,gap,lac,ratio,perf和hb)和残留特征(balance);预处理模块602,用于对所述多维特征数据进行补全及关联性分析,得到分析数据;高斯模型确定模块603,用于基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型;机械通气表型分类模块640,用于根据所述高斯混合模型以及所述分析数据训练机械通气表型分类模型。
请参考图6,本申请实施例还提供一种基于高斯混合模型的疾病表型类别识别装置,所述装置包括:信息采集模701,用于获取被测试者的多维特征数据,其中,所述多维特征参量至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;患者表型识别模块702,用于接收输入的多维特征数据并根据高斯混合模型确定所述被测试者的机械通气表型。
本申请实施例提供一种呼吸机(例如图2示出的呼吸机提示装置),所述呼吸机至少被配置为执行如下方法:获取被测试者的多维特征数据;将所述多维特征数据输入表型分类模型,识别所述被测试者的机械通气表型。如图7所示,呼吸机400可以包括存储器410、处理器420以及存储在所述存储器410上并可在所述处理器上运行的计算机程序,其中,所述处理器420通过总线430从存储器410读取程序执行所述程序时可实现上述图1或者图2所述的方法。
在一些实施例中,所述呼吸机包括表型类型提示模块(图中未示出),被配置为提供所述机械通气表型或者对确定的机械通气表型进行提示。例如,提示模块可以为预警单元,该预警单元可以根据表型分类模型确定的被测试者的表型类型来输出预警信息,所述预警信息包括输出确定的表型或者输出针对具体表型的预后情况。
本申请实施例通过采集与某类疾病治疗设备相关的特征参量来确定对应疾病的表型,后续医生根据疾病表型类型和患者的某类疾病治疗设备相关观测数据相结合可以对不同患者进行分类别的救治和护理。以此类推,该算法可以推广到其他的疾病表型识别,目的在于早期预警并提供给医生临床决策的线索,使得临床患者获益。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
1.一种模型训练方法,其特征在于,所述方法包括:
获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征出入量平衡;
对所述多维特征数据进行补全及关联性分析,得到分析数据;
基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型;
根据所述高斯混合模型以及所述分析数据训练机械通气表型分类模型。
2.如权利要求1所述的机械通气表型分类模型训练方法,其特征在于,所述基于所述分析数据进行高斯混合聚类,包括:
对候选的表型类别数逐一进行对角型高斯混合聚类,并计算相应的戴维斯-鲍尔丁指数dbi;
根据所述戴维斯-鲍尔丁指数选定最小的类别数;
根据所述最小类别数进行高斯混合聚类。
3.如权利要求1所述的机械通气表型分类模型训练方法,其特征在于,所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:根据链式方程对所述多维特征数据进行多元差值插补。
4.如权利要求3所述的机械通气表型分类模型训练方法,其特征在于,所述多元差值插补对应的插补模型包括线性回归模型或者分类回归树模型。
5.如权利要求3所述的机械通气表型分类模型训练方法,其特征在于,所述对所述多维特征数据进行插值补全及关联性分析,得到分析数据,包括:对所述多维特征数据根据敏感性分析进行排序统计,以排除强关联的所述多维特征变量。
6.如权利要求1所述的机械通气表型分类模型训练方法,其特征在于,所述方法还包括:对所述多维特征数据采用t分布随机邻域嵌入进行降维,得到两个主特征数据。
7.一种表型识别方法,其特征在于,所述方法包括:
获取被测试者的多维特征数据;
将所述多维特征数据输入机械通气表型分类模型,识别所述被测试者的机械通气表型。
8.如权利要求7所述的表型识别方法,其特征在于,所述获取被测试者的多维特征数据,包括:获取被测试者的基础和评分特征数据、呼吸特征数据、循环与灌注特征数据以及残留特征数据。
9.如权利要求8所述的表型的方法,其特征在于,所述将所述多维特征数据输入表型分类模型,识别所述被测试者的机械通气表型,包括:
根据所述多维特征变量计算所述被测试者属于具体类别的机械通气表型的概率值;将概率值最大的表型确定为所述被测试者的机械通气表型类型。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时可实现权利要求1-8中任意一条权利要求所述的方法。
11.一种模型训练装置,其特征在于,所述装置包括:
特征数据获取模块,用于获取被测试者的多维特征数据,其中,所述多维特征数据至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;
预处理模块,用于对所述多维特征数据进行补全及关联性分析,得到分析数据;
模型确定模块,用于基于所述分析数据进行高斯混合聚类,学习模型参数,根据所述模型参数确定高斯混合模型。
12.一种疾病表型类别识别装置,其特征在于,所述装置包括:
信息采集模块,用于获取被测试者的多维特征数据,其中,所述多维特征参量至少包括被测试者的基础和评分特征、呼吸特征、循环与灌注特征和残留特征;
患者表型识别模块,用于接收输入的多维特征数据并根据高斯混合模型确定所述被测试者的机械通气表型。
13.一种呼吸机,其特征在于,所述呼吸机至少被配置为执行如下方法:获取被测试者的多维特征数据;将所述多维特征数据输入机械通气表型分类模型,识别所述被测试者的机械通气表型。
14.如权利要求13所述的呼吸机,其特征在于,所述呼吸机包括表型类型提示模块,被配置为提供所述机械通气表型或者对确定的机械通气表型进行提示。
技术总结