本申请涉及数据清洗技术领域,特别是涉及一种医疗信息清洗方法、装置、计算机设备和存储介质。
背景技术:
在医疗信息审核的过程中,为了方便医疗数据的统计和处理,提高数据分析的准确率,一般先根据科室标识对医疗数据进行划分,而后针对性地进行数据分析,从而实现对医院智能化管理。经过数据清洗后,服务器发现大部分医疗数据中科室标识均未提供,导致服务器无法针对性地分析医疗数据,因而无法实现对医院智能化管理。而且医疗数据和科室间没有明显的对应关系,服务器无法根据医疗数据对缺失的科室标识进行填补,致使针对医疗数据的分析停滞。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种能够对医疗信息中缺失的科室标识进行填补的医疗信息清洗方法、装置、计算机设备和存储介质。
一种医疗信息清洗方法,所述方法包括:
获取医疗信息,所述医疗信息包含与待评估医生对应的接诊信息;
当判定所述医疗信息缺失科室标识时,根据所述接诊信息生成历史接诊向量;
获取与科室标识对应的标准科室向量集合;
计算所述标准科室向量以及所述历史接诊向量的信息散度;
根据所述信息散度确定与所述历史接诊向量对应的当前标准科室向量,并采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息。
在其中一个实施例中,根据所述接诊信息生成历史接诊向量,包括:
获取标准疾病标识,统计所述接诊信息中各标准疾病标识出现的接诊频次;
计算各标准疾病标识对应的接诊概率值,根据所述标准疾病标识和所述接诊概率值生成历史接诊向量。
在其中一个实施例中,所述计算所述标准科室向量以及所述历史接诊向量的信息散度,包括:
根据所述标准疾病标识从所述标准科室向量中提取到第一向量数值,并从所述历史接诊向量中提取第二向量数值;
根据所述第一向量数值与所述第二向量数值计算信息散度。
在其中一个实施例中,所述标准科室向量集合的生成方法,包括:
获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据;
根据所述标准疾病标识和科室接诊数据生成待评估科室向量;
验证所述待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
在其中一个实施例中,所述验证所述待评估科室向量是否符合基准分布之后,包括:
当验证所述待评估科室向量不符合基准分布时,获取向量补偿模型;
将所述待评估科室向量输入所述向量补偿模型中得到与所述待评估科室向量对应的标准科室向量。
在其中一个实施例中,所述获取医疗信息之后,包括:
从所述医疗信息中提取待验证科室标识;
当提取到待验证科室标识时,则获取预存储的目标数据,将待验证科室标识与目标数据进行比对;
当比对成功时,选取比对成功的目标数据作为科室标识;
当未比对成功时,执行根据所述接诊信息生成历史接诊向量的步骤。
在其中一个实施例中,所述采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息之后,包括:
获取医疗风险模型,根据所述医疗风险模型判断所述医疗信息是否携带有科室标识;
当判定携带有科室标识时,从医疗信息中提取到医疗特征参数;
将医疗特征参数输入所述医疗风险模型中进行审核,得到审核结果。
一种医疗信息清洗装置,所述装置包括:
信息获取模块,用于获取医疗信息,所述医疗信息包含与待评估医生对应的接诊信息;
历史向量生成模块,用于当判定所述医疗信息缺失科室标识时,根据所述接诊信息生成历史接诊向量;
标准向量获取模块,用于获取与科室标识对应的标准科室向量集合;
信息散度计算模块,用于计算所述标准科室向量以及所述历史接诊向量的信息散度;
缺失值填补模块,用于根据所述信息散度确定与所述历史接诊向量对应的当前标准科室向量,并采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
上述医疗信息清洗方法、装置、计算机设备和存储介质,通过将医疗信息中的接诊信息生成历史接诊向量;获取与科室标识对应的标准科室向量集合;计算标准科室向量以及历史接诊向量的信息散度,确定与历史接诊向量对应的当前标准科室向量,采用当前标准科室向量对应的当前科室标识填补医疗信息,可以准确地确定医疗信息对应的科室标识,并对医疗信息进行填补,方便了对医疗信息的统计和处理,进而提高了医疗数据分析的准确率,从而实现对医院智能化管理。
附图说明
图1为一个实施例中医疗信息清洗方法的应用场景图;
图2为一个实施例中医疗信息清洗方法的流程示意图;
图3为一个实施例中标准科室向量集合的生成方法的流程示意图;
图4为另一个实施例中标准科室向量的补充步骤的流程示意图;
图5为一个实施例中医疗信息清洗装置的结构框图;
图6为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的医疗信息清洗方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104从终端102处获取医疗信息,医疗信息包含与待评估医生对应的接诊信息;服务器104根据接诊信息生成历史接诊向量;服务器104获取与科室标识对应的标准科室向量集合,标准科室向量集合的标准科室向量是采用基准分布对科室标识进行验证得到的;服务器104计算标准科室向量以及历史接诊向量的信息散度;服务器104根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。服务器104可以将填补好的医疗信息发送给终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式智能设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种医疗信息清洗方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
步骤202,获取医疗信息,医疗信息包含与待评估医生对应的接诊信息。
医疗信息可以是用于对待评估医生进行风险评估的相关信息,包含与待评估医生对应的接诊信息。医疗信息还可以是根据患者的医保信息和待评估医生的医生标识归纳的诊疗数据。医疗信息还可以包含待评估医生的接诊信息和医生的基本信息等。接诊信息是待评估医生针对病患者的疾病,经过诊断手段、辅助检查得出的诊断和治疗等数据,接诊信息包含病患者疾病的疾病标识等。疾病标识可以是国际通用的统一分类icd码,也可以是预先设定的识别码。服务器可以从终端获取医疗信息,也可以从数据库中获取医疗信息。
步骤204,当判定医疗信息缺失科室标识时,根据接诊信息生成历史接诊向量。
科室标识可以是待评估医生所属科室的标识,可以是代表科室的科室名称、也可以是科室代号等。服务器可以采用文本识别等从医疗信息中提取出科室名称,也可以通过字符比对方式等从医疗信息中提取出科室代号等。当医疗信息中存在科室标识时,服务器从医疗信息中提取科室标识,并将医疗信息存储在数据库中,等待后续数据处理;当医疗信息中不存在科室标识时,服务器判定医疗信息缺失科室标识。
当判定医疗信息缺失科室标识时,服务器根据医疗信息中的接诊信息生成历史接诊向量。服务器可以根据接诊信息中的疾病标识统计各疾病的出现概率,而后根据疾病标识和出现概率生成历史接诊向量。例如,b医生的历史接诊向量可以表示为doc=(w1,w2,…,wn-1,wn),doc为a科室b医生的历史接诊向量,n与标准疾病标识(icd)对应、表示在历史接诊向量中的维度,wi表示对应icd在该医生所诊断疾病中的出现概率。服务器还可以根据接诊信息中的疾病标识统计各疾病的出现概率,而后根据疾病标识、科室标识和出现概率生成历史接诊向量。服务器可以根据接诊信息中的疾病标识统计各疾病的出现概率,而后根据疾病标识、科室标识和出现概率生成历史接诊向量。例如,b医生的历史接诊向量可以表示为docb医生=(doc二级科室1,doc二级科室2,…,doc二级科室n),doc二级科室1=(w1,w2,…,wn-1,wn),docb医生为b医生在一级科室中的历史接诊向量,doc二级科室1为b医生在二级科室1中的历史接诊向量,n与标准疾病标识(icd)对应、表示在接诊向量中的维度,wi表示对应icd在该医生所诊断疾病中的出现概率。
在一个实施例中,根据接诊信息生成历史接诊向量,包括:获取标准疾病标识,统计接诊信息中各标准疾病标识出现的接诊频次;计算各标准疾病标识对应的接诊概率值,根据标准疾病标识和接诊概率值生成历史接诊向量。
服务器可以先获取标准疾病标识,根据标准疾病标识统计接诊信息中各标准疾病标识出现的接诊频次。而后服务器计算各标准疾病标识对应的接诊概率值,服务器根据标准疾病标识和接诊概率值生成历史接诊向量。服务器获取预设数量的标准疾病标识,也即生成的历史接诊向量中元素的维度与标准科室向量的维度一致,并从接诊信息中提取到该医生所接诊的疾病对应的标准疾病标识。服务器获取到预设时间段内的标准疾病标识对应的医生接诊频次,计算每个icd出现的接诊频次与接诊频次总数量的比值,并将该比值作为历史接诊向量中的元素。标准疾病标识未在医生接诊的疾病标识中出现,则设定该标准疾病标识对应的元素为0,从而可以得到与接诊信息对应的历史接诊向量。
步骤206,获取与科室标识对应的标准科室向量集合。
标准科室向量集合是标准科室向量的集合。标准科室向量与科室对应,是根据科室接诊的疾病出现的频率生成的。服务器采用基准分布对与科室标识对应的科室接诊数据进行验证得到的。科室的分类可以根据国家的推荐分类表进行分类,也可以根据医院的情况进行分类。服务器可以将科室分为多级,每一级下再进行分类,例如,服务器可以对科室进行分级:一级科室“内科、外科、妇产科、儿科、耳鼻咽喉科、皮肤科、精神科、急诊医学科”,其中,一级科室“儿科”被分为二级科室“小儿外科、儿童保健科、小儿内科、小儿急诊科”。服务器获取与科室标识对应的标准科室向量集合。标准科室向量集合可以通过下式呈现:dept={v内科,v外科,v妇产科,……,v急诊医学科}。其中,a科室的标准科室向量可以表示为va科室=(x1,x2,…,x(n-1),xn),va科室为a科室根据历史接诊疾病的接诊数据生成的标准科室向量,n与标准疾病标识(icd)对应、表示在接诊向量中的维度,xi表示对应icd在该科室中的出现概率。服务器还可以根据接诊信息中的疾病标识统计各疾病的出现概率,而后根据疾病标识、科室标识和出现概率生成标准科室向量。当a科室下还有二级科室时,a科室的标准科室向量可以表示为va科室=(v二级科室1,v二级科室2,…,v二级科室n),v二级科室1=(x1,x2,…,x(n-1),xn),va科室为一级科室a科室中的标准科室向量,v二级科室1为b医生在二级科室1中的历史接诊向量,n与标准疾病标识(icd)对应、表示在接诊向量中的维度,xi表示对应icd在该科室中的出现概率。
步骤208,计算标准科室向量以及历史接诊向量的信息散度。
服务器计算标准科室向量以及历史接诊向量的信息散度。服务器可以计算标准科室向量和历史接诊向量的相似度,将相似度作为信息散度。计算不同向量的相似度可以采用皮尔逊相关系数(pearsoncorrelationcoefficient)、cosine相似度(cosinesimilarity)、tanimoto系数(tanimotocoefficient)等。
在其中一个实施例中,计算标准科室向量以及历史接诊向量的信息散度,包括:根据标准疾病标识从标准科室向量中提取到第一向量数值,并从历史接诊向量中提取第二向量数值;根据第一向量数值与第二向量数值计算信息散度。
服务器根据标准疾病标识从标准科室向量中提取到第一向量数值,并从历史接诊向量中提取第二向量数值;而后根据第一向量数值与第二向量数值计算信息散度。信息散度计算公式可以采用
步骤210,根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。
服务器根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。服务器可以计算历史接诊向量和每个当前标准科室向量的信息散度,并根据信息散度的数值大小对当前标准科室向量进行排序,将信息散度数值最大的标准科室向量作为当前标准科室向量,服务器再采用当前标准科室向量对应的当前科室标识填补医疗信息。服务器也可以采用v=argmaxvkl(doc|v科室)确定当前标准科室向量和待评估医生的科室。
上述医疗信息清洗方法中,通过将医疗信息中的接诊信息生成历史接诊向量;获取与科室标识对应的标准科室向量集合;计算标准科室向量以及历史接诊向量的信息散度,确定与历史接诊向量对应的当前标准科室向量,采用当前标准科室向量对应的当前科室标识填补医疗信息,可以准确地确定医疗信息对应的科室标识,并对医疗信息进行填补,方便了对医疗信息的统计和处理,进而提高了医疗数据分析的准确率,从而实现对医院智能化管理。
在一个实施例中,如图3所示,标准科室向量集合的生成方法,包括以下步骤:
步骤302,获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据。
科室接诊数据可以是根据与科室、医院、地区等对应的历史接诊数据,科室接诊数据。服务器获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据。
步骤304,根据标准疾病标识和科室接诊数据生成待评估科室向量。
服务器根据标准疾病标识和科室接诊数据生成待评估科室向量。服务器获取标准疾病标识,统计科室接诊信息中各标准疾病标识出现的科室接诊频次。服务器计算各标准疾病标识对应的科室接诊概率值,服务器根据标准疾病标识和科室接诊概率值生成待评估科室向量。
步骤306,验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
基准分布是指客观条件下的疾病实际满足的概率分布情况,可以是包含一种趋势的分布,也可以是具有某个特征的分布。服务器验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。服务器可以根据待评估科室向量中的各维度数值生成待评估分布图,并对待评估分布图进行公式拟合,得到待评估公式。服务器获取基准分布对应的基准公式,当待评估公式与基准公式中各变量的系数差值不超出预设范围时,服务器判定待评估科室向量符合基准分布;当待评估公式与基准公式中各变量的系数差值超出预设范围时,服务器判定待评估科室向量不符合基准分布。例如,当基准分布为正态分布时,基准分布的公式可以为:
上述医疗信息清洗方法中,通过验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,进一步提高了被确认的科室标识的准确率。
在一个实施例中,如图4所示,在验证待评估科室向量是否符合基准分布之后,包括以下步骤:
步骤402,当验证待评估科室向量不符合基准分布时,获取向量补偿模型。
当用于计算科室数据向量的科室接诊数据不全面时,可能会导致服务器得到的科室数据向量出现偏差,降低了服务器确定的科室标识的准确率。当科室接诊数据中出现了特例或者科室接诊数据中缺乏某一疾病参数,服务器可以判定科室接诊数据不全面。向量补偿模型用于对不满足基准分布的科室数据向量进行补充,使得调整后的科室数据向量满足基准分布且不影响科室标识的确定。向量补偿模型是根据基准分布、向量补偿值及标准科室向量训练得到的,学习训练的方法可以是卷积神经网络、深度学习网络等。向量补偿值可以是根据需求从服务器或终端获取的,向量补偿值可以是数值范围、也可以是具体数值。当服务器验证待评估科室向量不符合基准分布时,获取向量补偿模型。
步骤404,将待评估科室向量输入向量补偿模型中得到与待评估科室向量对应的标准科室向量。
服务器将待评估科室向量输入向量补偿模型中得到与待评估科室向量对应的标准科室向量。
上述医疗信息清洗方法中,对验证未通过的待评估科室向量进行补偿,得到标准科室向量,进一步丰富了标准科室向量集合,提高了被确认的科室标识的准确率。
在一个实施例中,获取医疗信息之后,包括以下步骤:从医疗信息中提取待验证科室标识;当提取到待验证科室标识时,则获取预存储的目标数据,将待验证科室标识与目标数据进行比对;当比对成功时,选取比对成功的目标数据作为科室标识;当未比对成功时,执行根据接诊信息生成历史接诊向量的步骤。
当医疗信息中存在与待验证科室对应的待验证科室标识时,服务器从医疗信息中提取待验证科室标识。待验证科室标识可以是医生对科室标识的简写、同音字等。目标数据可以是与简写、同音字对应的科室标识等。当提取到待验证科室标识时,服务器获取预存储的目标数据,将待验证科室标识与目标数据进行比对。当比对成功时,服务器选取比对成功的目标数据作为科室标识;当未比对成功时,服务器执行根据接诊信息生成历史接诊向量的步骤。
在一个实施例中,采用当前标准科室向量对应的当前科室标识填补医疗信息之后,包括以下步骤:获取医疗风险模型,根据所述医疗风险模型判断医疗信息是否携带有科室标识;当判定携带有科室标识时,从医疗信息中提取到医疗特征参数;将医疗特征参数输入医疗风险模型中进行审核,得到审核结果。
服务器获取医疗风险模型,根据所述医疗风险模型判断医疗信息是否携带有科室标识。当判定携带有科室标识时,服务器判定医疗信息为已填补完整的待审核信息,可以用于准确评估各指标。服务器根据医疗风险模型中的各变量从医疗信息中提取到医疗特征参数。医疗特征参数可以是与医生或科室相关的各变量,例如,医生id、医生医龄、所在城市、所在科室等。服务器将医疗特征参数输入医疗风险模型中进行审核,得到审核结果。医疗风险模型可以是评估医生是否有乱开药行为的风险模型,也可以是评估医生对非必要药材和器材的损耗的风险模型等。
应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图5所示,提供了一种医疗信息清洗装置,包括:信息获取模块502、历史向量生成模块504、标准向量获取模块506、信息散度计算模块508和缺失值填补模块510,其中:
信息获取模块502,用于获取医疗信息,医疗信息包含与待评估医生对应的接诊信息。
历史向量生成模块504,用于当判定所述医疗信息缺失科室标识时,根据接诊信息生成历史接诊向量。
标准向量获取模块506,用于获取与科室标识对应的标准科室向量集合。
信息散度计算模块508,用于计算标准科室向量以及历史接诊向量的信息散度。
缺失值填补模块510,用于根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。
在一些实施例中,历史向量生成模块504包括接诊频次统计单元和历史向量生成单元,其中:
接诊频次统计单元,用于获取标准疾病标识,统计接诊信息中各标准疾病标识出现的接诊频次。
历史向量生成单元,用于计算各标准疾病标识对应的接诊概率值,根据标准疾病标识和接诊概率值生成历史接诊向量。
在一个实施例中,信息散度计算模块508包括向量数值提取单元和信息散度计算单元,其中:
向量数值提取单元,用于根据标准疾病标识从标准科室向量中提取到第一向量数值,并从历史接诊向量中提取第二向量数值。
信息散度计算单元,用于根据第一向量数值与第二向量数值计算信息散度。
在一个实施例中,标准向量获取模块506包括科室数据获取单元、待评估向量生成单元和标准向量集合生成单元,其中:
科室数据获取单元,用于获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据。
待评估向量生成单元,用于根据标准疾病标识和科室接诊数据生成待评估科室向量。
标准向量集合生成单元,用于验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
在一些实施例中,标准向量获取模块506包括补充模型获取单元和向量补偿单元,其中:
补充模型获取单元,用于当验证待评估科室向量不符合基准分布时,获取向量补偿模型。
向量补偿单元,用于将待评估科室向量输入向量补偿模型中得到与待评估科室向量对应的标准科室向量。
在一个实施例中,装置还包括待验证标识提取模块、标识比对模块、标识设定模块和执行模块,其中:
待验证标识提取模块,用于从医疗信息中提取待验证科室标识。
标识比对模块,用于当提取到待验证科室标识时,获取预存储的目标数据,将待验证科室标识与目标数据进行比对。
标识设定模块,用于当比对成功时,选取比对成功的目标数据作为科室标识。
执行模块,用于当未比对成功时,执行根据接诊信息生成历史接诊向量的步骤。
在一些实施例中,装置还包括风险模型获取模块、参数提取模块和审核模块,其中:
风险模型获取模块,用于获取医疗风险模型,根据所述医疗风险模型判断医疗信息是否携带有科室标识。
参数提取模块,用于当判定携带有科室标识时,从医疗信息中提取到医疗特征参数。
审核模块,用于将医疗特征参数输入医疗风险模型中进行审核,得到审核结果。
关于医疗信息清洗装置的具体限定可以参见上文中对于医疗信息清洗方法的限定,在此不再赘述。上述医疗信息清洗装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图6所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储医疗信息清洗数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种医疗信息清洗方法。
本领域技术人员可以理解,图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取医疗信息,医疗信息包含与待评估医生对应的接诊信息;当判定所述医疗信息缺失科室标识时,根据接诊信息生成历史接诊向量;获取与科室标识对应的标准科室向量集合;计算标准科室向量以及历史接诊向量的信息散度;根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。
在一个实施例中,处理器执行计算机程序时实现的根据接诊信息生成历史接诊向量,包括:获取标准疾病标识,统计接诊信息中各标准疾病标识出现的接诊频次;计算各标准疾病标识对应的接诊概率值,根据标准疾病标识和接诊概率值生成历史接诊向量。
在一个实施例中,处理器执行计算机程序时实现的计算标准科室向量以及历史接诊向量的信息散度,包括:根据标准疾病标识从标准科室向量中提取到第一向量数值,并从历史接诊向量中提取第二向量数值;根据第一向量数值与第二向量数值计算信息散度。
在一个实施例中,处理器执行计算机程序时实现的标准科室向量集合的生成方法,包括:获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据;根据标准疾病标识和科室接诊数据生成待评估科室向量;验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
在一个实施例中,处理器执行计算机程序时实现的验证待评估科室向量是否符合基准分布之后,包括:当验证待评估科室向量不符合基准分布时,获取向量补偿模型;将待评估科室向量输入向量补偿模型中得到与待评估科室向量对应的标准科室向量。
在一个实施例中,处理器执行计算机程序时实现的获取医疗信息之后,包括:从医疗信息中提取待验证科室标识;当提取到待验证科室标识时,获取预存储的目标数据,将待验证科室标识与目标数据进行比对;当比对成功时,选取比对成功的目标数据作为科室标识;当未比对成功时,执行根据接诊信息生成历史接诊向量的步骤。
在一个实施例中,处理器执行计算机程序时实现的采用当前标准科室向量对应的当前科室标识填补医疗信息之后,包括:获取医疗风险模型,根据所述医疗风险模型判断医疗信息是否携带有科室标识;当判定携带有科室标识时,从医疗信息中提取到医疗特征参数;将医疗特征参数输入医疗风险模型中进行审核,得到审核结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取医疗信息,医疗信息包含与待评估医生对应的接诊信息;当判定所述医疗信息缺失科室标识时,根据接诊信息生成历史接诊向量;获取与科室标识对应的标准科室向量集合;计算标准科室向量以及历史接诊向量的信息散度;根据信息散度确定与历史接诊向量对应的当前标准科室向量,并采用当前标准科室向量对应的当前科室标识填补医疗信息。
在一个实施例中,计算机程序被处理器执行时实现的根据接诊信息生成历史接诊向量,包括:获取标准疾病标识,统计接诊信息中各标准疾病标识出现的接诊频次;计算各标准疾病标识对应的接诊概率值,根据标准疾病标识和接诊概率值生成历史接诊向量。
在一个实施例中,计算机程序被处理器执行时实现的计算标准科室向量以及历史接诊向量的信息散度,包括:根据标准疾病标识从标准科室向量中提取到第一向量数值,并从历史接诊向量中提取第二向量数值;根据第一向量数值与第二向量数值计算信息散度。
在一个实施例中,计算机程序被处理器执行时实现的标准科室向量集合的生成方法,包括:获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据;根据标准疾病标识和科室接诊数据生成待评估科室向量;验证待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
在一个实施例中,计算机程序被处理器执行时实现的验证待评估科室向量是否符合基准分布之后,包括:当验证待评估科室向量不符合基准分布时,获取向量补偿模型;将待评估科室向量输入向量补偿模型中得到与待评估科室向量对应的标准科室向量。
在一个实施例中,计算机程序被处理器执行时实现的获取医疗信息之后,包括:从医疗信息中提取待验证科室标识;当提取到待验证科室标识时,获取预存储的目标数据,将待验证科室标识与目标数据进行比对;当比对成功时,选取比对成功的目标数据作为科室标识;当未比对成功时,执行根据接诊信息生成历史接诊向量的步骤。
在一个实施例中,计算机程序被处理器执行时实现的采用当前标准科室向量对应的当前科室标识填补医疗信息之后,包括:获取医疗风险模型,根据所述医疗风险模型判断医疗信息是否携带有科室标识;当判定携带有科室标识时,从医疗信息中提取到医疗特征参数;将医疗特征参数输入医疗风险模型中进行审核,得到审核结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
1.一种医疗信息清洗方法,所述方法包括:
获取医疗信息,所述医疗信息包含与待评估医生对应的接诊信息;
当判定所述医疗信息缺失科室标识时,根据所述接诊信息生成历史接诊向量;
获取与科室标识对应的标准科室向量集合;
计算所述标准科室向量以及所述历史接诊向量的信息散度;
根据所述信息散度确定与所述历史接诊向量对应的当前标准科室向量,并采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息。
2.根据权利要求1所述的方法,其特征在于,所述根据所述接诊信息生成历史接诊向量,包括:
获取标准疾病标识,统计所述接诊信息中各标准疾病标识出现的接诊频次;
计算各标准疾病标识对应的接诊概率值,根据所述标准疾病标识和所述接诊概率值生成历史接诊向量。
3.根据权利要求2所述的方法,其特征在于,所述计算所述标准科室向量以及所述历史接诊向量的信息散度,包括:
根据所述标准疾病标识从所述标准科室向量中提取到第一向量数值,并从所述历史接诊向量中提取第二向量数值;
根据所述第一向量数值与所述第二向量数值计算信息散度。
4.根据权利要求1所述的方法,其特征在于,所述标准科室向量集合的生成方法,包括:
获取标准疾病标识,并获取与科室和标准疾病标识对应的科室接诊数据;
根据所述标准疾病标识和科室接诊数据生成待评估科室向量;
验证所述待评估科室向量是否符合基准分布,并将验证通过的待评估科室向量作为标准科室向量,组合得到标准科室向量集合。
5.根据权利要求4所述的方法,其特征在于,所述验证所述待评估科室向量是否符合基准分布之后,包括:
当验证所述待评估科室向量不符合基准分布时,获取向量补偿模型;
将所述待评估科室向量输入所述向量补偿模型中得到与所述待评估科室向量对应的标准科室向量。
6.根据权利要求1所述的方法,其特征在于,所述获取医疗信息之后,包括:
从所述医疗信息中提取待验证科室标识;
当提取到待验证科室标识时,获取预存储的目标数据,将待验证科室标识与目标数据进行比对;
当比对成功时,选取比对成功的目标数据作为科室标识;
当未比对成功时,执行根据所述接诊信息生成历史接诊向量的步骤。
7.根据权利要求1所述的方法,其特征在于,所述采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息之后,包括:
获取医疗风险模型,根据所述医疗风险模型判断所述医疗信息是否携带有科室标识;
当判定携带有科室标识时,从医疗信息中提取到医疗特征参数;
将医疗特征参数输入所述医疗风险模型中进行审核,得到审核结果。
8.一种医疗信息清洗装置,其特征在于,所述装置包括:
信息获取模块,用于获取医疗信息,所述医疗信息包含与待评估医生对应的接诊信息;
历史向量生成模块,用于当判定所述医疗信息缺失科室标识时,根据所述接诊信息生成历史接诊向量;
标准向量获取模块,用于获取与科室标识对应的标准科室向量集合;
信息散度计算模块,用于计算所述标准科室向量以及所述历史接诊向量的信息散度;
缺失值填补模块,用于根据所述信息散度确定与所述历史接诊向量对应的当前标准科室向量,并采用所述当前标准科室向量对应的当前科室标识填补所述医疗信息。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结