医疗数据整理方法、医疗数据整理装置和电子设备与流程

专利2022-06-30  51


本发明总体地涉及数据处理领域,特别是涉及医疗数据整理方法、医疗数据整理装置和电子设备。



背景技术:

癌症是中国人口的主要死亡因素之一。有数据显示:癌症如果发现的早,治愈率非常高。在美国,乳腺癌1期和2期的5年生存率高达89%,综合所有癌症类型和分期,2015年癌症总治愈率也有70%,这里面最主要的原因是病灶发现的早。通过临床医疗数据大数据对癌症进行预测是当下的一个热点话题。

然而,医疗临床数据(包括体检数据和诊断数据等)就像一块掩埋在深山中的宝藏。虽然山中有金矿,但是如果没有良好的开采技术与开采设备,大片金矿也只能是草木不生的戈壁。临床医疗大数据无论是对于药企、医疗服务提供者还是医疗支付方以及患者都有巨大的作用。但是,目前由于数据密度低,数据处于孤岛状态,缺少关联分析,并且大量数据没有与病人长期随访相连接,所以医疗临床数据的价值并没有被充分开发和利用起来。

因此,需要一种医疗数据整理技术方案将临床医疗大数据进行关联分析,以充分挖掘医疗大数据的潜在价值。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种医疗数据整理方法、医疗数据整理装置和电子设备,其通过对获取的与客户相关的医疗数据进行处理,以形成具有特定数据结构的医疗数据库,其中所述医疗数据库包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。通过这样的方式,将临床医疗大数据进行关联分析和数据管理,以利于医疗大数据分析,例如,用于癌症等其他慢性疾病的预测等。

根据本申请的一方面,提供了一种医疗数据整理方法,包括:

获取与客户相关的原始医疗数据;以及

对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库;其中,所述原始信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述病例样本库包括模型训练表;其中,所述模型指标库包括模型表;其中,所述预测结果库包括评估结果表;以及,其中,所述用户访问授权库包括用户访问授权控制表。

在上述医疗数据整理方法中,所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合;

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合;

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

在上述医疗数据整理方法中,所述医院体检中心基本信息表通过医院电话作为外键与所述客户基本信息表相关联;所述职业分类对照表通过职业名称作为外键与所述客户基本信息表相关联;所述模型表通过疾病名称作为外键与所述疾病分类对照表相关联;所述评估结果表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血流变体检信息表通过疾病名称作为外键与所述客户基本信息表相关联;所述尿常规体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血常规和血生化体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述模型训练表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述肿瘤标记物体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;以及,所述国家简称和全称分类对照表通过国家名称与所述客户基本信息表相关联。

在上述医疗数据整理方法中,所述疾病名称数据项采用3个字符进行编码。

在上述医疗数据整理方法中,所述既往病史数据项采用可变长多个3字符进行组合编码。

在上述医疗数据整理方法中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。

根据本申请另一方面,还提供一种医疗数据整理装置,包括:

数据获取单元,用于获取与客户相关的原始医疗数据;以及

数据整理单元,用于对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库;其中,所述原始信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述病例样本库包括模型训练表;其中,所述模型指标库包括模型表;其中,所述预测结果库包括评估结果表;以及,其中,所述用户访问授权库包括用户访问授权控制表。

在上述医疗数据整理装置中,所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合;

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合;

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

在上述医疗数据整理装置中,所述医院体检中心基本信息表通过医院电话作为外键与所述客户基本信息表相关联;所述职业分类对照表通过职业名称作为外键与所述客户基本信息表相关联;所述模型表通过疾病名称作为外键与所述疾病分类对照表相关联;所述评估结果表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血流变体检信息表通过疾病名称作为外键与所述客户基本信息表相关联;所述尿常规体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血常规和血生化体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述模型训练表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述肿瘤标记物体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;以及,所述国家简称和全称分类对照表通过国家名称与所述客户基本信息表相关联。

在上述医疗数据整理装置中,所述疾病名称数据项采用3个字符进行编码。

在上述医疗数据整理装置中,所述既往病史数据项采用可变长多个3字符进行组合编码。

在上述医疗数据整理装置中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。

根据本申请的又一方面,还提供一种电子设备,包括:处理器和存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如上所述的医疗数据整理方法。

根据本申请的再一方面,还提供一种计算机可读存储介质,其上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如上所述的医疗数据整理方法。

本申请提供的医疗数据整理方法、医疗数据整理装置和电子设备,可以有效地通过对获取的与客户相关的医疗数据进行处理,以形成具有特定数据结构的医疗数据库,其中所述医疗数据库包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。这样,将临床医疗大数据进行关联分析和数据管理,以利于医疗大数据分析,例如,用于癌症等其他慢性疾病的预测等。

附图说明

从下面结合附图对本发明实施例的详细描述中,本发明的这些和/或其它方面和优点将变得更加清楚并更容易理解,其中:

图1图示了根据本申请实施例的医疗数据整理方法的流程图。

图2图示了根据本申请实施例的医疗数据库的数据结构和形成过程示意图。

图3图示了根据本申请实施例的医疗数据库包含的数据表的列表示意图。

图4图示了根据本申请实施例的所述医疗数据库中各数据表的关联示意图。

图5图示了根据本申请实施例的医疗数据整理装置的框图示意图。

图6图示了根据本申请实施例的电子设备的框图示意图。

具体实施方式

下面,将参考附图详细描述根据本申请的示例实施例。显然,所描述的实施例仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解本申请不受这里描述的示例实施例的限制。

示意性医疗数据整理方法

图1图示了根据本申请实施例的医疗数据整理方法的框图。如图1所示,根据本申请实施例的医疗数据整理方法,包括:s110,获取与客户相关的原始医疗数据;以及,s120,对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。也就是说,本申请实施例的所述医疗数据整理方法通过对获取的与客户相关的医疗数据进行处理,以形成具有特定数据结构的医疗数据库,其中所述医疗数据库包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。通过这样的方式,能够将临床医疗大数据进行关联分析和数据管理,以利于医疗大数据分析,例如,用于癌症等其他慢性疾病的预测等。

具体来说,在步骤s110中,获取与客户相关的原始医疗数据。这里,与客户相关的原始医疗数据包括各类数据格式的客户体检信息、客户基本信息、客户的临床诊断信息、客户的病例信息等。这些原始医疗数据的来源包括国家认可的医疗机构(包括:医院、体检中心、健康养老机构、社区诊所)的lis(laboratoryinformationsystem,实验室信息系统)或his系统(hospitalmanagementinformationsystem,医院管理信息系统)、个人提供的检查报告等。并且,这里的客户是相对医院或体检中心而言的用户,换言之,所述客户指的是参与体检的人员或者到医院就诊的人员。

在步骤s120中,对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。也就是说,在采集到与客户相关的大量原始医疗数据之后,利用数据处理和整理手段,建立与客户相关的医疗数据库。其中,所述医疗数据库具有特定的数据结构,其包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。此数据结构既可以为全样本关联分析预测不同癌症病种的发病趋势提供数据支持,也可以支持针对不同国家、不同地域、不同生活习惯、不同职业、不同种族人群进行分类分析。

应理解,从各源头所采集的原始医疗数据存在一定的差异。这些差异具体表现在:第一,不同医疗机构针对同一项目常规检查报告,数据项总数可能不一致,即,数据项目标准缺乏统一性;第二,不同医疗机构针对同一项目的常规检查报告,各个检测项排列顺序不一致,即,数据项目排序缺乏一致性;第三,不同医疗机构同一项目常规检查报告,检测项计量单位存在差异,即,数据项计量缺乏一致性。

针对于上述问题,需对获取的所述原始医疗数据进行标准化处理。可选地,所述标准化的过程,可包括步骤:首先以特定键值作为关联规则对所述原始医疗数据进行编码。例如,可针对原始医疗数据资源进行采集来源(具体医院或机构)、采集日期进行标注、编码,其中,所述编码的规则可被实施为以医疗机构所在地为基础的编码体系,并另外增设两位识别码以防同一地区出现多个医疗机构以示区别。当然,本领域的技术人员应理解,在本申请另外的实施例中,可采用其他关联规则对所述原始医疗数据进行编码,仅需所述关联规则能够作为对应医疗数据的唯一标识即可。对此,并不为本申请所局限。

在对所述原始医疗数据进行编码之后,进一步对所述原始医疗数据进行规范化处理。可选地,其过程可包括:首先将原始医疗数据项按规定的顺序进行排列;进而,对缺项数据进行填补,缺项严重的数据将之剔除;最后,针对原始数据计量单位不统一的问题进行单位统一化处理。

进一步地,对经过标准化处理之后的所述医疗数据进行清洗/转化/加载,以形成病例样本库和客户体检信息库。值得一提的是,所述客户体检信息库位于清洗后的数据缓冲区,所述病案样本库为经跟踪随访确诊的患病或健康人员的样本库。

在获得所述病例样本库和所述客户体检信息库之后,基于病案样本库进行模型训练、分析建模以获得模型指标库。并且,基于所述模型指标库和所述客户体检信息库进行大数据分析预测,以获得所述预测结果库。这样,经过一系列处理之后形成具有特定数据结构的所述医疗数据库,其中,所述医疗数据库包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库,如图2所示。

更具体地,在本申请实施例中,所述原始信息库包括客户基本信息表(userinfo)、血常规和血生化体检信息表(checkxcg)、尿常规体检信息表(checknj)、肿瘤标记物体检信息表(checkzl)、血流变体检信息表(checkxlb)、医院体检中心基本信息表(hospital)、疾病分类对照表(disease)、职业分类对照表(job)和国家简称和全称分类对照表(country)中至少之一或几种的组合。所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;所述病例样本库包括模型训练表(drill)。所述模型指标库包括模型表(model)。所述预测结果库包括评估结果表(result)。所述用户访问授权库包括用户访问授权控制表(acl)。也就是说,在本申请实施例中,所述医疗数据库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表、国家简称和全称分类对照表、模型训练表、模型表、评估结果表、以及用户访问授权控制表,如图3所示。

更具体地,在本申请实施例中,所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合。

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合。

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合。

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合。

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合。

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合。

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合。

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

为应对海量数据处理能力要求,并且节省数据存储空间、提高数据库吞吐量与处理能力,特别地,在本申请实施例中,所述医疗数据库采用多组主从表结构。

图4图示了根据本申请实施例的所述医疗数据库中各数据表的关联示意图,其中,fk表示外键。如图4所示,所述医院体检中心基本信息表通过医院电话(hptel)作为外键与所述客户基本信息表相关联;所述职业分类对照表通过职业名称(occupation)作为外键与所述客户基本信息表相关联;所述模型表通过疾病名称(cancel)作为外键与所述疾病分类对照表相关联;所述评估结果表通过医院体检号或病案号(hpid)以及医院电话(hptel)作为外键与所述客户基本信息表相关联;所述血流变体检信息表通过疾病名称(cancel)作为外键与所述客户基本信息表相关联;所述尿常规体检信息表通过疾病名称(cancel)作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号(hpid)以及医院电话(hptel)作为外键与所述客户基本信息表相关联;所述血常规和血生化体检信息表通过疾病名称(cancel)作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号(hpid)以及医院电话(hptel)作为外键与所述客户基本信息表相关联;所述模型训练表通过医院体检号或病案号(hpid)以及医院电话(hptel)作为外键与所述客户基本信息表相关联;所述肿瘤标记物体检信息表通过医院体检号或病案号(hpid)以及医院电话(hptel)作为外键与所述客户基本信息表相关联;以及,所述国家简称和全称分类对照表通过国家名称(nationality)与所述客户基本信息表相关联。

特别地,在本申请实施例中,所述疾病名称数据项采用3个字符进行编码。本领域技术人员应知晓,通过3个字符进行编码最多可存储46656中疾病。

特别地,特别地,在本申请实施例中,所述既往病史数据项采用可变长多个3字符进行组合编码。通过这样的方式,所述既往病史字段可同时记录一个病人多达14种疾病信息。

并且,为了保护客户隐私,所述医疗数据库的数据结构未采用传统的身份id作为主键或外键。相反地,在本申请实施例中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。这样,即方便保护客户敏感信息,又方面信息检索与客户查询。

综上,本申请提供的医疗数据整理方法可以有效地通过对获取的与客户相关的医疗数据进行处理,以形成具有特定数据结构的医疗数据库,其中所述医疗数据库包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。这样,将临床医疗大数据进行关联分析和数据管理,以利于医疗大数据分析,例如,用于癌症等其他慢性疾病的预测等。

在具体实施中,所述医疗数据库可基于mysql数据库进行构建。如前所述,在本申请实施例中,所述医疗数据库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表、国家简称和全称分类对照表、模型训练表、模型表、评估结果表、以及用户访问授权控制表,并且,各数据表之间的关联如图4所示。

基于此,可利用mysql数据库构建本申请所公开的医疗数据库。以下表1到表13示出了基于mysql数据库的各表。其中,表1是基于mysql数据库的所述客户基本信息表的列表。特别地,说明:所述客户基本信息表用来存储客户基本信息,此信息表来自医院或体检中心,以医院体检号hpid与医院电话总机hptel为主键。表2是基于mysql数据库的所述模型训练表的列表。特别地,从医院、体检中心获取的数据,经前期清洗后,经医院确诊能明确体检人是否身体健康或已诊断出疾病类型,此类体检数据存储此表,用于不同疾病类型的模型训练数据。表3是基于mysql数据库的所述模型表的列表。表4是基于mysql数据库的所述评估结果表的列表。特别地,客户基本信息表用来存储客户基本信息,此信息表来自医院或体检中心,无客户身份证或护照信息,以医院体检号hpid为主键。表5是基于mysql数据库的所述血常规和血生化体检信息表的列表。特别地,该表用于存储客户体检数据,包含客户的血常规、血生化信息,需要据此信息评估预测客户健康状况。表6是基于mysql数据库的所述尿常规体检信息表的列表。特别地,该表用于存储客户体检数据,包括尿常规信息,用于疾病筛查评估的客户数据。表7是基于mysql数据库的所述肿瘤标记物体检信息表的列表。特别地,该表用于存储客户体检信息,包括肿瘤标记物变信息,用于疾病筛查评估的客户数据。表8是基于mysql数据库的所述血流变体检信息表的列表。特别地,该表用于存储客户体检信息,包括血流变信息,用于疾病筛查评估的客户数据。表9是基于mysql数据库的所述医院体检中心基本信息表的列表。特别地,医院、体检中心基本信息表用来存储医院名称、电话等信息。表10是基于mysql数据库的所述疾病分类对照表的列表。表11是基于mysql数据库的所述国家简称和全称分类对照表的列表。表12是基于mysql数据库的所述职业分类对照表的列表。表13是基于mysql数据库的所述用户访问授权控制表的列表。

【表1】

【表2】

【表3】

【表4】

【表5】

【表6】

【表7】

【表8】

【表9】

【表10】

【表11】

【表12】

【表13】

值得一提的是,在基于mysql数据库进行医疗数据库视图设计的过程中,应尽量减少列中使用的公式,去掉所有不必要的列,不要使用一个文档属于多个分类,避免使用表单公式。

并且,在储存过程、函数及触发器的设计过程中,应遵守如下指导原则。具体来说,存储过程:根据具体得业务逻辑确定输入参数个数,类型,确定对哪几个表进行何种作。在定义存储过程时,要使用其完成单一、相对集中的任务,不要定义已由其他提供功能的过程。例如:不要定义强制数据完整性的过程(使用完整性约束)。

函数:函数与存储过程非常相似,它也是存储在数据库中的对象。但是可以在sql命令中使用函数。就好像建立自己的substr函数一样

触发器:触发器是存储在数据库中的程序,它在某一特定事件发生时执行。这些程序可以用pl/sql和java语言编写,也可以用作c语言的调用,数据库允许用户定义这些程序,然后在相关的表,视图或者数据库动作执行insert,update或delete语句时执行。

同时,出于数据库安全考量,应当从“管理”和“设计”两方面着手实现软件系统的安全性。例如:应用级的用户帐号密码不能与数据库相同,防止用户直接操作数据库。用户只能用帐号登陆到应用软件,通过应用软件访问数据库,而没有其它途径操作数据库。

以上,虽然以mysql数据库构建本申请所公开的医疗数据库,但是本领域的技术人员应理解,本申请所公开的所述医疗数据库同样可基于其他数据库进行构建。对此并不为本申请所局限。

示意性医疗数据整理装置

图5图示了根据本申请实施例的医疗数据整理装置的框图。

如图5所示,根据本申请实施例的医疗数据整理装置300包括:包括:数据获取单元310,用于获取与客户相关的原始医疗数据;以及,数据整理单元320,用于对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库;其中,所述原始信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;其中,所述病例样本库包括模型训练表;其中,所述模型指标库包括模型表;其中,所述预测结果库包括评估结果表;以及,其中,所述用户访问授权库包括用户访问授权控制表。

在一个示例中,在上述医疗数据整理装置300中,所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合;

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合;

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

在上述医疗数据整理装置中,所述医院体检中心基本信息表通过医院电话作为外键与所述客户基本信息表相关联;所述职业分类对照表通过职业名称作为外键与所述客户基本信息表相关联;所述模型表通过疾病名称作为外键与所述疾病分类对照表相关联;所述评估结果表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血流变体检信息表通过疾病名称作为外键与所述客户基本信息表相关联;所述尿常规体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述血常规和血生化体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述模型训练表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;所述肿瘤标记物体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;以及,所述国家简称和全称分类对照表通过国家名称与所述客户基本信息表相关联。

在一个示例中,在上述医疗数据整理装置300中,所述疾病名称数据项采用3个字符进行编码。

在一个示例中,在上述医疗数据整理装置300中,所述既往病史数据项采用可变长多个3字符进行组合编码。

在一个示例中,在上述医疗数据整理装置300中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。

这里,本领域技术人员可以理解,上述医疗数据整理装置300中的各个单元和模块的具体功能和操作已经在上面参考图1到图4描述的医疗数据整理方法中详细介绍,并因此,将省略其重复描述。

如上所述,根据本申请实施例的医疗数据整理装置可以实现在各种终端设备中,例如疾病诊断的服务器中。在一个示例中,根据本申请实施例的医疗数据整理装置可以作为一个软件模块和/或硬件模块而集成到所述终端设备中。例如,该医疗数据整理装置可以是该终端设备的操作系统中的一个软件模块,或者可以是针对于该终端设备所开发的一个应用程序;当然,该医疗数据整理装置同样可以是该终端设备的众多硬件模块之一。

替换地,在另一示例中,该医疗数据整理装置与该终端设备也可以是分立的终端设备,并且该医疗数据整理装置可以通过有线和/或无线网络连接到该终端设备,并且按照约定的数据格式来传输交互信息。

示意性电子设备

下面,参考图6来描述根据本申请实施例的电子设备。

图6图示了根据本申请实施例的电子设备的框图。

如图6所示,电子设备10包括一个或多个处理器11和存储器12。

处理器11可以是中央处理单元(cpu)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备10中的其他组件以执行期望的功能。

存储器12可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器11可以运行所述程序指令,以实现上文所述的本申请的各个实施例的医疗数据整理方法以及/或者其他期望的功能。在所述计算机可读存储介质中还可以各类数据表等各种内容。

在一个示例中,电子设备10还可以包括:输入装置13和输出装置14,这些组件通过总线系统和/或其他形式的连接机构(未示出)互连。

例如,该输入装置13可以是例如键盘、鼠标等等。

该输出装置14可以向外部输出各种信息,包括疾病预测结果、客户信息等。该输出设备14可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然,为了简化,图6中仅示出了该电子设备10中与本申请有关的组件中的一些,省略了诸如总线、输入/输出接口等等的组件。除此之外,根据具体应用情况,电子设备10还可以包括任何其他适当的组件。

示意性计算机程序产品

除了上述方法和设备以外,本申请的实施例还可以是计算机程序产品,其包括计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的医疗数据整理方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本申请实施例操作的程序代码,所述程序设计语言包括面向对象的程序设计语言,诸如java、c 等,还包括常规的过程式程序设计语言,诸如“,还语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外,本申请的实施例还可以是计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本申请各种实施例的医疗数据整理方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。


技术特征:

1.一种医疗数据整理方法,其特征在于,包括:

获取与客户相关的原始医疗数据;以及

对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库;

其中,所述原始信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;

其中,所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;

其中,所述病例样本库包括模型训练表;

其中,所述模型指标库包括模型表;

其中,所述预测结果库包括评估结果表;以及

其中,所述用户访问授权库包括用户访问授权控制表。

2.如权利要求1所述的医疗数据整理方法,其特征在于,

所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合;

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合;

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

3.如权利要求1或2所述的医疗数据整理方法,其特征在于,

所述医院体检中心基本信息表通过医院电话作为外键与所述客户基本信息表相关联;

所述职业分类对照表通过职业名称作为外键与所述客户基本信息表相关联;

所述模型表通过疾病名称作为外键与所述疾病分类对照表相关联;

所述评估结果表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述血流变体检信息表通过疾病名称作为外键与所述客户基本信息表相关联;

所述尿常规体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述血常规和血生化体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述模型训练表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述肿瘤标记物体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;以及

所述国家简称和全称分类对照表通过国家名称与所述客户基本信息表相关联。

4.如权利要求3所述的医疗数据整理方法,其中,所述疾病名称数据项采用3个字符进行编码。

5.如权利要求3所述的医疗数据整理方法,其中,所述既往病史数据项采用可变长多个3字符进行组合编码。

6.如权利要求5所述的医疗数据整理方法,其中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。

7.一种医疗数据整理装置,其特征在于,包括:

数据获取单元,用于获取与客户相关的原始医疗数据;以及

数据整理单元,用于对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库;

其中,所述原始信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;

其中,所述客户体检信息库包括客户基本信息表、血常规和血生化体检信息表、尿常规体检信息表、肿瘤标记物体检信息表、血流变体检信息表、医院体检中心基本信息表、疾病分类对照表、职业分类对照表和国家简称和全称分类对照表中至少之一或几种的组合;

其中,所述病例样本库包括模型训练表;

其中,所述模型指标库包括模型表;

其中,所述预测结果库包括评估结果表;以及

其中,所述用户访问授权库包括用户访问授权控制表。

8.如权利要求7所述的医疗数据整理装置,其特征在于,

所述客户基本信息表所包括的数据项选自由客户姓名、性别、出生日期、种族、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、电话、电子邮件、通讯地址、职业、既往病史、直系亲属既往病史、常住地、精神压力、吸烟习惯、医院电话和录入系统时间所组成的群组中的一种或几种的组合;

所述血常规和血生化体检信息表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、人工干预情况、医院电话号码、科室来源、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述尿常规体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述肿瘤标记物体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述血流变体检信息表所包括的数据项选自由身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、体检时间、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、医院电话号码、创建时间、标志位和疾病名称所组成的群组中的一种或几种的组合;

所述模型训练表所包括的数据项选自由客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、体检时间、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、科室来源、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述医院体检中心基本信息表所包括的数据项选自由序号、医院名称、医院电话、医院地址、联系人和联系人电话所组成的群组中的一种或几种的组合;

所述疾病分类对照表所包括的数据项选自由序号、疾病名称和疾病代码所组成的群组中的一种或几种的组合;

所述国家简称和全称分类对照表包括国家名称和国家简称;

所述职业分类对照表包括职业名称和职业代码;

所述模型表所包括的数据项选自由序号、客户姓名、性别、出生日期、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、身高、体重、收缩压、舒张压、红细胞、红细胞比积、中性粒细胞%、中性粒细胞数、单核细胞%、单核细胞数、嗜碱性粒细胞%、嗜碱性粒细胞数、嗜酸性粒细胞%、嗜酸性粒细胞数、平均血红蛋白量、平均血红蛋白量浓度、血小板平均体积、白细胞、红细胞平均体积、血小板、血小板体积分布宽度、淋巴细胞%、淋巴细胞数、rbc分别宽度-cv、rbc分别宽度-sd、血小板比积、血红蛋白、白蛋白、谷丙转氨酶、谷草转氨酶、γ-谷氨酰转肽酶、肌酐、尿素、尿酸、空腹血糖、总胆固醇、甘油三脂、高密度脂蛋白、低密度脂蛋白、载脂蛋白a、载脂蛋白b、总胆红素、超敏c反应蛋白、乳酸脱氢酶、总胆汁酸、胆碱酯酶、碱性磷酸酶、α-l-岩藻糖苷酶、β2-微球蛋白(β2-mg)、总蛋白、潜血、尿胆素、尿糖、酮体、尿蛋白、尿胆原、亚硝酸盐、白细胞、维生素、比重、酸碱值、甲胎蛋白、糖类抗原125(ca125)、糖类抗原15-3(ca15-3)、糖类抗原19-9(ca19-9)、糖类抗原72-4(ca72-4)、癌胚抗原(cea)、细胞角蛋白19(cyfra21-1)、铁蛋白(fer)、神经元特异烯醇化酶(nse)、前列腺特异性抗原(psa)、血粘度、还原粘度、相对粘度、血浆粘度、红细胞沉降率esr、血沉方程k值、人工干预情况、医院电话号码、创建时间和疾病名称所组成的群组中的一种或几种的组合;

所述评估结果表所包括的数据项选自由客户姓名、性别、年龄、身份证号、护照、港澳回乡证、台胞证、医院体检号或病案号、医院电话号码、评估结果、评估使用的模型版本和评估时间所组成的群组中的一种或几种的组合;以及

所述用户访问授权控制表所包括的数据项选自由用户名、用户密码、角色、用户注册时间和最后修改时间所组成的群组中的一种或几种的组合。

9.如权利要求7或8所述的医疗数据整理装置,其特征在于,

所述医院体检中心基本信息表通过医院电话作为外键与所述客户基本信息表相关联;

所述职业分类对照表通过职业名称作为外键与所述客户基本信息表相关联;

所述模型表通过疾病名称作为外键与所述疾病分类对照表相关联;

所述评估结果表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述血流变体检信息表通过疾病名称作为外键与所述客户基本信息表相关联;

所述尿常规体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述尿常规体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述血常规和血生化体检信息表通过疾病名称作为外键与所述疾病分类对照表相关联,且所述血常规和血生化体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述模型训练表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;

所述肿瘤标记物体检信息表通过医院体检号或病案号以及医院电话作为外键与所述客户基本信息表相关联;以及

所述国家简称和全称分类对照表通过国家名称与所述客户基本信息表相关联。

10.如权利要求9所述的医疗数据整理装置,其中,所述疾病名称数据项采用3个字符进行编码。

11.如权利要求9所述的医疗数据整理装置,其中,所述既往病史数据项采用可变长多个3字符进行组合编码。

12.如权利要求9所述的医疗数据整理方法,其中,所述医疗数据库的主键或外键被设置为医院号码,以及,医院体检号或病案号。

13.一种电子设备,包括:

处理器;以及

存储器,在所述存储器中存储有计算机程序指令,所述计算机程序指令在被所述处理器运行时使得所述处理器执行如权利要求1-6中任一项所述的医疗数据整理方法。

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,当所述计算机程序指令被计算装置执行时,可操作来执行如权利要求1-6中任一项所述的医疗数据整理方法。

技术总结
本申请涉及一种医疗数据整理方法、医疗数据整理装置和电子设备。该医疗数据整理方法,包括:获取与客户相关的原始医疗数据;以及,对原始医疗数据进行处理,以获得医疗数据库,其中,所述医疗数据库的数据结构中包括原始信息数据库、客户体检信息库、病例样本库、模型指标库、预测结果库和用户访问授权库。这样,将临床医疗大数据进行关联分析和数据管理,以利于医疗大数据分析,例如,用于癌症等其他慢性疾病的预测等。

技术研发人员:郭晓方;金敏;刘颖丰;姜东平
受保护的技术使用者:金敏
技术研发日:2018.11.29
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-58059.html

最新回复(0)