大队列宏基因组的条件致病菌的识别方法、装置及存储介质

专利2026-06-07  2


本发明涉及深度学习和生物信息学,具体而言,涉及大队列宏基因组的条件致病菌的识别方法、装置及存储介质。


背景技术:

1、随着宏基因组测序技术的快速发展和成本持续降低,大规模宏基因组学研究项目已经变得越来越可行且经济实惠。这使得科研人员能够对大队列样本进行高通量的宏基因组测序分析,从而深入探究复杂环境或群体中基因群落的整体结构与功能特征。通过这样的技术手段,研究人员不仅能够揭示不同样本间的基因多样性和种群分布差异,更能够在海量数据中精确识别出那些与疾病发生发展潜在相关的条件致病菌。在医疗领域,大队列宏基因组测序对于检测和发现慢性疾病、感染性疾病以及一些未明原因疾病的病因具有革命性意义。通过对成千上万个个体的肠道、呼吸道或其他体液样本的宏基因组分析,科学家可以系统地筛查出在特定健康状况下频繁出现或者显著富集的基因种类,这些基因可能在一定条件下转变为致病菌,对宿主健康产生不利影响。这一进步为临床诊断提供了更为全面的视角,有助于个性化治疗方案的设计和预防策略的制定,同时也极大地推动了基因组与人体健康之间关系的基础研究进展。

2、在人体内,菌群与机体之间通常保持着一种动态平衡的稳态关系,这种基因生态系统对人体健康起着至关重要的作用。正常情况下,即使存在某些潜在的条件致病菌,只要它们的数量、活性和宿主免疫系统的相互作用保持在适宜范围内,就不会引发疾病。然而,在特定条件下,如免疫力下降、环境变化或生活习惯改变等因素的影响下,原本处于共生状态的某一种条件致病菌可能因为数量剧增或功能异常而打破这一稳态,进而导致人体患病。然而,更常见的情况是,多种条件致病菌的同时改变及其相互作用,共同构成了引发疾病的复杂病因网络。这些条件致病菌可能通过竞争、协同或其他交互作用影响彼此的数量和活性,以及对宿主生理机能的影响。在这种情况下,单一的条件致病菌并不能完全解释疾病的发生,而是需要综合考虑整个基因群落结构的变化及其与宿主免疫系统之间的复杂互作机制。因此,理解并揭示多种条件致病菌如何共同作用导致人体患病的过程,对于预防和治疗相关疾病具有极其重要的理论价值和临床意义。

3、鉴于多种条件致病菌在疾病发生发展过程中的协同作用和复杂交互关系的重要性,开发一种能够有效识别并解析大队列宏基因组数据中这些基因间相互作用的软件工具显得尤为关键。这样的软件应当具备强大的生物信息学分析能力,能够从海量宏基因组测序数据中精准捕捉到不同条件下致病菌种群的变化动态以及它们之间的关联模式。

4、尽管像wgcna(weighted gene co-expression network analysis,加权基因共表达网络分析)这样的先进网络分析方法已经在宏基因组学研究中发挥了重要作用,成功地揭示了基因群落内部各成员间的复杂相互作用关系,但在处理和解析大队列宏基因组数据时仍然面临一些挑战与不足。首先,wgcna等方法在面对大规模样本数据集时,计算复杂度会显著提高,对存储空间和计算资源的需求也随之增加,这可能导致分析效率下降。其次,由于大队列宏基因组数据的异质性较高,包含的信息量巨大且多样,现有的网络构建算法可能无法充分捕捉到所有潜在的条件致病菌之间的精细交互模式,特别是在疾病发生发展过程中的动态变化规律。

5、随着深度学习技术的发展,深度学习网络模型可用于条件致病菌交互作用的识别,会使得条件致病菌交互作用的识别更加准确。

6、鉴于此,特提出本发明。


技术实现思路

1、本发明的目的在于提供大队列宏基因组的条件致病菌的识别方法、装置及存储介质以解决上述技术问题。

2、本发明是这样实现的:

3、第一方面,本发明提供了一种大队列宏基因组的条件致病菌的识别方法,其包括如下步骤:

4、s1.对质控过滤和去除宿主后的宏基因组测序数据进行物种注释和相对丰度估算,将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,对所有样本的相对丰度进行抽平;

5、s2.取经过相对丰度抽平的数据构建物种相对丰度矩阵和表型矩阵;将物种相对丰度矩阵和表型矩阵送入编码器(encoder),编码器负责从原始数据中提取关键特征;对于物种相对丰度矩阵,编码器提取出m个特征向量g;对于表型矩阵,编码器提取出n个特征向量y;其中m代表样本数,n代表物种数;

6、s3.使得s2提取的m个特征向量g和n个特征向量y进入致病菌配准模块;计算每个特征向量之间的相关度,构建出相关度矩阵p;

7、s4.相关度矩阵p被送入交互作用分析模块,通过深度学习算法对特征之间的相互作用进行深入分析,构建深度学习模型;输出物种交互作用矩阵;

8、s5.基于s4构建的深度学习模型和物种交互作用矩阵识别出条件致病菌。

9、第二方面,本发明还提供了一种大队列宏基因组的条件致病菌的交互作用的识别方法,其包括如下步骤:

10、s1.对质控过滤和去除宿主后的测序数据进行物种注释和相对丰度估算,将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,进行相对丰度抽平;

11、s2.取经过相对丰度抽平的数据构建物种相对丰度矩阵和表型矩阵;将物种相对丰度矩阵和表型矩阵送入编码器(encoder),编码器负责从原始数据中提取关键特征;对于物种相对丰度矩阵,编码器提取出m个特征向量g;对于表型矩阵,编码器提取出n个特征向量y;其中m代表样本数,n代表物种数;

12、s3.使得s2提取的m个特征向量g和n个特征向量y进入致病菌配准模块;计算每个特征向量之间的相关度,构建出相关度矩阵p;

13、s4.相关度矩阵p被送入交互作用分析模块,通过深度学习算法对特征之间的相互作用进行深入分析,构建深度学习模型;

14、s5.基于s4构建的深度学习模型和物种交互作用矩阵识别出条件致病菌,包括:一阶条件致病菌识别、二阶条件致病菌识别和高阶条件致病菌识别;

15、一阶条件致病菌识别用于:通过深度学习模型识别单个物种特征,以确定哪些物种可能是条件致病菌。

16、二阶条件致病菌识别用于:通过深度学习模型分析物种之间的关系,识别出在特定条件下可能共同作用致病的物种组合;

17、高阶条件致病菌识别用于:分析多个物种间的交互网络结构,以识别多物种间的条件致病菌相互作用模式。

18、第三方面,本发明还提供了一种大队列宏基因组的条件致病菌的识别装置,包括:输入模块、控制模块和输出模块;

19、输入模块被配置为:输入质控过滤和去除宿主后的测序数据或宏基因组下机测序数据;

20、控制模块包括:数据预处理模块、提取特征向量模块、致病菌配准模块、交互作用分析模块和条件致病菌识别模块;

21、数据预处理模块被配置为:对质控过滤和去除宿主后的宏基因组测序数据进行物种注释和相对丰度估算,将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,进行相对丰度抽平;或,对宏基因组下机测序数据进行质控过滤、去除宿主序列、物种注释和相对丰度估算,然后将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,进行相对丰度抽平;

22、提取特征向量模块被配置为:将物种相对丰度矩阵和表型矩阵送入编码器(encoder),编码器负责从原始数据中提取关键特征;对于物种相对丰度矩阵,编码器提取出m个特征向量g;对于表型矩阵,编码器提取出n个特征向量y;其中m代表样本数,n代表物种数;

23、致病菌配准模块被配置为:输入提取特征向量模块的特征向量;计算每个特征向量之间的相关度,构建出相关度矩阵p;

24、交互作用分析模块被配置为:输入致病菌配准模块的相关度矩阵p通过深度学习算法对特征之间的相互作用进行深入分析,构建深度学习模型;输出物种交互作用矩阵;

25、条件致病菌识别模块被配置为:基于交互作用分析模块构建的深度学习模型和物种交互作用矩阵识别出条件致病菌;

26、输出模块被配置为:输出条件致病菌识别模块的识别结果。

27、样本总丰度很低,可以定义为低于所有样本总丰度的平均数的25%。在其他实施方式中,也可以自定义占所有样本总丰度的平均数的百分比。

28、第四方面,本发明还提供了一种大队列宏基因组的条件致病菌的交互作用的识别装置,包括:输入模块、控制模块和输出模块;

29、输入模块被配置为:输入质控过滤和去除宿主后的测序数据或宏基因组下机测序数据;

30、控制模块包括:数据预处理模块、提取特征向量模块、致病菌配准模块、交互作用分析模块和条件致病菌识别模块;

31、数据预处理模块被配置为:对质控过滤和去除宿主后的宏基因组测序数据进行物种注释和相对丰度估算,将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,进行相对丰度抽平;或,对宏基因组下机测序数据进行质控过滤、去除宿主序列、物种注释和相对丰度估算,然后将所有样本的相对丰度进行合并,删除样本总丰度很低的样本,进行相对丰度抽平;

32、提取特征向量模块被配置为:将物种相对丰度矩阵和表型矩阵送入编码器(encoder),编码器负责从原始数据中提取关键特征;对于物种相对丰度矩阵,编码器提取出m个特征向量g;对于表型矩阵,编码器提取出n个特征向量y;其中m代表样本数,n代表物种数;

33、致病菌配准模块被配置为:输入提取特征向量模块的特征向量;计算每个特征向量之间的相关度,构建出相关度矩阵p;

34、交互作用分析模块被配置为:输入致病菌配准模块的相关度矩阵p通过深度学习算法对特征之间的相互作用进行深入分析,构建深度学习模型;输出物种交互作用矩阵;

35、条件致病菌识别模块被配置为:基于交互作用分析模块构建的深度学习模型和物种交互作用矩阵识别出条件致病菌;

36、条件致病菌识别模块包括:一阶条件致病菌识别模块、二阶条件致病菌识别模块和高阶条件致病菌识别模块;其中,一阶条件致病菌识别模块被配置为:通过深度学习模型识别单个物种特征,以确定哪些物种可能是条件致病菌;二阶条件致病菌识别模块被配置为:通过深度学习模型分析物种之间的关系,识别出在特定条件下可能共同作用致病的物种组合;高阶条件致病菌识别模块被配置为:分析多个物种间的交互网络结构,以识别多物种间的条件致病菌相互作用模式;

37、输出模块被配置为:输出条件致病菌识别模块的识别结果。

38、第五方面,本发明还提供了一种大队列宏基因组的条件致病菌的识别设备或大队列宏基因组的条件致病菌的交互作用的识别,设备包括处理器和存储器,存储器中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现大队列宏基因组的条件致病菌的识别方法或大队列宏基因组的条件致病菌的交互作用的识别方法。

39、第六方面,本发明还提供了一种计算机可读存储介质,存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现大队列宏基因组的条件致病菌的识别方法或大队列宏基因组的条件致病菌的交互作用的识别方法。

40、本发明具有以下有益效果:

41、本发明提供了一种能够高效处理和分析大规模宏基因组数据的深度学习方法,该方法需要具备强大的生物信息学分析能力,以便从海量的宏基因组测序数据中精确捕捉到致病菌种群的变化动态及其相互关联模式,与现有技术相比,本发明提供的条件致病菌的识别方法能更准确地识别条件致病菌的交互作用。本发明的提出为微生物在疾病发生和发展中的作用分析提供了基础。

42、本发明提出的深度学习网络采用分层(或分阶)识别策略,构建从单个物种到多个物种间的条件致病菌识别方法,通过分析多个物种间的复杂交互网络结构,来识别条件致病菌之间的相互作用模式,这有助于更全面地揭示微生物在疾病发生和发展中的作用,进而为临床诊断和治疗进行更精细的内因解读,有助于临床诊断和治疗策略的制定。


技术特征:

1.一种大队列宏基因组的条件致病菌的识别方法,其特征在于,其包括如下步骤:

2.根据权利要求1所述的大队列宏基因组的条件致病菌的识别方法,其特征在于,所述步骤s5包括:一阶条件致病菌识别;

3.根据权利要求2所述的大队列宏基因组的条件致病菌的识别方法,其特征在于,所述步骤s5还包括二阶条件致病菌识别;

4.根据权利要求1所述的大队列宏基因组的条件致病菌的识别方法,其特征在于,所述步骤s1中的物种注释和相对丰度估算是指:使用物种注释软件获得样本中的物种和丰度;

5.一种大队列宏基因组的条件致病菌的交互作用的识别方法,其特征在于,其包括如下步骤:

6.一种大队列宏基因组的条件致病菌的识别装置,其特征在于,包括:输入模块、控制模块和输出模块;

7.根据权利要求6所述的大队列宏基因组的条件致病菌的识别装置,其特征在于,所述条件致病菌识别模块包括:一阶条件致病菌识别模块,所述一阶条件致病菌识别模块被配置为:通过所述深度学习模型识别单个物种特征,以确定哪些物种可能是条件致病菌;

8.一种大队列宏基因组的条件致病菌的交互作用的识别装置,其特征在于,包括:输入模块、控制模块和输出模块;

9.一种大队列宏基因组的条件致病菌的识别设备或大队列宏基因组的条件致病菌的交互作用的识别设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-4任一所述的大队列宏基因组的条件致病菌的识别方法或权利要求5所述的大队列宏基因组的条件致病菌的交互作用的识别方法。

10.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-4任一所述的大队列宏基因组的条件致病菌的识别方法或权利要求5所述的大队列宏基因组的条件致病菌的交互作用的识别方法。


技术总结
本发明公开了大队列宏基因组的条件致病菌的识别方法、装置及存储介质,涉及深度学习和生物信息学技术领域。本发明提出的深度学习网络采用分层(或分阶)识别策略,构建从单个物种到多个物种间的条件致病菌识别方法,与现有技术相比,本发明提供的条件致病菌的识别方法能更准确地识别条件致病菌的交互作用。通过分析多个物种间的复杂交互网络结构,来识别条件致病菌之间的相互作用模式,这有助于更全面地揭示微生物在疾病发生和发展中的作用,进而为临床诊断和治疗进行更精细的内因解读,有助于临床诊断和治疗策略的制定。

技术研发人员:李为民,汪周峰,石一磊,赵颖,曹旭,胡敬良,牟立超,侯雨,陈咏虹
受保护的技术使用者:四川大学华西医院
技术研发日:
技术公布日:2024/7/25
转载请注明原文地址: https://bbs.8miu.com/read-440721.html

最新回复(0)