肠道菌群宏基因组数据库构建方法、分析方法及装置与流程

专利2022-06-29  143

本发明涉及生物
技术领域
:,尤其涉及一种肠道菌群宏基因组数据库构建方法、分析方法及装置。
背景技术
::随着人类微生物组计划(hmp)和人类肠道宏基因组学(metahit)项目的开展,人们对肠道菌群的认知逐步加深。越来越多研究表明,肠道菌群是人体的一个重要“器官”,其在肠道内保持共生或拮抗关系,共同形成一个动态平衡的微生态系统,参与调控机体生理功能。肠道菌群紊乱与宿主健康息息相关,是多种疾病的发病源头,比如自身免疫性疾病、代谢性疾病和部分恶性肿瘤。目前,通过宏基因组测序(metagenomicssequencing)对宿主粪便样品中的肠道菌群的基因组进行高通量测序,主要研究肠道菌群的种群结构、基因功能活性、肠道菌群之间的相互协作关系以及肠道菌群与宿主健康状况之间的关系。宏基因组测序研究摆脱了肠道菌群分离纯培养的限制,扩展了肠道菌群资源的利用空间,为肠道菌群的研究提供了有效工具。采用宏基因组测序方法,结合生物信息学分析,深入研究肠道菌群的组成及其功能,研究其与疾病、药物之间存在的关联,进而通过调节肠道菌群等途径为疾病防控与健康生活提供了新思路、新方法。随着二代测序技术的不断发展,至今为止,肠道菌群研究产生的海量的宏基因组数据。但是,由于科研项目的独立性,不同的项目数据有着不同的处理方法和流程,而且样本容量皆具有一定的局限性,难以广泛的评估群体的特征,进而难以发现特定的生物标志物(biomarker),更不易阐明不同的疾病状态的差异是一个症状或有更多的因果作用。目前,有一些相关的微生物数据库,但总的来说这些数据库基本上涵盖整个领域的各个方面,并没有提供全面的集中在肠道菌群宏基因组数据这方面的数据库,而且关于肠道菌群宏基因组数据没有统一规范的标准,这对肠道菌群宏基因组的数据储备与信息管理带来很大问题。因此,如何集中整合肠道菌群宏基因组数据,建立方便使用的人类肠道菌群宏基因组数据库是亟待解决的问题。技术实现要素:为了克服现有技术的不足,本发明的目的之一在于提供一种肠道菌群宏基因组数据库构建方法,其能提供方便使用的肠道菌群宏基因组数据库。本发明的目的之二在于提供一种计算机可读存储介质,其能提供方便使用的肠道菌群宏基因组数据库。本发明的目的之三在于提供一种肠道菌群宏基因组数据库构建系统,其能提供方便使用的肠道菌群宏基因组数据库。本发明的目的之四在于提供一种基于肠道菌群宏基因组数据库的分析方法,其能便于用户对肠道菌群宏基因组进行查询分析。本发明的目的之五在于提供一种计算机可读存储介质,其能便于用户对肠道菌群宏基因组进行查询分析。本发明的目的之六在于提供一种基于肠道菌群宏基因组数据库的分析系统,其能便于用户对肠道菌群宏基因组进行查询分析。本发明的目的之一采用如下技术方案实现:一种肠道菌群宏基因组数据库构建方法,包括如下步骤:获取步骤:获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;预处理步骤:对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;存储步骤:依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。进一步地,所述获取步骤具体包括以下子步骤:根据关键词以检测相关文献资源以形成对应的文献列表,所述关键词为人类肠道微生物;根据文献列表中的每篇文献结合生物医药数据库的搜索接口以获取与文献对应的公开的人类肠道微生物宏基因组的初始数据资源,所述初始数据资源包括原始sra数据和与其对应的表型数据。进一步地,所述预处理步骤具体包括以下子步骤:将不同表头的表型数据合并成具有统一表头信息的表型信息表,所述表头信息包括公共数据资源中具有代表性的表型;将从ncbi下载的sra数据转换成为所述数据存储所需的质控数据和丰度数据格式。进一步地,所述将sra数据转换成为所述数据存储所需的质控数据和丰度数据格式具体为:通过开源软件fastqdump将sra数据转换成为fastq数据;对得到的fastq数据通过开源流程biobakery进行处理,其使用内置开源软件kneaddata对所述fastq数据进行数据过滤与质量控制以获得质控后fastq数据和对应数据质控信息,所述数据过滤与质量控制包括去除质量数据、宿主数据以及去除接头;通过内置开源软件metaphlan2对所述质控后fastq数据进行物种丰度计算,所述物种包括真菌,古菌,病毒,细菌,所述物种的分类包括界、门、纲、目、科、属、种共七个不同的分类层面计算,以获得最终数据存储单元所需的“种”层面物种丰度信息,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据;通过内置开源软件humann2对所述质控后fastq数据进行功能丰度计算,所述功能丰富计算包括基因家族和代谢通路两个不同层面计算,所述基因家族是指是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,所述代谢通路是指在生物化学中,是一连串在细胞内发生的化学反应,并由酶所催化,形成使用或储存的代谢物,或引发另一个代谢途径。进一步地,所述预处理步骤还包括:对获取到的初始数据资源进行预处理以得到样本相似性信息表;所述样本相似性表通过如下步骤获取得到:获得质控后的fastq数据;通过开源软件mash对所述fastq数据进行距离计算,获得某一样本与所有样本之间的距离矩阵,根据距离矩阵中的样本距离获得某一样本最相似的前100样本,保留其相似排名以及相似距离;所述样本相似性可通过样本相似距离来评估,其计算公式如下:其中k表示kmer的k值,j表示两个序列集合之间的jaccard指数,d(k,j)表示kmer值为k,jaccard指数为j的两个序列集合的样本相似距离;所述的jaccard指数的计算公式为:其中j表示两个序列集合之间的jaccard指数,ω表示两个序列集合的保守kmer频数,n表示两个序列集合的平均集合大小。进一步地,对宏基因组数据库中各数据资源进行分页展示,所述分页包括基因数据总览页、基因数据详情页、基因数据质控信息页、基因数据物种丰度信息页、基因数据基因家族丰度信息页、基因数据代谢通路丰度信息页、样本相似性信息页。进一步地,在存储步骤之后还包括数据库更新步骤,所述数据库更新步骤包括以下子步骤:接收人类肠道菌群宏基因组的更新数据,包括:质控后的fastq数据、样本表型数据、样本物种丰度数据、样本基因家族丰度数据、样本代谢通路丰度数据、样本相似性数据;在接收所述更新数据时,对所述更新数据进行转换,所述转换表示文本数据转换为数据库中的字段值。本发明的目的之二采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之一中任意一项所述的一种肠道菌群宏基因组数据库构建方法。本发明的目的之三采用如下技术方案实现:一种肠道菌群宏基因组数据库构建系统,包括如下模块:获取模块:用于获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;预处理模块:用于对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;存储模块:用于依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。本发明的目的之四采用如下技术方案实现:一种基于肠道菌群宏基因组数据库的分析方法,包括如下步骤:接收步骤:接收用户的检索需求;匹配步骤:根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果;输出步骤:输出匹配结果。进一步地,所述宏基因数据库包括人类肠道宏基因组的表型信息表、质控信息表、物种丰度信息表、基因家族丰度信息表、代谢通路丰度信息表、物种人群分布信息表、样本相似性信息表、分析工具信息表;每个数据表各自含有多个字段,所述表型信息表与所述质控信息表、物种丰度信息表、基因家族丰度信息表、通路丰度信息表、样本相似性信息表有相同字段,且每个数据表包含依据各自包含的字段建立的索引。进一步地,所述匹配结果包括分页展示结果;所述分页展示结果包括基因数据总览页、基因数据详情页、基因数据质控信息页、基因数据物种丰度信息页、基因数据基因家族丰度信息页、基因数据代谢通路丰度信息页、样本相似性信息页。进一步地,还包括如下步骤:权限设置步骤;根据宏基因数据库设置不同的访问权限与公开权限以供用户使用;筛选步骤:构建与宏基因数据库匹配的筛选信息,用于为用户筛选符合给定要求的样本序列信息。进一步地,在所述筛选步骤中,所述筛选信息包括地区、年龄、疾病、血糖值、性别。进一步地,所述匹配结果包括数据质控、差异分析、数据可视化、预测与分类;其中,所述数据可视化具体为:反馈至用户前端的可渲染为图标的json数据和生成图表的路径数据。本发明的目的之五采用如下技术方案实现:一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如本发明目的之四中任意一项所述的一种基于肠道菌群宏基因组数据库的分析方法。本发明的目的之六采用如下技术方案实现:一种基于肠道菌群宏基因组数据库的分析系统,包括如下模块:接收模块:用于接收用户的检索需求;匹配模块:用于根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果;输出模块:用于输出匹配结果。相比现有技术,本发明的有益效果在于:本发明的肠道菌群宏基因组数据库构建方法对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、标准规范,利于信息传递和数据库的管理以及数据库数据的交互。附图说明图1为实施例一的肠道菌群宏基因组数据库构建方法的流程图;图2为实施例一的宏基因丰度数据展示数据库结构er图;图3为实施例一的人类肠道菌群宏基因丰度数据数据库构建和更新流程图;图4为实施例一的人类肠道菌群宏基因数据预处理流程图;图5为实施例二的人类肠道菌群宏基因组数据资源的数据库的构建装置示意图;图6为实施例二的人类肠道菌群宏基因丰度数据数据库模块示意图;图7为实施例四的基于肠道菌群宏基因组数据库的分析方法的流程示意图。具体实施方式下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。实施例一名词解释:sra2hmga是由perl编写的数据库数据预处理流程的打包文件,内含标准的输入文件夹input、输出文件夹output、运行流程的文件夹(bin)、流程说明文件(readme)等。phenotype.xls是标准化后的样本表型文件,对于样本不存在的表型信息统一按照na处理。kneaddata_read_count_table.tsv是由开源软件kneaddata分析输入的fastq文件后再经由biobakery流程处理后得到的数据过滤与质控信息。merged_abundance_table_species.txt是由开源软件metaphlan2分析输入的fastq文件后,所得到的物种丰度信息文件,具体的,该文件属于“种”层面的物种丰度信息,且所述物种丰度信息均为根据样本归一化后的相对丰度。genefamilies_relab_filter.tsv是由开源软件humann2分析输入的fastq文件后,所得到的基因家族丰度信息文件,具体的,该文件中的基因家族来源于uniprot数据库,且所述基因家族丰度信息均为根据样本归一化后的相对丰度。pathabundance_relab_filter.tsv是由开源软件humann2分析输入的fastq文件后,所得到的代谢通路丰度信息文件,具体的,该文件中的代谢通路来源于metacyc数据库,且所述代谢通路度信息均为根据样本归一化后的相对丰度。如图1所示,本实施例提供了一种肠道菌群宏基因组数据库构建方法,包括如下步骤:s101:获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;微生物宏基因组数据:将每个样品进行数据预处理,从而得到微生物物种、通路、基因家族的相对丰度的变量,这些变量构成了数据库中的微生物数据部分;表型数据:将与肠道相关的人体健康状态直接收录成宿主表型数据。在本实施例中,更为优选的,所述步骤s101具体包括以下子步骤:根据关键词以检测相关文献资源以形成对应的文献列表,所述关键词为人类肠道微生物;根据文献列表中的每篇文献结合生物医药数据库的搜索接口以获取与文献对应的公开的人类肠道微生物宏基因组的初始数据资源,所述初始数据资源包括原始sra数据和与其对应的表型数据。s102:对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;在本发明的具体实施方式中,共收集了上千例已发表的人类肠道菌群宏基因样本。这些样本的基本数据进行清洗与整理,包括表型数据的标准化、原始数据的过滤与质控以及原始数据的预处理。数据库的数据预处理流程可以通过多种开源软件对原始数据进行相应分析,能够有效的获取最终数据库录入所需的标准化格式的文件,为数据可持续定期更新提供可靠的信息来源。宏基因丰度数据展示数据库结构er图如图2所示。如图3和图4所示,步骤s102具体包括以下子步骤:将不同表头的表型数据合并成具有统一表头信息的表型信息表,所述表头信息包括公共数据资源中具有代表性的表型;将所下载得到的样本表型信息根据所述的固定表头进行整理,并对每一个样本的表型信息根据所述表头进行数据标准化,其中,不具有的表型统一使用“na”表示。将从ncbi下载的sra数据转换成为所述数据存储所需的质控数据和丰度数据格式。在获取所述的人类肠道菌群宏基因组数据资源后,根据biobakery流程所需数据格式,有针对性的采用fastq-dump对数据资源中的每一份样本存在的sra数据转化为fastq格式文件,以方便数据分析与入库。具体的也即是以人类肠道微生物为搜索词,检索相关文献资源形成人类肠道微生物相关的文献列表,然后根据文献列表,对其中的每一篇文献,结合生物医学数据库的搜索接口获取与该文献相对应的公开的人类肠道微生物宏基因组数据资源,其中包含样本的原始sra数据与相对应的表型数据。本实施例中,所述将sra数据转换成为所述数据存储所需的质控数据和丰度数据格式具体为:通过开源软件fastqdump将sra数据转换成为fastq数据;对得到的fastq数据通过开源流程biobakery进行处理,其使用内置开源软件kneaddata对所述fastq数据进行数据过滤与质量控制以获得质控后fastq数据和对应数据质控信息,所述数据过滤与质量控制包括去除质量数据、宿主数据以及去除接头;并对剩余数据进行整体上的统计,如过滤前数据量,过滤后数据量等。获得的质控后的fastq数据可用于后续分析。通过内置开源软件metaphlan2对所述质控后fastq数据进行物种丰度计算,所述物种包括真菌,古菌,病毒,细菌,所述物种的分类包括界、门、纲、目、科、属、种共七个不同的分类层面计算,以获得最终数据存储单元所需的“种”层面物种丰度信息,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据;此处选取分辨率较高的“种”层面的物种丰度数据作为后续数据库导入的数据。通过内置开源软件humann2对所述质控后fastq数据进行功能丰度计算,所述功能丰富计算包括基因家族和代谢通路两个不同层面计算,所述基因家族是指是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,所述代谢通路是指在生物化学中,是一连串在细胞内发生的化学反应,并由酶所催化,形成使用或储存的代谢物,或引发另一个代谢途径。获得样本数据相关的基因家族以及代谢通路,并根据内置算法,分别计算获得基因家族丰度信息与代谢通路丰度信息,所述两种丰度信息作为后续数据库导入的数据。所述预处理步骤还包括:对获取到的初始数据资源进行预处理以得到样本相似性信息表;所述样本相似性表通过如下步骤获取得到:获得质控后的fastq数据;通过开源软件mash对所述fastq数据进行距离计算,获得某一样本与所有样本之间的距离矩阵,根据距离矩阵中的样本距离获得某一样本最相似的前100样本,保留其相似排名以及相似距离;所述样本相似性可通过样本相似距离来评估,其计算公式如下:其中k表示kmer的k值,j表示两个序列集合之间的jaccard指数,d(k,j)表示kmer值为k,jaccard指数为j的两个序列集合的样本相似距离;所述的jaccard指数的计算公式为:其中j表示两个序列集合之间的jaccard指数,ω表示两个序列集合的保守kmer频数,n表示两个序列集合的平均集合大小。上述的样本相似性信息表表示不同样本之间的相似程度,所述的相似程度计算包括:获得质控后的fastq数据,首先使用开源软件mash对所述数据进行距离计算,获得某一样本与所有样本之间的距离矩阵,根据距离矩阵中的样本距离获得某一样本最相似的前100样本,保留其相似排名以及相似距离,所述相似距离计算如权利要求9所述。所述相似排名以及详细距离信息被转换为字段值存储在数据库存储单元,该处的转换具体包括:将某一样本的相似距离文件进行数据库导入,所述距离文件包含四列,第一列为该样本的样本编号,第二列为与该样本相似的样本的样本编号,第三列为该样本与相似样本的相似距离,第四列为该样本与相似样本的距离排序;所述距离文件四列分别对应样本相似性信息表中的四个字段,通过字段对应关系,根据所述的自动更新数据库数据的方法,将每一字段对应的字段值自动导入进入数据库。上述的样本相似性距离中包含的样本来源分为内部存储数据库数据与公共存储数据库数据。样本相似性信息表提供样本编号字段可通过数据库存储单元与样本表型表关联,同时获得相似样本的多种相关表型信息,通过上述分页中的样本相似性信息页以表格的形式进行展示,用户可进行访问查询。当数据输入单元收到用户的查询需求时,利用访问控制列表对所述用户查询需求信息进行检查以控制访问,以进一步对进入该数据库系统的权限进行管理,所述控制访问表示仅具有特定权限的用户可以访问内部存储数据库中的数据,而公共存储数据库中的数据所有权限的用户均可访问。更为优选的,所述表型信息整理为整合并标准化所述样本表型信息表中的表头信息,所述整合与标准化表示根据所述表头信息,将不同表头的表型信息表合并成具有统一表头的表型信息表。所述表头信息包括公共数据资源中具有代表性的表型。根据本实施例的一个具体实施方式,所述质控、丰度数据获取为将从ncbi下载的sra数据转换成为所述数据存储单元所需的质控数据和丰度数据格式。所述转换首先是通过开源软件fastqdump将sra数据转换成为fastq数据;所述fastq数据通过开源流程biobakery进行处理,其使用内置开源软件kneaddata对所述fastq数据进行数据过滤与质量控制,包括去除低质量数据,宿主数据以及去除接头,以获得质控后fastq数据和对应数据质控信息;然后通过内置开源软件metaphlan2对所述质控后fastq数据进行物种丰度计算,所述物种包括真菌,古菌,病毒,细菌,所述物种的分类包括界、门、纲、目、科、属、种共七个不同的分类层面计算,以获得最终数据存储单元所需的“种”层面物种丰度信息,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据;最后通过内置开源软件humann2对所述质控后fastq数据进行功能丰度计算,包括基因家族和代谢通路两个不同层面计算,所述基因家族是指是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物,同一家族基因可以紧密排列在一起,形成一个基因簇,但多数时候,它们是分散在同一染色体的不同位置,或者存在于不同的染色体上的,各自具有不同的表达调控模式,所述代谢通路是指在生物化学中,是一连串在细胞内发生的化学反应,并由酶所催化,形成使用或储存的代谢物,或引发另一个代谢途径,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据。s103:依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。s104:接收人类肠道菌群宏基因组的更新数据,包括:质控后的fastq数据、样本表型数据、样本物种丰度数据、样本基因家族丰度数据、样本代谢通路丰度数据、样本相似性数据;接受人类肠道菌群宏基因组相关的更新数据;将所述更新数据辨识为所述初始数据的副本;修改或插入所述数据文件中的记录,以便包含所述更新数据。该自动更新方法包括:接收人类肠道菌群宏基因组的更新数据,包括:质控后的fastq数据、样本表型数据、样本物种丰度数据、样本基因家族丰度数据、样本代谢通路丰度数据、样本相似性数据。在本发明的一个具体实施方式中,在接收所述更新数据时,对所述更新数据进行转换,所述转换表示文本数据转换为数据库中的字段值,具体是通过自动更新流程脚本实现,所述自动更新流程脚本首先获取所述的更新数据,根据所给数据类型及对应参数定向分解所述数据,然后载入到内存中,同时连接后台数据库,将内存中的更新数据自动导入到后台数据库中具体的表中特定的字段。该数据库数据自动更新方法,可将预处理完成的数据经过自动化流程定期加入到数据库中,使数据库内容不断补充修正。在接收所述更新数据时,对所述更新数据进行转换,所述转换表示文本数据转换为数据库中的字段值。对宏基因组数据库中各数据资源进行分页展示,所述分页包括基因数据总览页、基因数据详情页、基因数据质控信息页、基因数据物种丰度信息页、基因数据基因家族丰度信息页、基因数据代谢通路丰度信息页、样本相似性信息页。根据所述基因数据总览页可展示人类肠道菌群样本的表型信息,包括可供用户进行数据筛选的几类表型:地区、年龄、疾病、血糖值、性别;所述数据筛选代表根据用户兴趣展示特定表型组合的数据集。所述数据下载是指根据上述分页,将用户下载需求通过数据接收单元传递给处理器,处理器对用户需求进行控制访问后,调用数据存储单元种特定表的数据,所述数据包括物种丰度信息,代谢通路丰度信息,此处的丰度信息实际上是对应表中的一个字段值,其有对应的表头,处理器根据用户下载需求,对这些表中的字段值进行过滤,获取过滤后的字段值,包括:样本编号、物种名代谢通路名、对应丰度值,将所获取的数据集进行数据合并,所述数据合并是指将已获得的字段值拼接组成一个稀疏的数值矩阵,所述矩阵的第一行为选中数据集的样本编号,第一列为该数据集中所有样本对应的物种或代谢通路的并集,其中数值代表丰度数据,该丰度数据对应列的第一行即是该丰度数据对应的样本编号,该丰度数据对应行的第一列即是该丰度数据对应的物种名或代谢通路名,上述丰度数据代表某一个样本所拥有的某物种的丰度值;所述丰度矩阵是将不同样本的物种或代谢通路丰度合并,由于取并集,所以导致生成矩阵中的数值产生大量0值,获得的矩阵即为稀疏矩阵。所述丰度矩阵通过处理器被转换为文件格式,包括:csv、xls、tsv,数据输出单元获得处理器所生成的文件,并将该文件通过前端组件输出到用户,完成用户下载需求。人类肠道菌群宏基因组数据库是数据储备与信息管理最有效的手段,是集中、便捷、有效地研究人类肠道菌群重要信息的重要方法,对探索肠道菌群与相关疾病的发生、发展及治疗之间关联起到至关重要作用。基于宏基因组数据库的使用需要设计宏基因组数据库,构造最优化的数据库模式,建立数据库和分析平台以及可视化平台,满足数据库数据的交互,有效的存储与下载数据,实现数据库信息的挖掘、更新以及展现机制,最终实现用户的使用和处理需求。实施例二如图5和图6所示,本实施例提供了一种肠道菌群宏基因组数据库构建系统,包括如下模块:获取模块:用于获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;预处理模块:用于对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;存储模块:用于依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。数据库构建方法包括构建内部存储数据库与公共存储数据库、构建数据库查询模块、构建数据库数据交互系统和构建数据库数据分析系统。其中数据交互系统包括数据访问与检索模块、数据访问与下载模块、数据访问与共享模块、数据可视化展示模块、样本相似性检索模块和肠道健康评估与疾病预测模块;分析系统构建方法则包括构建检索模块、构建筛选模块、构建数据定向分析模块和构建可视化展示模块。本发明还提供数据库装置,用于海量肠道菌群宏基因组数据的存储、下载、展示、查询及分析,为科学研究提供强有力的数据基础与分析工具,更集中、便捷地研究人类肠道菌群与人类若干疾病之间的关联,有助于人类若干疾病的预防与干预,对探索相关疾病的发生、发展及治疗起到至关重要作用,可广泛应用于肠道菌群信息分析与医学领域。在本实施例中,内部存储数据库的构建步骤包括:构建第一存储装置,用于存储所述未公开的个体相关肠道菌群宏基因组数据资源;构建第一上传模块,用于将未公开的个体相关肠道菌群宏基因组数据资源载入所述第一存储装置中。在本实施例中,公共存储数据库的构建步骤包括:构建第二存储装置,用于存储所述公开的人类肠道菌群的相关宏基因组数据资源;构建第二上传模块,用于将公开的人类肠道菌群的相关宏基因组数据资源预处理并且载入所述的第二存储装置中。本实施例提供一种数据库系统,该数据库系统包含的数据库能够提供人类肠道菌群宏基因组数据资源,该系统包括:应用程序接口,用于接收用户检索需求及反馈结果;数据库,用于对来自程序接口的用户检索、下载及分析的需求进行匹配,将匹配结果输出至应用程序接口,所述数据库是利用本发明一方面的数据库构建方法构建获得的。在本发明的一个具体实施方式中,如所示,在从应用程序接口接收用户需求后,利用访问控制列表对所述用户检索需求信息进行检查以控制访问,以进一步管理该数据库系统。在本发明的一个具体实施方式中,在构建该数据库系统时,将该系统构建分为三个模块来构建和关联,三个模块分别为后台数据库,权限管理及应用程序接口(api),权限管理是通过访问控制列表(acl)实现的,用户通过api提供数据需求,由acl检查接口,该接口一旦激活以后,则针对进出应用程序接口的每一个数据特征进行匹配,决定该需求被允许通过还是拒绝,从而达到访问控制的目的,最终api从后台数据库服务中查询数据并反馈给用户。这边,所说的后台数据库为根据本发明一个实施方式的数据库构建方法获得的。利用本实施例的数据库构建方法获得的数据库和数据库分析系统,能够提供海量的人类肠道菌群宏基因组数据资源,而且数据库数据导入前期针对性的对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、标准规范,利于信息传递和数据库的管理以及数据库数据的交互,能够用于获得通过各种方式得到的人类肠道菌群宏基因组数据、多种功能的人类肠道菌群宏基因组数据分析结果以及查获微生物与药物疾病的关系信息。利用本发明的数据库更新方法,能够自动将后续收集到的各种人类肠道菌群宏基因组数据以及文献资料加入到以构建的数据库中,使数据库的数据得到不断或定期补充修正。实施例三实施例三公开了一种计算机可读存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的一种肠道菌群宏基因组数据库构建方法。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。实施例四如图7所示,本实施例提供了一种基于肠道菌群宏基因组数据库的分析方法,包括如下步骤:s201:接收用户的检索需求;s202:根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果;所述宏基因数据库包括人类肠道宏基因组的表型信息表、质控信息表、物种丰度信息表、基因家族丰度信息表、代谢通路丰度信息表、物种人群分布信息表、样本相似性信息表、分析工具信息表;每个数据表各自含有多个字段,所述表型信息表与所述质控信息表、物种丰度信息表、基因家族丰度信息表、通路丰度信息表、样本相似性信息表有相同字段,且每个数据表包含依据各自包含的字段建立的索引。所述的数据表的字段为数据表包含的列,每列即为数据表的一个字段;构建数据库查询模块,所述数据库查询模块,包括内部存储数据库查询模块与公共存储数据库查询模块,所述的内部存储数据库查询模块用于从内部存储数据库查询内部存储的宏基因组数据资源,所述的公共存储数据库查询模块用于从公共存储数据库查询公共存储的宏基因组数据资源,所述数据库查询模块在从应用程序接口接收用户检索需求后,利用访问控制列表对所述用户检索需求信息进行检查以控制访问,以进一步对进入该数据库系统的权限进行管理,所说的查询通过所述的索引进行,所说的索引实际上也是数据库中一种特殊类型的表,其中含有关键字段的值和指向实际记录位置的指针,这些值和指针按照特定顺序存储,从而可以以较快的速度查询到所需要的数据记录;s203:输出匹配结果。所述数据交互系统在从应用程序接口接收用户下载需求后,利用访问控制列表对所述用户下载需求信息进行检查以控制访问,以进一步对进入该数据库系统的权限进行管理,所述的数据资源访问实际上是通过所述数据查询模块对内部或外部数据资源进行过滤筛选,获得特定的人类肠道菌群宏基因组数据集。所述的数据资源下载通过所述的数据资源访问获取确定的人类肠道菌群宏基因组数据资源,进而通过所述数据输出单元向用户输出选定且过滤筛选后的数据集;构建数据库数据分析系统,所述的数据库数据分析系统从应用程序接口处获得用户相应分析需求,利用访问控制列表对所述用户分析需求信息进行检查以控制访问,以进一步对进入该数据库系统的权限进行管理有同时用于定向分析数据库存储的宏基因组数据资源。所述数据分析,包括公共存储数据库的宏基因组数据资源预测个体肠道菌群宏基因组数据的致病风险,给出肠道菌群状态评估。更为优选地,所述匹配结果包括分页展示结果;所述分页展示结果包括基因数据总览页、基因数据详情页、基因数据质控信息页、基因数据物种丰度信息页、基因数据基因家族丰度信息页、基因数据代谢通路丰度信息页、样本相似性信息页。所述匹配结果包括数据质控、差异分析、数据可视化、预测与分类;其中,所述数据可视化具体为:反馈至用户前端的可渲染为图标的json数据和生成图表的路径数据。在用户进行数据查询、下载与共享时,上述的各种数据资源进行分页展示,所述分页包括基因数据总览页、基因数据详情页、基因数据质控信息页、基因数据物种丰度信息页、基因数据基因家族丰度信息页、基因数据代谢通路丰度信息页、样本相似性信息页。根据所述基因数据总览页可展示人类肠道菌群样本的表型信息,包括可供用户进行数据筛选的几类表型:地区、年龄、疾病、血糖值、性别;所述数据筛选代表根据用户兴趣展示特定表型组合的数据集。所述数据下载是指根据上述分页,将用户下载需求通过数据接收单元传递给处理器,处理器对用户需求进行控制访问后,调用数据存储单元种特定表的数据,所述数据包括物种丰度信息,代谢通路丰度信息,此处的丰度信息实际上是对应表中的一个字段值,其有对应的表头,处理器根据用户下载需求,对这些表中的字段值进行过滤,获取过滤后的字段值,包括:样本编号、物种名代谢通路名、对应丰度值,将所获取的数据集进行数据合并,所述数据合并是指将已获得的字段值拼接组成一个稀疏的数值矩阵,所述矩阵的第一行为选中数据集的样本编号,第一列为该数据集中所有样本对应的物种或代谢通路的并集,其中数值代表丰度数据,该丰度数据对应列的第一行即是该丰度数据对应的样本编号,该丰度数据对应行的第一列即是该丰度数据对应的物种名或代谢通路名,上述丰度数据代表某一个样本所拥有的某物种的丰度值;所述丰度矩阵是将不同样本的物种或代谢通路丰度合并,由于取并集,所以导致生成矩阵中的数值产生大量0值,获得的矩阵即为稀疏矩阵。所述丰度矩阵通过处理器被转换为文件格式,包括:csv、xls、tsv,数据输出单元获得处理器所生成的文件,并将该文件通过前端组件输出到用户,完成用户下载需求。本发明的这一实施方式的数据库分析系统将宏基因组数据资源与生物信息统计分析方法紧密连接起来,将宏基因组数据个性化分析由传统的线下编程推进到线上一键分析的解决方案中,给生物科学研究人员及各类使用者提供更加方便与准确的分析方式。本发明的数据库分析系统设计合理,分析种类全面,适用于各方面分析需求。数据库分析系统的架构设计包含了生信分析的重要参数信息,包括:分析所必需的基本参数信息以及非必需的参数信息。其中,基本参数信息包括脚本所需参数和输入数据,数据形式主要为文本文件格式。这些参数信息通过数据输入单元以参数列表的形式进入处理器,处理器根据参数列表调用后台对应脚本进行自动化分析,并对该分析任务进行监控。该过程中,分析脚本根据输入参数信息分析输入文件,分析种类广泛,包括:数据质控、差异分析、数据可视化、预测与分类。待分析任务结束后,处理器处理脚本返回信息,并将这部分数据返回给数据输出单元,数据输出单元将数据反馈给前端界面,前端界面渲染数据成为对应图表,最终完成用户的分析需求。其中,分析脚本返回信息主要包含两种类型:可渲染为图表的json数据、生成图表的路径信息。所述的json数据,其包含的内容主要包括:分析任务编号、分析任务备注信息、分析脚本返回信息,分析脚本状态信息等。还包括权限设置步骤;根据宏基因数据库设置不同的访问权限与公开权限以供用户使用;筛选步骤:构建与宏基因数据库匹配的筛选信息,用于为用户筛选符合给定要求的样本序列信息。所述筛选信息包括地区、年龄、疾病、血糖值、性别。实施例五本实施例提供了一种基于肠道菌群宏基因组数据库的分析系统,包括如下模块:接收模块:用于接收用户的检索需求;匹配模块:用于根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果;输出模块:用于输出匹配结果。在本实施例中,所述宏基因数据库也即是构建内部存储数据库与公共存储数据库,所述内部存储数据库用于上传和存储未公开的个体相关肠道菌群宏基因组数据资源,所述的公共存储数据库用于上传与存储公开的人类肠道菌群的相关的宏基因组数据资源;构建数据库查询模块,所述数据库查询模块,包括内部存储数据库查询模块与公共存储数据库查询模块,所述的内部存储数据库查询模块用于从内部存储数据库查询内部存储数据库的宏基因组数据资源,所述的公共存储数据库查询模块用于从公共存储数据库查询公共存储数据库的宏基因组数据资源,同时用于从所述内部存储数据库查询公共存储数据库的宏基因组数据资源;构建数据库数据交互系统,所述数据库数据交互系统用于数据库存储的数据资源的访问与下载;构建数据库数据分析系统,所述的数据库数据分析系统用于定向分析数据库存储的宏基因组数据资源。在本实施例中,所述的构建数据库数据交互系统的步骤包括:数据访问与检索模块,用于权限访问与接收数据检索请求,所述检索请求包括检索关键字,根据所述检索关键字在人类肠道菌群宏基因组数据存储数据库数据交互系统进行宽泛性检索,从而获取相对应的宏基因组数据资源;数据访问与下载模块,用于权限访问与数据库存储的宏基因组数据资源的下载;数据访问与共享模块,用于权限访问与共享未公开的个体相关肠道菌群宏基因组数据资源;数据可视化展示模块,用于对获得的宏基因组数据资源进行统计与分析,得到相关分析结果的图形化展示结果;样本相似性检索模块,用于分析包括公共存储数据库的宏基因组数据资源与内部存储数据库的共享的宏基因组数据资源之间的样本相似性评估;肠道健康评估与疾病预测模块,用于根据公共存储数据库的宏基因组数据资源预测个体肠道菌群宏基因组数据的致病风险,给出肠道菌群状态评估。本实施例还包括:数据上传模块,用于上传个体相关肠道菌群宏基因组数据资源,所述的宏基因组数据资源包括微生物宏基因组数据和宿主表型数据,以及微生物采集的时间与空间信息;数据访问模块,用于设定访问权限与公开权限;数据共享模块,用于在同等权限下共享所述上传的个体相关肠道菌群宏基因组数据资源。实施例六实施例六公开了一种计算机可读存储介质,该存储介质用于存储程序,并且该程序被处理器执行时,实现实施例一的一种基于肠道菌群宏基因组数据库的分析方法。当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的方法中的相关操作。通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台电子设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。值得注意的是,上述实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。上述实施方式仅为本发明的优选实施方式,不能以此来限定本发明保护的范围,本领域的技术人员在本发明的基础上所做的任何非实质性的变化及替换均属于本发明所要求保护的范围。当前第1页1 2 3 当前第1页1 2 3 
技术特征:

1.一种肠道菌群宏基因组数据库构建方法,其特征在于,包括如下步骤:

获取步骤:获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;

预处理步骤:对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;

存储步骤:依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。

2.如权利要求1所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述获取步骤具体包括以下子步骤:

根据关键词以检测相关文献资源以形成对应的文献列表,所述关键词为人类肠道微生物;

根据文献列表中的每篇文献结合生物医药数据库的搜索接口以获取与文献对应的公开的人类肠道微生物宏基因组的初始数据资源,所述初始数据资源包括原始sra数据和与其对应的表型数据。

根据预处理步骤处理初始数据资源,所述的预处理步骤包括将不同表头的表型数据合并成具有统一表头信息的表型信息表,并将从ncbi下载的sra数据转换成为所述数据存储所需的质控数据和丰度数据格式。

3.如权利要求2所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述将sra数据转换成为所述数据存储所需的质控数据和丰度数据格式具体为:

通过开源软件fastqdump将sra数据转换成为fastq数据;

对得到的fastq数据通过开源流程biobakery进行处理,其使用内置开源软件kneaddata对所述fastq数据进行数据过滤与质量控制以获得质控后fastq数据和对应数据质控信息,所述数据过滤与质量控制包括去除质量数据、宿主数据以及去除接头;

通过内置开源软件metaphlan2对所述质控后fastq数据进行物种丰度计算,所述物种包括真菌,古菌,病毒,细菌,所述物种的分类包括界、门、纲、目、科、属、种共七个不同的分类层面计算,以获得最终数据存储单元所需的“种”层面物种丰度信息,所述的丰度信息是指根据样本所包含物种进行了归一化的相对丰度数据;

通过内置开源软件humann2对所述质控后fastq数据进行功能丰度计算,所述功能丰富计算包括基因家族和代谢通路两个不同层面计算,所述基因家族是指是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,所述代谢通路是指在生物化学中,是一连串在细胞内发生的化学反应,并由酶所催化,形成使用或储存的代谢物,或引发另一个代谢途径。

4.如权利要求2所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,所述预处理步骤还包括:对获取到的初始数据资源进行预处理以得到样本相似性信息表;所述样本相似性表通过如下步骤获取得到:

获得质控后的fastq数据;

通过开源软件mash对所述fastq数据进行距离计算,获得某一样本与所有样本之间的距离矩阵,根据距离矩阵中的样本距离获得某一样本最相似的前100样本,保留其相似排名以及相似距离;

所述样本相似性可通过样本相似距离来评估,其计算公式如下:

其中k表示kmer的k值,j表示两个序列集合之间的jaccard指数,d(k,j)表示kmer值为k,jaccard指数为j的两个序列集合的样本相似距离;

所述的jaccard指数的计算公式为:

其中j表示两个序列集合之间的jaccard指数,ω表示两个序列集合的保守kmer频数,n表示两个序列集合的平均集合大小。

5.如权利要求1所述的一种肠道菌群宏基因组数据库构建方法,其特征在于,在存储步骤之后还包括数据库更新步骤,所述数据库更新步骤包括以下子步骤:

接收人类肠道菌群宏基因组的更新数据,包括:质控后的fastq数据、样本表型数据、样本物种丰度数据、样本基因家族丰度数据、样本代谢通路丰度数据、样本相似性数据;

在接收所述更新数据时,对所述更新数据进行转换,所述转换表示文本数据转换为数据库中的字段值。

6.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-5任意一项所述的一种肠道菌群宏基因组数据库构建方法。

7.一种肠道菌群宏基因组数据库构建系统,其特征在于,包括如下模块:

获取模块:用于获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;

预处理模块:用于对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;

存储模块:用于依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。

8.一种基于肠道菌群宏基因组数据库的分析方法,其特征在于,包括如下步骤:

接收步骤:接收用户的检索需求;

匹配步骤:根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果,所述宏基因数据库包括人类肠道宏基因组的表型信息表、质控信息表、物种丰度信息表、基因家族丰度信息表、代谢通路丰度信息表、物种人群分布信息表、样本相似性信息表、分析工具信息表;每个数据表各自含有多个字段,所述表型信息表与所述质控信息表、物种丰度信息表、基因家族丰度信息表、通路丰度信息表、样本相似性信息表有相同字段,且每个数据表包含依据各自包含的字段建立的索引。

输出步骤:输出匹配结果,所述匹配结果包括数据质控、差异分析、数据可视化、预测与分类;其中,所述数据可视化具体为:反馈至用户前端的可渲染为图标的json数据和生成图表的路径数据。

权限设置步骤;根据宏基因数据库设置不同的访问权限与公开权限以供用户使用;

筛选步骤:构建与宏基因数据库匹配的筛选信息,用于为用户筛选符合给定要求的样本序列信息,所述筛选信息包括地区、年龄、疾病、血糖值、性别。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求8中所述的一种基于肠道菌群宏基因组数据库的分析方法。

10.一种基于肠道菌群宏基因组数据库的分析系统,其特征在于,包括如下模块:

接收模块:用于接收用户的检索需求;

匹配模块:用于根据用户的检索需求与构建的宏基因数据库进行匹配以得到检索的匹配结果;

输出模块:用于输出匹配结果。

技术总结
本发明公开了一种肠道菌群宏基因组数据库构建方法,包括如下步骤:获取人类肠道菌群宏基因组的初始数据资源,所述初始数据资源包括微生物宏基因组数据和宿主表型数据;对获取到的初始数据资源进行预处理,所述预处理包括表型信息整理和质控、丰度数据获取;依照设置的录入格式将处理后的数据进行存储以得到宏基因数据库。本发明还公开了一种基于肠道菌群宏基因组数据库的分析方法、存储介质和系统。本发明的肠道菌群宏基因组数据库构建方法对原始数据进行筛选及统一标准处理,使得所得的数据库信息准确可靠、标准规范,利于信息传递和数据库的管理以及数据库数据的交互。

技术研发人员:许冬瑾;周勇;罗文;廖和睿
受保护的技术使用者:康美华大基因技术有限公司
技术研发日:2019.12.03
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-35097.html

最新回复(0)