本发明涉及一种基因组合确定方法和装置,属于大数据处理领域。
背景技术:
::随着高通量基因分型技术的飞速发展,大样本候选基因研究和全基因组关联研究(genome-wideassociationstudy,gwas)在药物基因组学中的应用日益广泛。然而gwas往往仅对一个基因位点进行分析,忽略了基因组合的作用。有研究指出,基因-基因交互作用可能是影响药物效应的又一重要遗传因素。目前,对基因-基因交互作用的研究往往从已知分子机制出发寻找基因位点,可能忽略潜在的相关位点;另外,现有的基因-基因交互作用研究常通过降维方法实现,从而导致大量潜在有效信息的删失。因此,综合考虑基因位点的相关信息并对其进行运算,并进一步对基因组合进行确定的方法是发明人急需解决的重点。技术实现要素:针对现有技术存在的上述问题,本发明的目的是提供一种基因组合确定方法和装置。为实现上述发明目的,本发明采用的技术方案如下:一种基因组合确定方法,所述方法包括:确定符合预设临床作用的表型;基于所确定的表型进行全基因组关联分析得到相关基因位点;对所述相关基因位点进行组合得到多种基因组合;根据预设算法得到所述多种基因组合对应的临床意义参考指标;选取并输出所述临床意义参考指标符合要求的基因组合。在其中一个实施例中,所述方法还包括:当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数;选取并输出所述变异系数最小的基因组合。在其中一个实施例中,所述根据预设算法得到所述多种基因组合对应的临床意义参考指标,包括:计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。在其中一个实施例中,所述离散程度包括连续变量离散程度和分类变量离散程度,所述连续变量离散程度的计算公式为:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;所述分类变量离散程度的计算公式为:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。在其中一个实施例中,所述变异值的计算公式为:其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。在其中一个实施例中,所述选取并输出临床意义参考指标符合要求的基因组合,包括:选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。在其中一个实施例中,所述对所述相关基因位点进行组合得到多种基因组合,包括:根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;获取每个相关基因位点组合中每个相关基因位点的基因型;根据所述基因型生成基因组合。一种基因组合确定装置,所述装置包括:表型确定模块,用于确定符合华法林临床作用的表型;相关基因位点确定模块,用于基于所确定的表型进行全基因组关联分析得到相关基因点位;组合模块,用于对所述相关基因点位进行组合得到多种基因组合;临床意义参考指标计算模块,用于根据预设算法得到所述多种基因组合对应的临床意义参考指标;确定模块,用于选取并输出临床意义参考指标符合要求的基因组合。与现有技术相比,本发明提供的基因组合确定方法和装置具备以下优势:首先根据华法林的临床作用的表型进行全基因关联分析得到相关基因点位,然后对相关基因点位进行组合得到多种基因组合,从而可以计算多种基因组合对应的表型的临床意义参考指标,根据该临床意义参考指标来选择符合要求的基因组合,从而在选取出基因组合后,可以纳入临床因素,进行统计分析,即在得到最终的基因组合后,将该组合作为一个变量,加入临床因素等多个变量,进行多因素分析。附图说明图1为一个实施例中基因组合确定方法的应用场景图;图2为一个实施例中基因组合确定方法的流程示意图;图3为一个实施例中基因组合确定装置的结构框图;图4为一个实施例中计算机设备的内部结构图;图5为一个实施例中的基因组合的示意图具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。本申请提供的基因组合确定方法,可以应用于如图1所示的应用环境中。因此,本申请拟利用超级计算机工具,对全基因组交互作用研究进行方法探索,采用全新的聚类方法寻找与华法林用药相关的多基因组合标志物,以期实现snp数据的深度分析,弥补经典gwas的不足,解决计算机领域传统统计学方法及机器学习方法在处理高维小样本数据时遇到的“维度灾难”“组合爆炸”等挑战性问题,为前瞻性随机对照的临床研究的个体化给药提供更有效的分析方法。其中,服务器102通过网络与数据库104通过网络进行通信。其中服务器102可以从数据库104中提取所确定的符合华法林临床作用的表型,并根据所确定的表型进行全基因组关联分析得到相关基因位点,然后对相关基因位点进行组合得到多种基因组合,最后根据预设算法得到多种基因组合对应的临床意义参考指标,从而可以选取临床意义参考指标符合要求的基因组合,从而在选取出基因组合后,可以纳入临床因素,进行统计分析,即在得到最终的基因组合后,将该组合作为一个变量,加入临床因素等多个变量,进行多因素分析。其中,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一个实施例中,如图2所示,提供了一种基因组合确定方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:s202:确定符合预设临床作用的表型。具体地,其中该表型的确定可以是根据既往研究、相关文献和临床情况确定,例如服务器可以对既往研究、相关文献和临床情况的书面资料进行文本识别得到有关于表型的文本,然后统计该关于表型的文本的频率,获取频率大于预设频率的表型,此外还可以根据相关文献的权威性来确定,例如选取权威性排名靠前的,例如top10的文献中所涉及的表型等。此处的预设临床作用的表型可以是指华法林临床作用的表型,其涉及的表型可以包括:inr/con(华法林的抗凝强度/华法林血药浓度),con/dose(华法林血药浓度/每剂量),%ttr(华法林的抗凝强度)以及stabledose(稳定剂量)。s204:基于所确定的表型进行全基因组关联分析得到相关基因位点。具体地,服务器通过gwas分析得到相关基因位点,例如具体分析方法可以包括:在第一阶段用覆盖全基因组范围的snp进行对照分析,统计分析后筛选出较少数量的阳性snp进行第二阶段或随后的多阶段中采用更大样本的对照样本群进行基因分型,然后结合两阶段或多阶段的结果进行分析。这种设计需要保证第一阶段筛选与目标性状相关snp的敏感性和特异性,尽量减少分析的假阳性或假阴性,并在第二阶段应用大量样本群进行基因分型验证。在实际应用中,上述全基因组关联分析得到相关基因位点可以包括:首先计算样本的相关表型,剔除异常值后进行gwas分析。由于数据库样本量较小,因此选取25%的极端样本进行筛选,然后用全样本进行验证。其次,对临床因素进行筛选,得到可能相关的临床因素。第三,以第上步筛选的临床因素作为协变量,做gwas分析。第四,选取p值小于10^-4的位点,进行连锁不平衡分析后得到相关基因位点。s206:对所述相关基因位点进行组合得到多种基因组合。具体地,服务器在获取到基因位点后,对基因位点进行组合得到多种基因组合,例如可以对基因位点进行组合,然后基于每一个组合中的基因位点的基因型计算得到基因组合的个数。例如假设存在100个基因位点,每三个基因位点为一个组合,则存在个组合,且每个个基因位点存在3个基因型,则相应地存在3*3*3种组合,因此一共存在种组合。s208:根据预设算法得到所述多种基因组合对应的临床意义参考指标。具体地,预设算法是用于衡量基因组合临床意义的参考指标,其可以从多种基因组合个选取具有临床意义的基因组合。该临床意义参考指标主要用于确定该基因组合对应的表型其涉及范围广且不容易变异。s210:选取并输出所述临床意义参考指标符合要求的基因组合。具体地,所述选取并输出临床意义参考指标符合要求的基因组合,包括:选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。其中离散程度包括连续变量离散程度和分类变量离散程度。在其中一个实施例中,当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数;选取并输出所述变异系数最小的基因组合。具体地,在概率论和统计学中,变异系数又称为离散系数,是概率分布离散程度的归一化量度,其定义为标准差与平均值之比。服务器在确定统计量均相等时,即存在两个基因组合的连续变量离散程度、分类变量离散程度以及变异值均对应相等,则服务器需要再进一步的分析处理,例如选取变异系数最小的基因组合作为具有临床意义的基因组合,从而可以纳入临床因素,进行统计分析。具体地,表型为stabledose,gwas分析得到100个snp位点,将100个位点以三个组合数进行基因组合,最终得到的基因组合可以参见图5所示。此外,上述基因组合方法还可以用于其他领域,如氯吡格雷,实施方式与华法林相同,不同药物仅改变表型值,方法不变。上述基因组合确定方法,首先根据华法林的临床作用的表型进行全基因关联分析得到相关基因位点,然后对相关基因位点进行组合得到多种基因组合,从而可以计算多种基因组合对应的表型的临床意义参考指标,根据该临床意义参考指标来选择符合要求的基因组合,从而在选取出基因组合后,可以纳入临床因素,进行统计分析,即在得到最终的基因组合后,将该组合作为一个变量,加入临床因素等多个变量,进行多因素分析。在其中一个实施例中,所述根据预设算法得到所述多种基因组合对应的临床意义参考指标,包括:计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。在其中一个实施例中,所述离散程度包括连续变量离散程度和分类变量离散程度,所述连续变量离散程度的计算公式为:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;所述分类变量离散程度的计算公式为:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。在其中一个实施例中,所述变异值的计算公式为:其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。具体地,预设算法是用于确定多个基因组合的对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例,其中该预设算法需要求解连续变量离散程度、变异值以及分类变量离散程度,具体如下:连续变量离散程度为:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;变异值为:p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,此处,预设值为30%。分类变量离散程度为:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。上述实施例中,根据对应的预设算法求解得到对应的指标,以作为临床意义衡量指标,对样本进行量化处理,便于后续操作。在其中一个实施例中,所述对所述相关基因位点进行组合得到多种基因组合,包括:根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;获取每个相关基因位点组合中每个相关基因位点的基因型;根据所述基因型生成基因组合。具体地,对全基因组关联分析gwas筛选出来的可能相关的100个(该数目选取视结果而定)snp位点,每预设数量个进行组合,例如三个(a_100^3)。利用snp的基因型进行分类(以3个位点的组合为例)。选取3个可能相关的snp位点组合,记为snp1,snp2,snp3。3个snp各有三个基因型:snp1-野生(1-a),snp1-突变杂合(1-b),snp1-突变纯合(1-c)snp2-野生(2-a),snp2-突变杂合(2-b),snp2-突变纯合(2-c)snp3-野生(3-a),snp3-突变杂合(3-b),snp3-突变纯合(3-c)每个snp选一个基因型进行三三组合共27种组合,理论上可将人群按照这三个位点的基因型划分为27类(实际可能存在不出现的基因型组合,因此实际分类数≤27),之前提到的,p30等统计量都是基于这一种组合下的27类进行计算,每3个可能相关的snp位点组合会得到一个统计量。最终的,p30等统计量的比较是基于个不同的“3个可能相关的snp位点组合”间。其中预设数量还可以是5个,或者7个,视结果而定,具体地,服务器可以根据所确定的相关基因位点的个数来进行确定,在实际应用中,初步组合数为1、3、5,当其结果呈线性或组合数为5的结果明显优于1、3组合数时,则考虑做7个组合。应该理解的是,虽然图2的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。在一个实施例中,如图3所示,提供了一种基因组合确定装置,包括:表型基因组合确定模块500、相关基因位点基因组合确定模块500、组合模块300、临床意义参考指标计算模块400和基因组合确定模块500,其中:表型基因组合确定模块500,用于确定符合预设临床作用的表型。相关基因位点基因组合确定模块500,用于基于所确定的表型进行全基因组关联分析得到相关基因位点。组合模块300,用于对所述相关基因位点进行组合得到多种基因组合。临床意义参考指标计算模块400,用于根据预设算法得到所述多种基因组合对应的临床意义参考指标。基因组合确定模块500,用于选取并输出临床意义参考指标符合要求的基因组合。在其中一个实施例中,上述基因组合确定装置还包括:变异系数计算模块,用于当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数。所述基因组合确定模块500还用于选取并输出所述变异系数最小的基因组合。在其中一个实施例中,所述临床意义参考指标计算模块400还用于计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。在其中一个实施例中,所述离散程度包括连续变量离散程度和分类变量离散程度,上述基因组合确定装置还包括:连续变量离散程度计算单元,用于根据以下公式计算得到连续变量离散程度:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量。分类变量离散程度计算单元,用于根据以下公式计算得到分类变量离散程度:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。在其中一个实施例中,上述基因组合确定装置还包括:变异值计算单元,用于根据以下公式计算得到变异值:其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。在其中一个实施例中,所述基因组合确定模块500还用于选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。在其中一个实施例中,所述组合模块300包括:个数确定单元,用于根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;第一组合单元,用于根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;基因型获取单元,用于获取每个相关基因位点组合中每个相关基因位点的基因型;第二组合单元,用于根据所述基因型生成基因组合。关于基因组合确定装置的具体限定可以参见上文中对于基因组合确定方法的限定,在此不再赘述。上述基因组合确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基因组合数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基因组合确定方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:确定符合预设临床作用的表型;基于所确定的表型进行全基因组关联分析得到相关基因位点;对所述相关基因位点进行组合得到多种基因组合;根据预设算法得到所述多种基因组合对应的临床意义参考指标;选取并输出所述临床意义参考指标符合要求的基因组合。在一个实施例中,处理器执行计算机程序时还实现以下步骤:当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数;选取并输出所述变异系数最小的基因组合。在一个实施例中,处理器执行计算机程序时所实现的所述根据预设算法得到所述多种基因组合对应的临床意义参考指标,包括:计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。在一个实施例中,处理器执行计算机程序时所涉及的所述离散程度包括连续变量离散程度和分类变量离散程度,所述连续变量离散程度的计算公式为:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;所述分类变量离散程度的计算公式为:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。在一个实施例中,处理器执行计算机程序时所涉及的所述变异值的计算公式为:其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。在一个实施例中,处理器执行计算机程序时所实现的所述选取并输出临床意义参考指标符合要求的基因组合,包括:选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。在一个实施例中,处理器执行计算机程序时所实现的所述对所述相关基因位点进行组合得到多种基因组合,包括:根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;获取每个相关基因位点组合中每个相关基因位点的基因型;根据所述基因型生成基因组合。在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤确定符合预设临床作用的表型;基于所确定的表型进行全基因组关联分析得到相关基因位点;对所述相关基因位点进行组合得到多种基因组合;根据预设算法得到所述多种基因组合对应的临床意义参考指标;选取并输出所述临床意义参考指标符合要求的基因组合。在一个实施例中,计算机程序被处理器执行时还实现以下步骤:当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数;选取并输出所述变异系数最小的基因组合。在一个实施例中,计算机程序被处理器执行时所实现的所述根据预设算法得到所述多种基因组合对应的临床意义参考指标,包括:计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。在一个实施例中,计算机程序被处理器执行时所涉及的所述离散程度包括连续变量离散程度和分类变量离散程度,所述连续变量离散程度的计算公式为:其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;所述分类变量离散程度的计算公式为:其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。在一个实施例中,处理器执行计算机程序时所涉及的所述变异值的计算公式为:其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。在一个实施例中,计算机程序被处理器执行时所实现的所述选取并输出临床意义参考指标符合要求的基因组合,包括:选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。在一个实施例中,计算机程序被处理器执行时所实现的所述对所述相关基因位点进行组合得到多种基因组合,包括:根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;获取每个相关基因位点组合中每个相关基因位点的基因型;根据所述基因型生成基因组合。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。当前第1页1 2 3 当前第1页1 2 3 
技术特征:1.一种基因组合确定方法,其特征在于,所述方法包括:
确定符合预设临床作用的表型;
基于所确定的表型进行全基因组关联分析得到相关基因位点;
对所述相关基因位点进行组合得到多种基因组合;
根据预设算法得到所述多种基因组合对应的临床意义参考指标;
选取并输出所述临床意义参考指标符合要求的基因组合。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
当存在基因组合的临床意义参考指标相等时,则继续计算所述临床意义参考指标相等的基因组合的变异系数;
选取并输出所述变异系数最小的基因组合。
3.根据权利要求1或2所述的方法,其特征在于,所述根据预设算法得到所述多种基因组合对应的临床意义参考指标,包括:
计算所述多种基因组合对应的表型的离散程度和变异值小于等于预设值的个体占总样本的比例。
4.根据权利要求3所述的方法,其特征在于,所述离散程度包括连续变量离散程度和分类变量离散程度,所述连续变量离散程度的计算公式为:
其中,0<θ1<1,θ1表示连续变量离散程度,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值,n表示样本量;
所述分类变量离散程度的计算公式为:
其中,1-2p<θ2<1,其中p为总样本的阳性率,θ2表示在本分类方法下样本的分类变量的离散程度,αm表示在第m个基因组合分类下的阳性样本比例,βm表示在第m个基因组合分类下的阴性样本比例,即1-αm,n表示样本量。
5.根据权利要求3所述的方法,其特征在于,所述变异值的计算公式为:
其中,p预设值表示变异值小于等于预设值的个体占总样本的比例,表示第m个基因组合分类下的样本均值,ymi表示第m个基因组合中第i个表型的表型值。
6.根据权利要求3所述的方法,其特征在于,所述选取并输出临床意义参考指标符合要求的基因组合,包括:
选取并输出离散程度大于第一预设阀值,变异值小于第二预设阀值的基因组合。
7.根据权利要求1或2所述的方法,其特征在于,所述对所述相关基因位点进行组合得到多种基因组合,包括:
根据所确定的相关基因位点的个数确定每个基因组合中相关基因位点的个数;
根据所确定的每个基因组合中相关基因位点的个数,进行组合得到相关基因位点组合;
获取每个相关基因位点组合中每个相关基因位点的基因型;
根据所述基因型生成基因组合。
8.一种基因组合确定装置,其特征在于,所述装置包括:
表型确定模块,用于确定符合预设临床作用的表型;
相关基因位点确定模块,用于基于所确定的表型进行全基因组关联分析得到相关基因位点;
组合模块,用于对所述相关基因位点进行组合得到多种基因组合;
临床意义参考指标计算模块,用于根据预设算法得到所述多种基因组合对应的临床意义参考指标;
确定模块,用于选取并输出临床意义参考指标符合要求的基因组合。
技术总结本发明公开了一种基因组合确定方法和装置,所述方法包括:确定符合预设临床作用的表型;基于所确定的表型进行全基因组关联分析得到相关基因位点;对所述相关基因位点进行组合得到多种基因组合;根据预设算法得到所述多种基因组合对应的临床意义参考指标;选取并输出所述临床意义参考指标符合要求的基因组合。从而在选取出基因组合后,可以纳入临床因素,进行统计分析,即在得到最终的基因组合后,将该组合作为一个变量,加入临床因素等多个变量,进行多因素分析。
技术研发人员:阳国平;郭成贤;裴奇;况赟;宁晓艺;蔡志平;吴诚堃
受保护的技术使用者:中南大学湘雅三医院
技术研发日:2020.01.17
技术公布日:2020.06.09