相关申请的交叉引用
本申请要求2017年9月7日提交的美国临时专利申请no.62/555,597的利益;此申请的内容特此通过引用整体并入。另外,在2018年9月7日提交的标题为“systemsandmethodsforleveragingrelatednessingenomicdataanalysis”的共同待决申请也通过引用整体并入。
本公开大体上涉及人类群体中的亲缘关系的预测模型。更明确地说,本公开涉及用于制作人类群体中的亲缘关系模型以及识别用于从群体中选择个体子集以进行基因研究的模型的系统和方法。
背景技术:
人类疾病症状不仅由环境因素引起和受环境因素影响,而且还由基因因素引起和受基因因素影响。对人类群体中的基因变异的理解因此对于理解人类疾病的病因和进展以及对于识别用于治疗这些疾病的新颖药物标靶来说是重要的。
由于大量健康护理数据的可用性,健康护理群体的基因研究在这方面尤其有用,所述健康护理数据简化了对基因变异如何促成人类身上的疾病症状的研究。在过去,此类研究通常是基于全基因组基因连锁分析以对疾病基因座进行比对,所述疾病基因座一旦被识别随后便可以在分子水平上详细地进行进一步分析。在过去几年,高通量dna测序技术的广泛可用性已允许对数十万人的基因组进行并行测序。理论上,从高通量dna测序技术获得的数据表示可以用于破译人类疾病的基因基础的强大信息源。此类大型人类测序计划(包括discovehr(dewey等(2016)science,354,aaf6814)、英国生物银行/美国政府的allofus(精准医疗计划的部分)(collins和varmus(2015)n.engl.j.med.372,793-795)、topmed,exac/gnomad(lek等(2016)nature536,285-291);和许多其他)的数目和规模快速地增长。这些研究中的许多研究从具有伴随的表型丰富的电子健康记录(ehr)的综合健康护理群体收集样本,目标是将ehr与基因序列数据结合以促进转移发现及精准医疗(dewey等(2016)science,354,aaf6814)。
传统上,大规模基因研究的高昂费用和个别研究员的有限资源已产生展现出对来自各种地理区域的个体的浅层确定的研究群体。为了提高统计功效,研究员将来自许多不同收集中心的样本组合成较大队列,并且这些队列通常合并到由数十到数十万个体组成的较大社团。虽然所采样的个体的总数通常较高,但是这些研究通常仅对任何给定地理区域中的相对较小部分的个体进行采样。因为此类传统的基于群体的研究大体上从多个地理区域收集样本,因此所述研究通常展现出最广泛“类别”的亲缘关系:群体结构。在不同祖先类群或“基因同类群”的等位基因频率在同类群之内比在同类群之间更类似时,在基因研究内的群体结构(通常被称作“子结构”或“分层”)产生。基因同类群是由于最近的基因分离、漂移和迁移模式而出现。基因同类群内的个体的确定可能会产生远亲隐藏亲缘关系(henn等(2012)plosone7,e324267;han等(2017)nat.commun.8,14238),即,第二“类”亲缘关系,所述关系在本文中被定义为三级至九级亲属。这些远亲不太可能可从ehr识别,但所述远亲是重要的,因为通常其基因组的一个或多个大段按血统来说是相同的,取决于其亲缘度以及等位基因的重组和隔离(huff等(2011)genomeres.21,768-774)。远亲隐藏亲缘关系在由对大群体的小采样建立的研究队列中通常是有限的,但是隐藏亲缘关系的等级随着有效群体数量减小以及样本量增加而实质上增加。最后,除非被设计成收集家庭,否则传统的基于群体的研究通常具有非常少的家庭结构:第三“类”亲缘关系,所述第三“类”亲缘关系由一级和二级关系组成(sudlow等plosmed.12,e1001779;han等(2017)nat.commun.8,14238;fuchsberger等(2016)nature536,41-47;locke等(2015)nature51,197-206;surendran等(2016)nat.genet48,1151-1161)。
队列中的家庭结构的增加可能会对下游分析的选择和执行具有重要影响并且必须要经过深思熟虑。为了选择用于分析任何群体的统计工具,对群体中的亲缘关系的数量的了解起到重要作用(santorico等(2014)genet.epidemiol.38(suppl1),s92-s96;hu等(2014)nat.biotechnol.32,663-669;price等(2010)nat.rev.genet.11,459-463;kang等(2010)nat.genet.42,348-354;sun和dimitromanolakis(2012)methodsmol.biol850,47-57;devlin和roeder(1999)biometrics55,997-1004;以及voight和pritchard(2005)plosgenet.1,e32)。举例来说,一些工具(例如,主成分[pc]分析)假定所有个体都是不相关的,一些工具(例如,线性混合模型)有效地处理对成对关系的估计,并且其他工具(例如,连锁分析和tot分析)可以直接利用谱系结构。
家庭结构的移除(即,选择地排除样本以去除关系)减少样本量和功率,同时可能丢弃宝贵的关系信息。在分析或视觉化所需要用到的谱系结构中,可以使用亲缘关系来使用诸如primus(staples等(2014)am.j.hum.genet.95,553-564)和clapper(ko和neilsen(2017)plosgenet.95,553-564)等工具直接由基因数据重建谱系结构。数据集中的亲缘关系和家庭结构的效用可以使得能够了解使用亲缘关系对数据集中的变异体进行识别和表征。因此,为了通过重建谱系、对复合杂合突变(chm)定相以及检测新生突变(dnm)来更好地分析利用亲缘关系的基因数据来进行研究,在其群体间具有亲缘关系的数据集是有帮助的。
然而,数据集的增长大小现今要求生物信息学工具和分析管线的不断创新以继续有效地对其进行处理。在选择数据集时,通常不清楚研究员将预期看到多少亲缘关系并且其是否遵照在先前的基于群体的基因研究中看到的亲缘关系的等级。假定亲缘关系对下游分析的影响,需要确定是否预期此数量的亲缘关系、其对数据集是否是唯一的以及在测序队列扩展时其将增长多少。本公开解决此需要。
技术实现要素:
在一个方面中,本公开的示例性实施方案提供人类群体中的亲缘关系的预测模型。所述预测模型可以通过一种方法来制作,所述方法包括:建立第一群体数据集;执行120年的预采样阶段以建立第二群体数据集;以及通过进行以下步骤中的一者或多者来修改所述第二群体数据集:(a)根据所述第二群体数据集中的个体的年龄将所述个体移至年龄池;(b)从所述第二群体数据集中的单身男性和单身女性中随机地选择亲缘关系比堂表亲要远的数对单身男性与单身女性并且按年龄参数让他们以指定婚姻结婚,其中选择数对直到结婚数目达到如结婚率参数所指定的那样为止;(c)使已婚配偶按指定离婚率离婚,其中已婚配偶是从所述第二群体数据集中随机地选出并且一旦离婚之后就标记为单身;(d)按指定比率从所述第二群体数据集中随机地选择数对单身男性与单身女性或已婚配偶并且允许他们根据指定生育率来生育,直到达到成功怀孕的目标数目为止,其中双亲被限制为亲缘关系比堂表亲要远,并且其中所述第二群体数据集中的所有个体都被限制为每年生育一个孩子;(e)允许所述第二群体数据集中的个体按照年龄参数按指定死亡率和按指定病亡率去世;(f)允许个体迁入和迁出所述第二群体数据集,由此维持所述第二群体数据集中的群体年龄和性别分布以及已婚育龄个体的比例;以及(g)允许个体在所述第二群体数据集内移动,由此随机地选择来自子群体的个体并且如果存在另一个子群体则将所述个体随机地分配至另一个子群体,直到实现子群体之间的指定移动率为止;针对预定的年数以一年时间间隔来反复地重复(a)至(g)中的一者或多者,其中将(a)至(g)中的一者或多者应用于由先前反复产生的群体数据集以便生成表示预定时间时的人类群体中的亲缘关系的预测模型的最终群体数据集。
在一些示例性实施方案中,建立所述第一群体数据集还包括指定子群体的数目和大小。
在一些示例性实施方案中,建立所述第一群体数据集还包括将在零岁与最大生育年龄之间的年龄分配至所述第一群体数据集中的个体。
在一些示例性实施方案中,所述最大生育年龄是49岁。
在一些示例性实施方案中,执行所述预采样阶段还包括使所述第二群体数据集中的出生数与死亡数保持相等并且使个体的净迁移率保持为零。
在一些示例性实施方案中,执行所述预采样阶段还包括:在个体年龄超过最低生育年龄时,将第二群体数据集中的个体从少年池移至婚配池;以及在个体年龄超过最大生育年龄时,将个体从所述婚配池移至老龄池;以及如果来自所有年龄池的个体移民或去世,则移除所述个体。
在一些示例性实施方案中,所述最低生育年龄是15岁并且所述最大生育年龄是49岁。
在另一个方面中,本公开的一个示例性实施方案提供一种使用所述预测模型的方法,其中随机地执行对个体的确定。
在另一个方面中,本公开提供一种使用所述预测模型的方法,其中以集群方式执行对个体的确定。
在一些示例性实施方案中,对个体的确定还包括收集关于所确定的个体的亲缘关系数据和相关统计数据,所述亲缘关系数据和相关统计数据包括所确定的个体间的一级或二级关系或两者。
在一些示例性实施方案中,所述预测模型还可以包括基于所述最终群体数据集来选择所述人类群体来进行基因分析。所述基因分析可以包括谱系重建、对复合杂合突变定相、检测新生突变或其组合。
在一些示例性实施方案中,所述人类群体包括多个体类群体,并且生成所述最终群体数据集包括针对所述多个体类群体中的每一者生成最终群体数据集,并且还包括基于所述最终群体数据集来选择所述多个体类群体中的一者来进行基因分析。
附图说明
图1是根据一个示例性实施方案的制作人类群体中的亲缘关系的预测模型的方法的流程图。
图2是示例性操作环境。
图3示出了被配置用于执行所公开的方法的多个系统组件。
图4a和图4b展示在61kdiscovehr参与者中的一级亲属的确定与根据本公开的示例性实施方案的模拟群体的随机确定之间的比较。图a展示一级亲属对的确定,并且图b展示具有一个以上一级亲属的个体的数目的确定。
图5a和图5b展示在92k扩展discovehr参与者中的一级亲属的确定与根据本公开的示例性实施方案的模拟群体的随机确定之间的比较。图a展示一级亲属对的确定,并且图b展示具有一个以上一级亲属的个体的数目的确定。
图6a、图6b、图6c和图6d展示根据本公开的示例性实施方案的集群确定方法的模拟群组以及所述集群确定方法与discovehr队列中的一级亲缘关系的积聚的拟合。图a展示数对一级亲属的积聚;图b展示具有一位或多位一级亲属的所确定的参与者的比例;图c展示具有一级关系数目的上限与下限的模拟确定计划;并且图d展示具有有1位或多位一级亲属的所确定的参与者的比例的上限与下限的模拟计划。
图7a、图7b、图7c和图7d展示根据本公开的示例性实施方案的集群确定方法的模拟群组以及所述集群确定方法与扩展discovehr队列中的一级亲缘关系的积聚的拟合。图a展示数对一级亲属的积聚;图b展示具有一位或多位一级亲属的所确定的参与者的比例;图c展示具有一级关系数目的上限与下限的模拟确定计划;并且图d展示具有有1位或多位一级亲属的所确定的参与者的比例的上限与下限的模拟计划。
图8a、图8b、图8c和图8d展示根据本公开的示例性实施方案的集群确定方法的模拟群组以及所述集群确定方法与discovehr队列中的一级和二级亲缘关系的积聚的拟合。图a展示数对一级和二级亲属的积聚;图b展示具有一位或多位一级和二级亲属的所确定的参与者的比例;图c展示具有一级和二级关系数目的上限与下限的模拟确定计划;并且图d展示具有有1位或多位一级或二级亲属的所确定的参与者的比例的上限与下限的模拟计划。
图9a、图9b、图9c和图9d展示根据本公开的示例性实施方案的集群确定方法的模拟群组以及所述集群确定方法与扩展discovehr队列中的一级和二级亲缘关系的积聚的拟合。图a展示数对一级和二级亲属的积聚;图b展示具有一位或多位一级和二级亲属的所确定的参与者的比例;图c展示具有一级和二级关系数目的上限与下限的模拟确定计划;并且图d展示具有有1位或多位一级或二级亲属的所确定的参与者的比例的上限与下限的模拟计划。
图10展示驱动根据本公开的示例性实施方案建模的所确定的数据集中的亲缘关系的数量的因素中的一些。
具体实施方式
术语“a”应被理解为表示“至少一个”;并且术语“约”和“大约”应被理解为准许如将由本领域的普通技术人员理解的标准差;并且在提供范围的情况下,端点包括在内。
先前的大规模人类基因组研究通常收集遍布许多不同的地理区域和/或健康护理系统的人类样本并且将其组合以生成队列来进行分析。虽然在这些队列中采样的个体的总数通常较高,但是在这些队列中的亲缘关系和家庭结构的程度往往相对较低。在基因组分析(包括关联分析和主成分分析)的背景中通常使用的许多统计方法要求所有样本是不相关的。否则,这些测试的统计输出将会有偏差,导致膨胀的p值和假阳性结果(kang等(2010),naturepublishinggroup42,348–354;sun和dimitromanolakis(2012),methodsmol.biol.850,47–57;devlin和roeder(1999),biometrics55,997–104;以及voight和pritchard(2005),plosgenet1,e32–10)。
如果数据集仅具有少量的紧密相关的样本,那么从所述数据集移除家庭结构是切实可行的选项(lek等(2016),naturepublishinggroup536,285–291;fuchsberger等(2016),naturepublishinggroup536,41–47;locke等(2015),nature518,197–206;以及surendran等(2016)natgenet48,1151–1161)。如果数据的不相关子集对于统计分析(诸如计算主成分(pc)并且随后将其余样本投射到这些pc上)是足够的,那么家庭结构的移除也是可能选项(dewey等(2016),science354,aaf6814–aaf6814)。存在许多方法能帮助调查员保持个体的量最大的不相关集合(staples等(2013),genet.epidemiol.37,136–141;chang等(2015),gigascience4,7)。遗憾的是,相关个体的移除不仅减少样本量,而且还会丢弃宝贵的关系信息。实际上,如果数据集具有甚至中等水平的家庭结构,那么此类信息损失对于许多分析来说是不可接受的。
个体之间的基因相关度在许多遗传学领域中起到重要作用。在基因分析中,使用对亲缘关系的了解来估计基因参数,诸如遗传力和基因相关(falconer和mackay(1996)introductiontoquantitativegenetics.longmansgreen,harlow,essex,uk)。在进化论生物学中,需要对互动的个体之间的亲缘关系的了解来预测社会互动的进化结果(hamilton(1964)theor.biol.7,17-52)。在保护遗传学中,需要对亲缘关系的了解来优化保护策略。关于队列中的群体的亲缘关系的信息在定量遗传学、保护遗传学、辩论术、进化和生态学中的许多个研究领域中可能具有重要应用。队列中的个体间的基因相关度是取决于群体以及如何从所述群体中对个体采样而以各种方式在队列内显现自身的连续体。在基于健康护理群体的基因组(hpg)研究内的亲缘关系的增加在选择和执行下游分析时具有重大影响并且必须要加以深思熟虑(santorico等(2014)genet.epidemiol.38suppl1,s92–s96;hu等(2014).nat.biotechnol.32,663–669;price等(2010)nat.rev.genet.11,459–463;kang等(2010).naturepublishinggroup42,348–354;sun和dimitromanolakis(2012)methodsmol.biol.850,47–57;devlin和roeder(1999)biometrics55,997–104;voight和pritchard(2005)plosgenet1,e32–10)。可以使用利用亲缘关系的基因数据来重建谱系、对复合杂合突变(chm)定相以及检测新生突变(dnm)。另外,所述数据还可以用于预测群体增长并且提供标记来指示群体中的疾病谱。
为了分析此类数据,包括具有亲缘关系的个体的数据集是所要的。另外,存在可以基于数据集中的个体间的亲缘关系的程度而应用于所述数据集的不同的统计工具。可用的数据集或将被设计的数据集将需要对生物信息学工具和分析管线的不断创新以继续有效地对其进行处理。
对于基因或进化或人口普查研究,为了选择或设计数据集,不存在可以预测队列中的亲缘关系的程度的方法或模型,并且研究员通常不清楚研究员将预期看到多少亲缘关系以及亲缘关系的程度是否将类似于在先前的基于群体的基因研究中看到的亲缘关系的程度。
本公开至少部分基于人类群体中的亲缘关系的预测模型。
根据本公开的示例性实施方案的人类群体中的亲缘关系的预测模型可以用于基于指定的群体参数来预测分散在一个或多个子群体内的数百万人的群体。所述模型逐年进行,基于指定参数模拟交往、出生、分离、迁移、死亡和/或在子群体之间移动,生成表示各种基于群体的研究(包括hgp研究)的现实谱系结构和群体。可以容易地定制所述参数以对不同群体建模。
本公开的示例性实施方案还至少部分地基于制作人类群体中的亲缘关系的预测模型以估计研究员对于给定的一组群体和采样参数将预期找到的亲缘关系的数量的方法。产生此类模型的方法的实例描述于图1中。
根据本公开的示例性实施方案,制作人类群体中的亲缘关系的预测模型的方法可以包括按照步骤100建立第一群体数据集。此第一群体数据集可以由用户限定。
在一些示例性实施方案中,按照步骤120,执行预定时间的预采样阶段以建立第二群体数据集。所述预采样阶段可以基于研究而改变并且可以由用户选择。在特定示例性实施方案中,所述预采样阶段可以是90年至200年,包括所述范围中的任何所要值。在另一个特定示例性实施方案中,所述预采样阶段是约120年。
在一些示例性实施方案中,第二群体数据集中的个体的初始年龄可以是0岁至49岁。此第二群体数据集中的个体可以被分配至不同的池中,例如,少年或育龄/婚配或老龄。举例来说,在约15岁的年龄以下,个体可以被分配至少年池。在15岁与49岁之间,个体可以被分配至育龄/婚配池。另外,个体在超过15岁时还可以从少年池移至育龄/婚配池并且在其超过49岁时从育龄/婚配池移至老龄池。如果此数据集中的个体移民或死亡,那么可以进一步移除所述个体。用户可以基于地理区域或祖先阶层的人口统计数据或历史或可能会影响所述池包括的此等年龄组的任何其他参数而选择所述组。在第二群体数据集中,用户还可以根据地理区域或祖先阶层的人口统计数据或历史或可能会影响以下比率的任何其他参数(以及其对应的值和比率)来设置出生率、死亡率、迁入率、迁出率、婚配率、分离率、生育开始年龄、生育结束年龄、按年龄划分的生育的全同胞率范围、按年龄划分的男性死亡率、按年龄划分的女性死亡率、按年龄划分的男性婚配率和/或按年龄划分的女性婚配率。举例来说,可以使用孪生率、死产率、流产率、同性结婚率、收养率、多重伴侣关系率来设置所述参数。另外,还可以依据群体内的人的地理位置(例如,他们相对于彼此生活和工作的地方)以及可能增加或减少婚配机会的地理/社会屏障(例如,河流、山谷、高山、祖先背景和社区)来对参数建模。在一些示例性实施方案中,第二群体可以具有约0.0219的出生率或约0.0095的死亡率或约0.01168的婚配率或约0.0028的分离率或约0.88的全同胞率或约15岁的生育开始年龄或约49岁的生育结束年龄或约0.01的迁入率或约0.021的迁出率或在0至1的范围中的按年龄划分(针对女性年龄0至50岁的加权向量)的生育率或在0至1的范围中的按年龄划分(针对男性年龄0至120岁的加权向量)的男性死亡率或在0至1的范围中的按年龄划分(针对女性年龄0至120岁的加权向量)的女性死亡率或在0至1的范围中的按年龄划分(针对男性年龄0至50岁的加权向量)的男性婚配率或在0至1的范围中的按年龄划分的女性婚配率(针对女性年龄0至50岁的加权向量)或其组合。
在一些示例性实施方案中,可以按照步骤130通过根据个体的年龄(少年、育龄/婚配或老龄)将第二群体数据集中的个体移至年龄池来修改所建立的第二群体。
在一些示例性实施方案中,可以按照步骤140通过从所述第二群体数据集中的单身男性和单身女性中随机地选择亲缘关系比堂表亲要远的数对单身男性与单身女性并且按年龄参数让他们以指定婚姻结婚来进一步修改所建立的第二群体。可以允许被选择来结婚的数对结婚,直到达到如由所设置的结婚率参数指定的结婚数目为止。用户可以基于地理区域或祖先阶层的人口统计数据或历史或可能会影响此类比率的任何其他参数(以及其对应的值和比率)来按照年龄参数来选择婚姻。举例来说,可以使用孪生率、死产率、流产率、同性结婚率、收养率、多重伴侣关系率来设置所述参数。另外,还可以依据群体内的人的地理位置(例如,他们相对于彼此生活和工作的地方)以及可能会增加或减少婚配机会的地理/社会屏障(例如,河流、山谷、高山、祖先背景和社区)来对参数建模。
为了进一步修改第二群体数据集,用户可以基于地理区域或祖先阶层的人口统计数据或历史或可能影响离婚率和/或生育率的任何其他参数来选择此类比率。在一些示例性实施方案中,可以按照步骤150修改所建立的第二群体以允许已婚配偶按指定的离婚率离婚。可以按照步骤160按指定比率选择从第二群体数据集随机地选择的数对单身男性与单身女性或已婚配偶并且可以允许他们根据指定生育率来生育,直到达到成功怀孕的目标数目为止。双亲可以被限制为亲缘关系比堂表亲要远。另外,所述第二群体数据集的婚配/生育年龄池中的所有个体可以被限制为每年生育一个孩子。
另外,可以通过基于地理区域或祖先阶层的人口统计数据或历史或可能影响死亡率和/或迁移率的任何其他参数(以及其对应的值和比率)来设置此类比率来修改第二群体数据集。
在一些示例性实施方案中,可以按照步骤170允许所建立的第二群体数据集中的个体按照年龄参数按指定死亡率和按指定病亡率去世。另外,还可以按照步骤180允许第二群体数据集中的个体迁入和迁出所述第二群体数据集。然而,此类迁移可以维持所述第二群体数据集中的群体年龄和性别分布以及已婚育龄个体的比例。
在一些示例性实施方案中,可以按照步骤190允许所建立的第二群体中的个体在第二群体数据集内移动,由此随机地选择来自子群体的个体并且将所述个体随机地分配至另一个子群体。
在一些示例性实施方案中,可以通过将婚配、结婚、离婚、生育、移民、死亡或从第二群体数据集中的一个子群体移至另一个子群体的一个或多个步骤应用于由先前的反复产生的群体数据集针对预定的年数以一年的时间间隔来重复(按照步骤200)所述步骤。
此框架足够灵活以应用于对较短暂群体的较浅确定进行建模。基于第一群体数据集,可以修改用于第二群体数据集的参数以针对任何特定地理区域或子群体定制预测模型。
在一些实施方案中,所述预测模型可以从群体随机地确定个体。在未进行替换的情况下,随机确定向所述群体中的每个个体给予相等的被确定的机会。
在一些示例性实施方案中,所述预测模型可以按集群方式从群体确定个体。集群采样可以通过随机地选择具有一定数目的一级和二级亲属的个体使近亲富集。
通过本公开描述或例示的方法中的任一者可以实践为计算机实施的方法和/或实践为系统。本领域的普通技术人员所知的任何合适的计算机系统可以用于此目的。
图2示出当前方法和系统可以在其中操作的示例性环境201的各种方面。当前方法可以在采用数字与模拟设备的各种类型的网络和系统中使用。本文中提供的是功能描述,并且相应的功能可以通过软件、硬件或软件与硬件的组合来执行。
环境201可以包括本地数据/处理中心210。本地数据/处理中心210可以包括一个或多个网络,诸如局域网,以促进一个或多个计算装置之间的通信。可以使用所述一个或多个计算装置来存储、处理、分析、输出和/或视觉化生物数据。环境201可以任选地包括医疗数据提供者220。医疗数据提供者220可以包括生物数据的一个或多个源。举例来说,医疗数据提供者220可以包括能够访问一个或多个患者的医疗信息的一个或多个健康系统。所述医疗信息可以包括例如医疗历史、医疗专业观察和评论、实验室报告、诊断、医嘱、处方、生命体征、体液平衡、呼吸功能、血液参数、心电图、x射线、ct扫描、mri数据、实验室测试结果、诊断、预测、评估、入院和出院记录以及患者登记信息。医疗数据提供者220可以包括一个或多个网络,诸如局域网,以促进一个或多个计算装置之间的通信。可以使用所述一个或多个计算装置来存储、处理、分析、输出和/或视觉化医疗信息。医疗数据提供者220可以对医疗信息去识别化并且将去识别化的医疗信息提供至本地数据/处理中心210。所述去识别化的医疗信息可以包括每位患者的唯一识别码以便将一位患者的医疗信息与另一位患者区分开,同时使医疗信息维持于去识别化状态。所述去识别化的医疗信息防止患者的识别码与他或她的特定医疗信息连接。本地数据/处理中心210可以分析去识别化的医疗信息以给每位患者分配一个或多个表型(例如,通过分配国际疾病分类“icd”码和/或现行程序术语“cpt”码)。
环境201可以包括ngs测序设备230。ngs测序设备230可以包括一个或多个测序仪(例如,illuminahiseq2500、pacificbiosciencespacbiorsii等)。所述一个或多个测序仪可以被配置用于外显子组测序、全外显子组测序、rna测序、全基因组测序、靶向测序等。在示例性方面中,医疗数据提供者220可以提供来自与去识别化的医疗信息相关联的患者的生物样本。可以使用唯一识别码来维持生物样本与对应于所述生物样本的去识别化的医疗信息之间的关联。ngs测序设备230可以基于所述生物样本对每位患者的外显子组进行测序。为了在测序之前存储生物样本,ngs测序设备230可以包括生物银行(例如,来自liconicinstruments)。生物样本可以收纳在管中(每个管与一位患者相关联),每个管可以包括可以被扫描以自动地将所述样本录入到本地数据/处理中心210中的条形码(或其他识别码)。ngs测序设备230可以包括用于在测序的一个或多个阶段中使用以确保统一数据以及实际上不间断的操作的一个或多个机器人。ngs测序设备230因此可以每年对数以万计的外显子组测序。在一个方面中,ngs测序设备230具有每个月对至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10,000、11,000或12,000个全外显子组测序的功能容量。
由ngs测序设备230生成的生物数据(例如,原始测序数据)可以被传送到本地数据/处理中心210,所述本地数据/处理中心随后可以将所述生物数据传送到远程数据/处理中心240。远程数据/处理中心240可以包括基于云的数据存储和处理中心,所述数据存储和处理中心包括一个或多个计算装置。本地数据/处理中心210和ngs测序设备230可以经由一个或多个高容量光纤线路直接向和从远程数据/处理中心240传送数据,但涵盖其他数据通信系统(例如,因特网)。在示例性方面中,远程数据/处理中心240可以包括第三方系统,例如,亚马逊网络服务(dnanexus)。远程数据/处理中心240可以促进分析步骤的自动化,并且允许以安全方式与一个或多个合作者250共享数据。在从本地数据/处理中心210接收到生物数据之后,远程数据/处理中心240可以执行管线步骤的自动化序列以使用生物信息工具来进行一级和二级数据分析,产生每个样本的带注释的变异文件。来自此类数据分析的结果(例如,基因型)可以被传送回本地数据/处理中心210并且例如被集成到实验室信息管理系统(lims)中,所述实验室信息管理系统可以被配置成维持每个生物样本的状态。
本地数据/处理中心210随后可以将经由ngs测序设备230和远程数据/处理中心240获得的生物数据(例如,基因型)与去识别化的医疗信息(包括识别的表型)结合使用以识别基因型与表型之间的关联。举例来说,本地数据/处理中心210可以应用表型第一方法,其中定义在某些疾病领域中可能具有治疗潜力的表型(例如,针对心血管疾病的血脂的极端)。另一个实例是对肥胖患者的研究以识别看起来不受典型的共病范围影响的个体。另一种方法是用表型和假设(例如,在导致或防止疾病y方面涉及到基因x)开始。
在示例性方面中,一个或多个合作者250可以经由网络(诸如因特网260)来访问一些或全部的生物数据和/或去识别化的医疗信息。
在图3中所示的示例性方面中,本地数据/处理中心210和/或远程数据/处理中心240中的一者或多者包括一个或多个计算装置,所述一个或多个计算装置包括基因数据组件300、表型数据组件310、遗传变异体-表型关联数据组件320和/或数据分析组件330中的一者或多者。基因数据组件300、表型数据组件310和/或基因变异体-表型关联数据组件320可以被配置用于序列数据的质量评定、与参考基因的读序比对、变异体识别、变异体的注释、表型识别、变异体-表型关联识别、数据视觉化、其组合等中的一者或多者。
如本文中提供的具有数字和/或字母的方法步骤的连续标记不打算将所述方法或其任何实施方案限制于特定的所指示的次序。
在本说明书中引用了各种出版物,包括专利、专利申请、公布的专利申请、检索号、技术文章和学术性文章。这些引用的参考文献中的每一者通过引用整体地并且出于所有目的并入本文中。
将参考以下实例来更充分地理解本公开,提供所述实例以更详细地描述本公开。所述实例意欲说明本公开的范围并且不应被理解为限制本公开的范围。
实例
实例1
患者和样本
通过对队列(-(a)具有61,720位去识别化的患者的外显子组的dicovehr队列和(b)具有92,455位去识别化患者的外显子组的扩展dicovehr队列)应用预测模型来收集两组数据。
对从盖辛格健康系统(ghs)获得的所述两个队列中的所有去识别化的患者-参与者进行测序。所有参与者同意参与到
所述研究并未特别将家庭作为参与到所述研究中的对象,而是所述研究富集频繁地与健康护理系统交互的具有慢性健康疾病的成人以及来自冠状动脉插管实验室和减肥服务的参与者。
实例2
使用模拟后代和亲缘关系投射的模拟
为了尝试对discovehr和扩展discovehr数据集中的关系网络的增长进行建模、理解和预测,开发出模拟框架(下文为“模拟后代”),所述模拟框架可以模拟数百年来分散在多个子群体中的数百万人的世系。从这些模拟的群体中,可以对各种采样方法进行建模,并且针对一组给定的群体和采样参数来估计研究员将预期发现的亲缘关系的数量(参见实例6)。
使用模拟后代来模拟discovehr和扩展discovehr群体以及确定分别来自其中的前61k和前92k位参与者。所述模拟表明discovehr和扩展discovehr参与者并非是从所述群体随机地采样,而是使所述数据集富集近亲。如图2a和图2b中所示,在周期性“冻结期”计算真实数据,所述冻结期使用由暗线连接的标点符号指示。还取得在61k个人的冻结期中识别的样本和关系并且随后打乱确定次序以论证61k个discovehr参与者中的第一半相对于第二半富集一级关系。使用与从中确定discovehr的真实群体类似的参数来模拟各种大小的群体。随后执行来自这些群体中的每一者的随机确定以看看哪个群体大小最紧密地拟合真实数据。关键的结论是这些群体大小中无一者拟合真实数据,并且随机确定方法是不良拟合。与随机确定相比富集一级亲属的不同确定方法可能会产生较好拟合。图4a表明大小为270k的有效采样群体中的一级亲属对的确定紧密地拟合真实数据的打乱版本,但是低估了低于61k所确定参与者的亲属对数目并且显著地高估了高于61k参与者的亲属对数目。图4b表明,相对于具有一个或多个一级亲属的个体的数目,270k的群体最紧密地拟合打乱的真实数据,但对真实数据不良拟合。
使用扩展discovehr数据集观察到类似结果(图5a和图5b)。随后打乱在92k个人冻结中识别的样本和关系以论证92k扩展discovehr参与者中的第一半相对于第二半富集一级关系。随后执行来自这些群体中的每一者的随机确定以看看哪个群体大小最紧密地拟合真实数据。图5a表明大小为403k的有效采样群体中的一级亲属对的确定紧密地拟合真实数据的打乱版本,但是低估了低于92k所确定参与者的亲属对数目并且显著地高估了高于92k参与者的亲属对数目。图5b表明,相对于具有一个或多个一级亲属的个体的数目,403k的群体最紧密地拟合打乱的真实数据,但对真实数据不良拟合。
通过使用集群确定方法来对近亲的富集建模(参见实例6),对于discovehr(图6a和图6b)和扩展discovehr(图7a和图7b),所述集群确定方法产生更好地拟合真实数据的模拟。对于图6和图7,在周期性“冻结期”计算真实数据,所述冻结期使用由暗线连接的标点符号指示。基于关于真实群体人口数据和discovehr确定方法的信息来设置大多数的模拟参数。然而,两个参数是我们无法获得的并且因此是未知的并且因此基于对真实数据的拟合来推断:1)从中确定样本的有效群体大小和2)假设先前确定了一级亲属,某人被确定的机会增加,此被称作“集群确定”。图6和图7中的所有的图展示横跨估计的有效群体大小的相同的三个模拟群体大小。通过随机地确定个体以及一级亲属的泊松分布随机数目来模拟集群确定(分布的λ在图例中指示)。这些模拟结果表明有效采样群体大小为~475k个个体,并且λ为0.2的泊松分布最紧密地匹配一级亲属的富集。这与以下理解一致:当前参与者的大部分居住在某一局部地理区域中(在这个实例中,诸如danville,pa.区域(~500k位个体))而非均匀地分布在整个ghs服务区域内(>2.5百万个个体)。
在识别了合理地拟合真实数据的模拟参数之后,使用模拟后代来获得在discovehr和扩展discovehr研究扩展到250k个个体的目标时将预期的一级关系的数量的计划。结果指示如果参与者的确定以相同的方式继续,那么对于discovehr(图6c)和扩展discovehr(图7c)将预期获得~150k一级关系,涉及~60%的discovehr参与者(图6d)和涉及~60%的扩展discovehr参与者(图7d)。
随后将模拟分析扩展到包括二级关系,并且模拟结果表明对于250k参与者,将预期远多于200k的组合的一级和二级关系,涉及discovehr(图8)和扩展discovehr(图9)中的70%以上的个体。对于此分析,在周期性“冻结期”计算真实数据,所述冻结期使用由暗线连接的标点符号指示。基于关于真实群体人口数据和discovehr确定方法的信息来设置大多数的模拟参数。然而,两个参数是未知的并且基于对真实数据的拟合来选择:1)从中确定样本的有效群体大小和2)假设亲属先前确定了一级或二级,某人被确定的机会增加,此被称作“集群确定”。图8和图9中的所有的图展示横跨估计的有效群体大小的相同的三个模拟群体大小。通过随机地确定个体以及一级亲属的泊松分布随机数目和二级亲属的单独的随机数目来模拟集群确定(泊松分布具有在图例中指示的λ)。
模拟结果论证了discovehrhpg研究中的亲缘关系的明显富集以及使得能够了解在额外参与者的确定继续时预期看到的亲缘关系的数量。
实例3
样本制备、测序、识别变异体和样本qc
先前已在dewey等(dewey等(2016),science354,aaf6814–aaf6814)中描述了数据样本制备和测序。
在完成测序之后,将来自每次illuminahiseq2500运行的原始数据收集在本地缓冲存储器中并且将其上传到dnanexus平台(reid等(2014)15,30)以进行自动化分析。使用casava(illuminainc.,sandiego,ca)来生成样本级读序文件并且使用bwa-mem(li和durbin(2009);bioinformatics25,1754–1760;li,h.(2013);arxivq-bio.gn)将所述样本级读序文件与grch38比对。使用gatk和picard来处理所得的bam文件以分类、标记重复基因并且围绕假定指标来执行读序的局部重校正。使用ensembl85基因定义来用snpeff对经测序的变异体加注释(cingolani等(2012);fly(austin)6,80–92)以确定对转录物和基因的功能影响。基因定义被限制为54,214个转录物,所述转录物用带注释的开始和停止进行蛋白质编码,对应于19,467个基因。
将具有由高比率的纯合性、低测序数据覆盖或可能不被验证为真正的同卵双胞胎的基因上被识别的复制基因指示的低质量dna测序数据的个体排除在外;剩下61,019个外显子组来进行分析。在dewey等(2016),science354,aaf6814-1至aaf6814-10中报告了关于样本制备、测序、识别变异体和变异体注释的额外信息。
实例4
模拟后代
开发出模拟后代来模拟大群体以及各种从所述群体中确定样本的方法。模拟后代可以模拟分散在一个或多个子群体中的数百万人的群体并且追踪其在数百年内的祖先。为了在简单化与现实之间取得良好平衡,选择可以由用户调整的若干个关键的群体级参数(参见下表1)。选择这些参数以提供对真实群体和家庭谱系结构的良好近似,同时使模拟工具保持相对简单。默认值是基于美国人口统计数据(来自1960年的美国平均出生率:卫生与人力资源服务部,国家卫生统计中心;来自1960年的美国平均死亡率:国家卫生统计中心;美国人口普查局;来自1960年的美国平均结婚率:美国100年的结婚和离婚统计数据,1867-1967;来自1960年的美国平均离婚率:美国100年的结婚和离婚统计数据,1867-1967;来自2000年的反映农村和城市迁移的pa的迁入和迁出率;来自1970年的美国生育率:hamilton,b.e.、martin,j.a.、osterman,m.j.k.、curtin,s.c.和mathews,t.j.(2015),births:finaldatafor2014.nationalvitalstatisticsreports,64(12)以及hyattsville,md:国家卫生统计中心;来自2005年的女性死亡率;基于2000年人口普查的死亡率普查后估计,进行估计的截至日期2005年7月1号;以及来自2009年的按年龄划分的男性和女性结婚率)。设置所述默认值以对各种队列起作用,并且可以通过修改与模拟后代码一起包括的配置文件(网络资源)来容易地定制这些参数以对不同群体建模。关于群体模拟过程的详细描述,参看实例6。
表1(在模拟后代中使用的模拟参数和默认值)
对于针对discovehr队列开发的框架,生育结束是49岁,并且对于针对扩展discovehr队列开发的框架,生育结束是50岁。
除了对群体建模之外,模拟后代还模拟两种确定方法以对从群体中选择个体来进行基因研究来建模:随机确定和集群采样。在未替换的情况下,随机确定给予群体中的每个个体相等的被确定的机会。集群采样为富集近亲的方法,并且可以通过随机地选择个体以及其一级和二级亲属的数目来完成。通过根据泊松分布对值进行采样来确定一级亲属的数目,所述泊松分布具有用户指定的一级确定λ(默认为0.2)。以相同方式确定二级亲属的数目并且默认的二级确定λ是0.03。关于模拟后代的确定选项的额外信息详,参看实例6。
实例5
潜在discovehr群体以及其确定的模拟
为了不使模拟模型过于复杂,所述模拟包含起始大小为200k、300k、400k、450k、500k、550k、600k和1000k的个别群体。使用公众可获得的国家、州和县等级来调整模拟后代参数(参见上表1)。因为ghs主要服务郊区,郊区往往具有比更城市化的地区低的迁移率,所以来自宾夕法尼亚州(pa)的平均迁入率和迁出率降低。模拟是以120年的预采样时段来运行并且随后针对101年来进行。模拟群体增长了~15%,这类似于自从20世纪中叶以来pa的增长。
执行随机确定与集群确定。对于这两种确定方法,打乱群体中的前5%的确定次序(通过有序_采样_比例参数来指定)以便在合作开始时对ghs生物银行中的个体的随机测序次序建模。虽然此参数的选择对随机确定无作用并且对集群确定中的成对关系的积聚具有很少作用,但是其确实通过导致拐点而影响了具有通过集群采样而确定的一位或多位亲属的个体的比例,所述拐点在较高λ值时更显著。可以通过对真实数据的冻结过程建模或对来自ghs生物银行的测序样本与新确定的个体之间的较平滑转变建模使此拐点不那么显著。
实例6
模拟后代群体和确定模拟过程
所述模拟通过初始化用户指定数目的子群体和大小来开始。最初在零岁与最大生育年龄(默认为49岁)之间分配年龄。群体中的个体驻留于三个基于年龄的池中的一者中:少年、育龄或老龄。如果个体低于生育年龄(默认为15岁),那么将个体分配至子群体的少年池,或者如果个体在育龄范围内(默认为15岁到49岁),那么将个体分配至子群体的婚配池。在个体的年龄超过最低生育年龄时,将个体从少年池移至婚配池。类似地,一旦他们的年龄超过最大生育年龄,那么将他们从婚配池移至老龄池。如果个体移居或去世,那么将他们从所有年龄池移除。在建立初始群体之后,所述模拟执行120年的预采样阶段以建立家庭关系以及更紧密地匹配输入参数的年龄分布,同时要求相等的出生数与死亡数以及为零的净迁移率。在预采样之后,所述模拟针对指定的年数以所提供的群体增长率和迁移率而运行。除非另外说明,否则所述模拟按一年时间间隔来进行并且每一年具有在每个子群体内执行的以下步骤:
1.年龄-将年龄超出其年龄池的个体移至下一个年龄池。
2.法庭-模拟单身男性和单身女性进入一夫一妻制婚姻中。此过程对于获得全同胞关系的真实数目来说为重要的。从单身的育龄男性和女性的池随机地选择数对男性和女性,并且他们基于他们在其年龄结婚的机率成功地结婚,所述结婚机率由男性和女性“按年龄划分的婚姻”参数来指定。抽取数对,直到成功结婚的数目达到如由结婚率所限定的那样为止。配偶被限制为亲缘关系比堂表亲要远。在预采样阶段期间,结婚率为倍增,直到达到用户指定的初始结婚率为止(默认为育龄池中的66%结婚)。
3.分手-模拟男性和女性按指定离婚率解散婚姻。随机地选择配偶并且将这两个个体标记为单身。
4.交往-模拟在一年内在群体内可能发生的所有生育。从单身育龄池或已婚池中按由全同胞率限定的比率(默认为所有出生中的88%是已婚配偶的)随机地选择母亲/父亲对。抽取数对并且进行生育尝试,直到达到成功怀孕的目标数目为止(默认出生率是人均生0.0219个)。成功怀孕发生的概率是基于潜在母亲的年龄和对应的生育年龄。双亲被限制为亲缘关系比堂表亲要远,并且所有个体被限制为每年生育一个孩子。
5.剔除-模拟个体去世。使用死亡率(默认为人均0.0095死亡)来确定在给定年内在群体内的预计死亡数。使用按年龄划分的男性和女性死亡率参数来对随机地选择的个体将去世的概率加权。如果在0与1之间的随机数超过了人在他/她的年龄死亡的概率,那么保留所述个体并且选择另一个个体。将不幸的个体添加到逝去池并且从生者的任何其他池移除。老于120岁的所有个体都被自动地添加到逝去池并且计入该年内的目标死亡数。
6.迁移-模拟迁入和迁出所述群体。通过从群体随机地选择个体并且将他/她以及他/她的配偶(如果结婚)从所述群体移除来执行迁出。记录留下的少年和老龄个体的比例以及育龄已婚配偶的数目。以某方式来完成迁入以维持年龄分布和育龄已婚配偶的数目。首先,从现有群体随机地选择少年,并且将相同性别和年龄的新个体添加到少年池,并且重复这个过程,直到已添加了适当比例的少年为止。当人在迁移步骤期间被移除时,记录所移除的群体中的少年的比例。将所移除的相同数目的少年添加回到群体中。举例来说,如果移除了100个人(包括20位少年),并且仅添加10个人,那么那10个人中有2位将是少年。针对老龄个体重复相同的过程。接下来,从现有群体选择两个育龄个体,并且添加具有对应年龄的两个新个体。一个被分配为男性,并且另一个为女性,并且所述两位移民随后结婚。重复此步骤,直到已婚配偶的数目得到补充为止。最后,在所使用的相同过程中添加育龄个体以添加新的少年,并且一直重复,直到达到移民的目标数目为止。此过程帮助维持群体的年龄和性别分布以及已婚育龄个体的比例。
7.移居-模拟人们在子群体内移动。为了模拟子群体之间的基因隔离的缺乏,个体可以在总群体内的子群体之间移动。在整个群体内使用单个移动率。随机地选择来自子群体的个体并且将其随机地分配至其他子群体中的一者,直到达到所要的移居数目为止。如果仅有一个子群体或如果移居率是0(默认是每年总人口中的1%会移居),那么这个步骤不会发生。
所述模拟在指定长度的时间内进行,追踪每位创始者以及其后代。
执行随机确定与集群确定。对于这两种确定方法,打乱群体的前5%的确定次序(通过有序_采样_比例参数来指定)以便在我们的合作开始时对ghs生物银行中的个体的随机测序次序建模。虽然此参数的选择对随机确定无作用并且对集群确定中的成对关系的积聚具有很少作用,但是其确实通过导致拐点而影响了在数据集中具有通过集群采样而确定的一位或多位亲属的个体的比例,所述拐点在较高λ值时更显著。如果要对真实数据的冻结过程建模或对来自生物银行的测序样本与新确定的个体之间的较平滑转变建模,那么可以使此拐点不那么显著。举例来说,在移至子群组的下一个集合之前,在用户想要模拟从一个或多个子群体中进行确定的情况下,用户可以指定子群体确定次序。默认是最初将所有子群体分组并且从其中进行确定,如同其是单个群体。用户还可以指定在移至其他子群体或总群体之前确定的群体的初始比例。所述程序按ped文件格式建立用于整个群体的输出、所确定的样本按其被确定的次序排列的列表以及概述有用的群体和确定统计数据的若干结果文件。
可以使用此类前向模拟框架(模拟后代)来模拟各种群体,包括由健康护理系统像ghs(如上文举例)服务的群体。所述框架还可以模拟由hpg研究使用的样本确定。存在可以驱动所确定的数据集中的亲缘关系的数量的若干因素(图10)。
另外,此类模型可以基于用户指定的群体参数(参见上表1)来模拟分散在一个或多个子群体内的数百万人的群体。逐年进行,所述模拟基于指定的参数产生交往、出生、分离、迁移、死亡和在子群体之间移动。此过程生成表示各种hpg研究的现实谱系结构和群体。已调整默认值,使得模拟群体对discovehr队列和扩展discovehr队列建模,但是人们可以通过修改与模拟后代码一起包括的配置文件而容易地定制这些参数以对不同的群体建模。
1.一种预测人类群体中的亲缘关系的方法,所述方法包括:
建立第一群体数据集;
针对指定年数执行预采样阶段以根据所述第一群体数据集建立第二群体数据集;以及
对所述第二群体数据集执行模拟,包括以下一者或多者:
(a)根据所述第二群体数据集中的个体的年龄将所述个体移至年龄池;
(b)从所述第二群体数据集中的单身男性和单身女性中随机地选择亲缘关系比堂表亲要远的数对单身男性与单身女性并且按年龄参数让他们以指定婚姻结婚,其中选择数对直到结婚数目达到如由结婚率参数所指定的那样为止;
(c)使已婚配偶按指定离婚率离婚,其中已婚配偶是从所述第二群体数据集中随机地选出并且一旦离婚之后就标记为单身;
(d)按指定比率从所述第二群体数据集中随机地选择数对单身男性与单身女性或已婚配偶并且允许他们根据指定生育率来生育,直到达到成功怀孕的目标数目为止,其中双亲被限制为亲缘关系比堂表亲要远,并且其中所述第二群体数据集中的所有个体都被限制为每年生育一个孩子;
(e)允许所述第二群体数据集中的个体按照年龄参数按指定死亡率和按指定病死率去世;
(f)允许个体迁入和迁出所述第二群体数据集,由此维持所述第二群体数据集中的群体年龄和性别分布以及已婚育龄个体的比例;
(g)允许个体在所述第二群体数据集内移动,由此随机地选择来自子群体的个体并且如果存在另一个子群体则将所述个体随机地分配至另一个子群体,直到实现子群体之间的指定移动率为止;以及
(h)针对预定的年数以一年时间间隔来反复地重复(a)至(g)中的一者或多者,其中将(a)至(g)中的一者或多者应用于由先前反复产生的群体数据集以生成预测所述人类群体中的亲缘关系的最终群体数据集。
2.如权利要求1所述的方法,所述方法还包括基于所述最终群体数据集来选择所述人类群体以进行基因分析。
3.如权利要求2所述的方法,其中所述基因分析包括谱系重建、对复合杂合突变定相或检测新生突变。
4.如权利要求1所述的方法,其中所述人类群体包括多个人类群体,并且生成所述最终群体数据集包括针对所述多个人类群体中的每一者生成最终群体数据集,并且还包括基于所述最终群体数据集来选择所述多个人类群体中的一者以进行基因分析。
5.如权利要求1所述的方法,其中建立所述第一群体数据集还包括指定子群体的数目和大小。
6.如权利要求5所述的方法,其中建立所述第一群体数据集还包括将在零岁与最大生育年龄之间的年龄分配至所述第一群体数据集中的个体。
7.如权利要求5所述的方法,其中所述最大生育年龄是49岁。
8.如权利要求1至7中任一项所述的方法,其中执行所述预采样阶段还包括使所述第二群体数据集中的个体的出生数与死亡数保持相等并且使个体的净迁移率保持为零。
9.如权利要求8所述的方法,其中执行所述预采样阶段还包括:
在个体年龄超过最低生育年龄时,将所述第二群体数据集中的个体从少年池移至婚配池;
在个体年龄超过最大生育年龄时,将个体从所述婚配池移至老龄池;以及
如果来自所有年龄池的个体移民或去世,则移除所述个体。
10.如权利要求9所述的方法,其中所述最低生育年龄是15岁并且其中所述最大生育年龄是49岁。
11.使用如权利要求1至10中任一项所述的预测模型的方法,其中随机地执行对个体的确定。
12.使用如权利要求1至10中任一项所述的预测模型的方法,其中以集群方式执行对个体的确定。
13.如权利要求11或12所述的方法,其中对个体的确定还包括收集关于所确定的个体的亲缘关系数据和相关统计数据,所述亲缘关系数据和相关统计数据包括所确定的个体间的一级或二级关系或两者。
14.如权利要求1所述的方法,其中所述指定年数是120年。
15.一种用于预测人类群体中的亲缘关系的系统,所述系统包括:
数据处理器;存储器,所述存储器与所述数据处理器耦合;以及程序,所述程序存储在所述存储器中,所述程序包括能够由所述数据处理器执行的指令,其中所述程序:
建立第一群体数据集;
针对指定年数执行预采样阶段以根据所述第一群体数据集建立第二群体数据集;以及
对所述第二群体数据集执行模拟,包括以下一者或多者:
(a)根据所述第二群体数据集中的个体的年龄将所述个体移至年龄池;
(b)从所述第二群体数据集中的单身男性和单身女性中随机地选择亲缘关系比堂表亲要远的数对单身男性与单身女性并且按年龄参数让他们以指定婚姻结婚,其中选择数对直到结婚数目达到如由结婚率参数所指定的那样为止;
(c)使已婚配偶按指定离婚率离婚,其中已婚配偶是从所述第二群体数据集中随机地选出并且一旦离婚之后就标记为单身;
(d)按指定比率从所述第二群体数据集中随机地选择数对单身男性与单身女性或已婚配偶并且允许他们根据指定生育率来生育,直到达到成功怀孕的目标数目为止,其中双亲被限制为亲缘关系比堂表亲要远,并且其中所述第二群体数据集中的所有个体都被限制为每年生育一个孩子;
(e)允许所述第二群体数据集中的个体按照年龄参数按指定死亡率和按指定病死率去世;
(f)允许个体迁入和迁出所述第二群体数据集,由此维持所述第二群体数据集中的群体年龄和性别分布以及已婚育龄个体的比例;
(g)允许个体在所述第二群体数据集内移动,由此随机地选择来自子群体的个体并且如果存在另一个子群体则将所述个体随机地分配至另一个子群体,直到实现子群体之间的指定移动率为止;以及
(h)针对预定的年数以一年时间间隔来反复地重复(a)至(g)中的一者或多者,其中将(a)至(g)中的一者或多者应用于由先前反复产生的群体数据集以生成预测所述人类群体中的亲缘关系的最终群体数据集。
16.如权利要求15所述的系统,所述系统还包括基于所述最终群体数据集来选择所述人类群体以进行基因分析。
17.如权利要求16所述的系统,其中所述基因分析包括谱系重建、对复合杂合突变定相或检测新生突变。
18.如权利要求15所述的系统,其中所述人类群体包括多个人类群体,并且生成所述最终群体数据集包括针对所述多个人类群体中的每一者生成最终群体数据集,并且还包括基于所述最终群体数据集来选择所述多个人类群体中的一者以进行基因分析。
19.如权利要求15所述的系统,其中建立所述第一群体数据集还包括指定子群体的数目和大小。
20.如权利要求19所述的系统,其中建立所述第一群体数据集还包括将在零岁与最大生育年龄之间的年龄分配至所述第一群体数据集中的个体。
21.如权利要求19所述的系统,其中所述最大生育年龄是49岁。
22.如权利要求15至21中任一项所述的系统,其中执行所述预采样阶段还包括使所述第二群体数据集中的个体的出生数与死亡数保持相等并且使个体的净迁移率保持为零。
23.如权利要求22所述的系统,其中执行所述预采样阶段还包括:
在个体年龄超过最低生育年龄时,将所述第二群体数据集中的个体从少年池移至婚配池;
在个体年龄超过最大生育年龄时,将个体从所述婚配池移至老龄池;以及
如果来自所有年龄池的个体移民或去世,则移除所述个体。
24.如权利要求23所述的系统,其中所述最低生育年龄是15岁并且其中所述最大生育年龄是49岁。
25.使用如权利要求15至24中任一项所述的预测模型的系统,其中随机地执行对个体的确定。
26.使用如权利要求15至24中任一项所述的预测模型的系统,其中以集群方式执行对个体的确定。
27.如权利要求25或26所述的系统,其中对个体的确定还包括收集关于所确定的个体的亲缘关系数据和相关统计数据,所述亲缘关系数据和相关统计数据包括所确定的个体间的一级或二级关系或两者。
28.如权利要求15所述的系统,其中所述指定年数是120年。
29.一种确定人类群体中的亲缘关系的由非暂时性计算机实施的方法,所述方法包括:
使用数据处理器来建立第一群体数据集;
使用所述数据处理器来针对指定年数执行预采样阶段以根据所述第一群体数据集建立第二群体数据集;以及
使用所述数据处理器来对所述第二群体数据集执行模拟,包括以下一者或多者:
(a)根据所述第二群体数据集中的个体的年龄将所述个体移至年龄池;
(b)从所述第二群体数据集中的单身男性和单身女性中随机地选择亲缘关系比堂表亲要远的数对单身男性与单身女性并且按年龄参数让他们以指定婚姻结婚,其中选择数对直到结婚数目达到如由结婚率参数所指定的那样为止;
(c)使已婚配偶按指定离婚率离婚,其中已婚配偶是从所述第二群体数据集中随机地选出并且一旦离婚之后就标记为单身;
(d)按指定比率从所述第二群体数据集中随机地选择数对单身男性与单身女性或已婚配偶并且允许他们根据指定生育率来生育,直到达到成功怀孕的目标数目为止,其中双亲被限制为亲缘关系比堂表亲要远,并且其中所述第二群体数据集中的所有个体都被限制为每年生育一个孩子;
(e)允许所述第二群体数据集中的个体按照年龄参数按指定死亡率和按指定病死率去世;
(f)允许个体迁入和迁出所述第二群体数据集,由此维持所述第二群体数据集中的群体年龄和性别分布以及已婚育龄个体的比例;
(g)允许个体在所述第二群体数据集内移动,由此随机地选择来自子群体的个体并且如果存在另一个子群体则将所述个体随机地分配至另一个子群体,直到实现子群体之间的指定移动率为止;以及
(h)针对预定的年数以一年时间间隔来反复地重复(a)至(g)中的一者或多者,其中将(a)至(g)中的一者或多者应用于由先前反复产生的群体数据集以生成预测所述人类群体中的亲缘关系的最终群体数据集。
30.如权利要求29所述的由非暂时性计算机实施的方法,所述方法还包括基于所述最终群体数据集来选择所述人类群体以进行基因分析。
31.如权利要求30所述的系统,其中所述基因分析包括谱系重建、对复合杂合突变定相或检测新生突变。
32.如权利要求29所述的由非暂时性计算机实施的方法,其中所述人类群体包括多个人类群体,并且生成所述最终群体数据集包括针对所述多个人类群体中的每一者生成最终群体数据集,并且还包括基于所述最终群体数据集来选择所述多个人类群体中的一者以进行基因分析。
33.如权利要求29所述的由非暂时性计算机实施的方法,其中建立所述第一群体数据集还包括指定子群体的数目和大小。
34.如权利要求33所述的由非暂时性计算机实施的方法,其中建立所述第一群体数据集还包括将在零岁与最大生育年龄之间的年龄分配至所述第一群体数据集中的个体。
35.如权利要求34所述的由非暂时性计算机实施的方法,其中所述最大生育年龄是49岁。
36.如权利要求29至35中任一项所述的由非暂时性计算机实施的方法,其中执行所述预采样阶段还包括使所述第二群体数据集中的个体的出生数与死亡数保持相等并且使个体的净迁移率保持为零。
37.如权利要求36所述的由非暂时性计算机实施的方法,其中执行所述预采样阶段还包括:
在个体年龄超过最低生育年龄时,将所述第二群体数据集中的个体从少年池移至婚配池;
在个体年龄超过最大生育年龄时,将个体从所述婚配池移至老龄池;以及
如果来自所有年龄池的个体移民或去世,则移除所述个体。
38.如权利要求37所述的由非暂时性计算机实施的方法,其中所述最低生育年龄是15岁并且其中所述最大生育年龄是49岁。
39.如权利要求29至38中任一项所述的由非暂时性计算机实施的方法,其中随机地执行对个体的确定。
40.如权利要求29至38中任一项所述的由非暂时性计算机实施的方法,其中以集群方式执行对个体的确定。
41.如权利要求39或40所述的由非暂时性计算机实施的方法,其中对个体的确定还包括收集关于所确定的个体的亲缘关系数据和相关统计数据,所述亲缘关系数据和相关统计数据包括所确定的个体间的一级或二级关系或两者。
42.如权利要求29所述的由非暂时性计算机实施的方法,其中所述指定年数是120年。
技术总结