检测装置和方法与流程

专利2022-06-29  53


相关申请

本申请要求2017年10月17日提交的第62/573,475号美国临时申请的权益,所述临时申请的全部内容通过引用合并于此。



背景技术:

拷贝数变异(cnv)已成为重要的遗传变异类型,并经常被纳入例如人类遗传性状的遗传分析中。尤其是某些基因组区域的cnv,已知与从药物代谢速率到器官移植结果的各种表型有关。例如,多种药物的代谢途径取决于单个生物体(例如真核生物体和原核生物体,以及动物、植物和微生物)具有多少特定基因的功能性拷贝。当给予标准剂量时,具有不同数目的基因功能性拷贝的单个生物体可能具有截然不同的药物代谢速率,从而导致严重的医学并发症。这就是为什么在基于微阵列基因分型数据进行的全基因组关联研究(gwas)中经常调查预定义区域中的cnv的原因。但是,仍然难以实现有效、准确和高通量确定具有微阵列数据的拷贝数状态。



技术实现要素:

在一个方面,提供了一种用于对拷贝数变异进行基因分型的方法。所述方法可以包括:将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包含:将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;选择板效应值;基于所述分量评分为每个分量选择分量标签;利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;评估所述模型针对概率公差的拟合度;如果所述模型不在所述概率公差内,则评估下一个模型;以及如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高中值概率的模型;用历史分量数据配置归一化器,以调整每一个所述分量的均值和标准偏差,以生成调整后的混合组合;用所述调整后的混合组合配置分类器,以对未知样本进行分类,所述配置所述分类器包含:基于所述调整后的混合组合对分量密度进行加权;以及将所述未知样本与最可能分量进行比较;以及如果在样本位置评估的所述最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在所述样本位置评估的所述最可能分量的绝对密度高于密度临界值,则为所述未知样本分配具有最高概率的分量标签。

在一些实施例中,所述评分函数被构建为先验密度乘以混合组合分量、板效应,和所述分量的权重的均值的乘积。

在一些实施例中,所述概率公差还包含所述概率的中值大于0.1且不存在单个概率小于0.001。

在一些实施例中,所述多个候选模型按复杂度降序排列。

在一些实施例中,所述数据图包含具有表示密度和中值log2比的轴的图。

在一些实施例中,所述中值log2比值包含在基因组区域的多个测量值中强度数据与参考值的log2比的中值。

在一些实施例中,所述强度数据包含来自微阵列的荧光强度测量。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶序列杂交的核酸探针。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少20,000个不同靶序列杂交的核酸探针。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶外显子衍生的序列杂交的核酸探针。

在一些实施例中,所述数据图包含具有表示密度和中心趋势的任何测量的轴的图。

在一些实施例中,将基于密度的聚类应用于所述数据图还包含:根据所述数据图生成核密度估计;基于密度局部最小值将所述数据图划分为多个区域;计算每个区域的点的均值和标准偏差;如果观察次数低于第一阈值,则将与另一个区域的第一指定距离值内的值合并;从任何其它区域中除去所述第一指定距离值之外的区域;计算每个区域中的数据点的均值、标准偏差和比例;并且生成多个简化的候选模型,包含:合并与另一个区域的第二指定距离值内的值;如果观察次数低于阈值,则从任何其它区域中除去所述第二指定距离值之外的值;以及计算所述数据点的均值、标准偏差和比例。

在一些实施例中,统计参数还包含所述分量的所述均值、标准偏差和板效应。

在一些实施例中,所述历史分量数据可以是通用的或特定于所讨论的拷贝数区域的。

在另一方面,提供了一种用于对拷贝数变异进行基因分型的计算设备。所述计算设备可以包含处理器;以及存储指令的存储器,所述指令在由所述处理器执行时配置所述设备以:将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包含:将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;选择板效应值;基于所述分量评分为每个分量选择分量标签;利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;评估所述模型针对概率公差的拟合度;如果所述模型不在所述概率公差内,则评估下一个模型;以及如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高中值概率的模型;用历史分量数据配置归一化器,以调整每一个所述分量的均值和标准偏差,以生成调整后的混合组合;用所述调整后的混合组合配置分类器,以对未知样本进行分类,所述配置所述分类器包含:基于所述调整后的混合组合对分量密度进行加权;以及将所述未知样本与最可能分量进行比较;以及如果在样本位置评估的所述最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在所述样本位置评估的所述最可能分量的绝对密度高于密度临界值,则为所述未知样本分配具有最高概率的分量标签。

在一些实施例中,所述评分函数被构建为先验密度乘以混合组合分量、板效应,和所述分量的权重的均值的乘积。

在一些实施例中,所述概率公差还包含所述概率的中值大于0.1且不存在单个概率小于0.001。

在一些实施例中,所述多个候选模型按复杂度降序排列。

在一些实施例中,所述数据图包含具有表示密度和中值log2比的轴的图。

在一些实施例中,所述中值log2比值包含在基因组区域的多个测量值中强度数据与参考值的log2比的中值。

在一些实施例中,所述强度数据包含来自微阵列的荧光强度测量。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶序列杂交的核酸探针。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少20,000个不同靶序列杂交的核酸探针。

在一些实施例中,所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶外显子衍生的序列杂交的核酸探针。

在一些实施例中,所述数据图包含具有表示密度和中心趋势的任何测量的轴的图。

在一些实施例中,将基于密度的聚类应用于所述数据图还包含:根据所述数据图生成核密度估计;基于密度局部最小值将所述数据图划分为多个区域;计算每个区域的点的均值和标准偏差;如果观察次数低于第一阈值,则将与另一个区域的第一指定距离值内的值合并;从任何其它区域中除去所述第一指定距离值之外的区域;计算每个区域中的数据点的均值、标准偏差和比例;并且生成多个简化的候选模型,包含:合并与另一个区域的第二指定距离值内的值;如果观察次数低于阈值,则从任何其它区域中除去所述第二指定距离值之外的值;以及计算所述数据点的均值、标准偏差和比例。

在一些实施例中,统计参数还包含所述分量的所述均值、标准偏差和板效应。

在一些实施例中,所述历史分量数据可以是通用的或特定于所讨论的拷贝数区域的。

附图说明

为了容易地识别对任何特定元素或动作的讨论,参考标号中的最高有效数字是指所述元素首次引入时的附图编号。

图1示出了根据一个实施例的用于对拷贝数变异100进行基因分型的系统。

图2示出了用于对拷贝数变异200进行基因分型的过程。

图3示出了用于从多个候选模型300中选择最佳拟合模型的子例程的实施例。

图4示出了数据模型400的实施例。

图5示出的数据图500示出了根据一个实施例的分量密度值和迭代。

图6示出了根据一个实施例的样本中的探针强度的log2比与二倍体对照减去板效应500。

图7示出的数据图700示出了根据一个实施例的分量密度权重。

图8示出的数据图800示出了根据一个实施例的分量密度权重和迭代。

图9示出了根据一个实施例的分析系统900。

具体实施方式

当前使用的算法需要用于减轻板效应的板内对照。但是,此类对照通常不适用于各种样本类型和非模型生物体,从而使这些算法容易出错。此外,存在多种已知配料因数,所述配料因数可能影响结果并且有时足够重要以至于必须将配料因数纳入模型中(例如,板效应)。补偿板效应的一种当前方法是通过将样本应用到板上并测量结果来校准具有已知拷贝数的样本。

本公开提供了新颖的系统和方法,能以更高的效率和准确性来分析测试样本的拷贝数。在一些实施例中,系统和方法不利用或不需要提供已知拷贝数的对照。因此,本文提供的系统和方法不必每次分析时(例如,每个板)都运行对照样本。取而代之的是,可以在内部分析和比较每个板中从测试样本获得的数据,并且可以根据分析确定每个样本的拷贝数。通过这个方面,所述系统和方法可以比例如依赖于对照数据的其它方法以明显更高的效率和准确性来补偿或减轻可变因数(例如,板效应)。另外,即使用户不跨多个板分析相同或不同来源的样本的数据,本文提供的系统和方法也允许计算板的效果,这特别有助于增加通量。

通常使用发现模式下的拷贝数分析来检查较大的基因组区域。公开了一种系统和方法的实施例,以采用这种分析来监视预期拷贝数变化的小的重要区域。所述区域可以包括一个基因,可以包括基因的一部分,或者在某些情况下可以包括比基因大的一个或多个序列。所述系统可以与微阵列配合使用以调用拷贝数,并且可以对5、10、25、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250或更多数目的基对以及前述数目之间的任何数目的基对良好地执行。当应用于删除时,所述系统可以与例如50个探针配合使用,每个探针被5个基对分开。为了以5个基对间隔进行扩增,系统可以使用100个探针。可以使用较小的区域,同时会降低分辨率。在各种实施例中,任意数目的基对间隔(例如1、2、3、4、5、6、7、8、9、10、50、100、200、500、750、1000或更多基对间隔)使用本文提供的方法和系统是可行的。同样,可以使用任何数目的探针(例如,每个板10、20、50、75、100、150、200、250、500、750、1000、5000、10,000、50,000、100,000或更多探针)。

所述方法可以一次应用于一批(一块板),利用多个样本建立基线并有效地对信号进行归一化。作为模型的一部分,估计每个板的配料因数,并且不需要板内对照。所述系统和方法补偿使当前数据与之比较的参考信号与当前数据不兼容的技术因数。所述方法可以应用于任何已知的配料因数,例如板效应。当无法通过应用板参考/对照直接补偿板效应时,这特别有用。

可以使用来自多个样本中的信息来执行拷贝数评估,例如使用整个微量滴定板(24、96、384等)。可以收集来自整个板的数据,并将其应用于将样本聚类并在此基础上进行调用。对于每个数据板,对于每个固定区域,都将基于密度对数据进行聚类,并临时除去未聚类的异常值。对于一个给定板上的每个区域,使用所述板上所有样本的测试比估计最佳高斯混合组合。例如,可以应用中值二进制对数比来发现数据内的结构。通过比较对群集进行分类,以在固定的预定区域中进行cnv识别。对于每个样本中的每个指定区域,使用从不同样本中获得的参考信号,将探针之间的信号汇总为中值二进制对数比。一旦建立了结构,就可以将关于群集位置的先验和已知数据应用于混合组合的分量,并且可以用拷贝数状态标记分量,其中基于每个分布中的隶属概率为每个样本分配调用。根据先前的知识或期望,将最初删除的异常值重新带入分析并分配中间拷贝数状态,这些状态给出处于每个状态的最高概率。将中间拷贝数状态与来自先验分析的已知数据进行比较,并基于异常值最有可能是哪个异常拷贝数状态来对异常值进行分类。

以下等式体现了可以以逻辑方式执行以执行这些处理步骤的算法:

先验均值和数据的加权平均

后验分布,荐y~n(μ,σ2)且

kn=k0 n

vn=v0 n

现有方差、样本方差和样本与先前均值之间的距离的加权和。

为了计算第一个也是最复杂的模型,使用观察到的数据获得核密度,确定密度函数并将其微分以找到局部最小值,然后将局部最小值用作将数据集划分为对应于潜在混合组合分量的区域。计算每个区域中各点的均值和标准偏差。将观察次数较少的区域迭代合并为密集区域。与其它区域的距离超过阈值距离的区域将被弃用。每个点下面的空间的一部分(例如,拷贝数为零的估计点)缩小了总阈值距离除以所述点的阈值距离的因数。计算每个区域中数据点的均值、标准偏差和比例,从而提供初始和最复杂的候选模型。

通过合并彼此最接近的两个分量,可以迭代地构建更简单的候选模型。重新计算区域内数据点的均值和标准偏差,并弃用足够小的分量,然后返回模型-这是最简单的模型。

为了找到最佳数目的高斯分量,对模型进行从最复杂到最不复杂的迭代。评分函数被构建为先验密度乘以混合组合分量、板效应,和分量权重的均值的乘积。假设所有参数均独立,分析一组合理的标签。因为群集的位置被定义为其点估计,所以唯一可调整的参数是板效应。找到并使用最大评分值,并将与所述评分的最大值相对应的板效果值用作点估计。通过调整后的混合组合分数对分量密度进行加权,以对每个样本进行分类。对估计权重小于某个水平的分量分配所述权重,然后将所有权重重新归一化为总和为1。计算估计参数的概率的混合组合分量均值和标准偏差,并给板效应以最佳标签。如果至少一个概率小于例如0.001,并且它们的中值小于例如0.1,则可以为模型记录参数的中值概率,并且可以重复所述过程,直到找到满意的模型为止。如果没有被认为满意的模型,则对参数选择具有最高中值概率的模型。

通过调整后的混合组合分数对分量密度进行加权,以对每个样本进行分类,并对估计权重小于某个水平的分量分配所述权重,然后将所有权重重新归一化为总和为1。对于每个样本,找到第一和第二最可能分量,并将密度水平相互比较。如果最可能分量更有可能并且密度超过某个限值,则分配调用。如果条件之一失败,则不会分配任何调用。

在本文中,“调用”是指:在单个基因组或转录组的给定位置存在核苷酸差异与某些参考的结论。

在本文中,“共轭先验”是指:在贝叶斯概率理论中,如果后验分布p(θ|x)与先验概率分布p(θ)在同一族中,则先验和后验被称为共轭分布,并且先验被称为似然函数的共轭先验。例如,关于高斯似然函数,高斯族与其自身是共轭的(或自共轭):如果似然函数是高斯,则对于均值选择先验高斯将确保后验分布也是高斯。这意味着,对于同样也是高斯的似然,高斯分布是共轭先验。

在本文中,“拷贝数变异”是指这样的现象:基因组的各个部分被重复,而基因组中重复的数目在人群中的个体之间变化。

在本文中,“全基因组关联研究”是指:检查不同个体中全基因组的遗传变异集,以查看是否有任何变异与性状相关。这也称为全基因组关联研究(wga研究或wgas)。

在本文中,“狄利克雷分布”是指:β分布的多元概括。狄利克雷分布在贝叶斯统计中经常被用作先验分布,并且实际上狄利克雷分布是分类分布和多项式分布的共轭先验。

在本文中,“核密度估计”是指:用于估计随机变量的概率密度函数的非参数方式。核密度估计是基本数据平滑问题,其中基于有限的数据样本对总体进行了推断。在诸如信号处理和计量经济学之类的某些领域中,它也被称为parzen-rosenblatt窗口方法,以emanuelparzen和murrayrosenblatt命名,一般认为,emanuelparzen和murrayrosenblatt以核密度估计的当前形式独立创建了核密度估计。

在本文中,“微阵列”是指:物理支持物,来自不同基因的多条dna序列链附着在所述物理支持物的特定位置上。例如,一种这样的支持物是嵌入塑料盒中的硅晶片。表示人类基因组一部分的数百万个dna片段已合成到此晶片上;然后将生物体的dna加载到微阵列上进行分析。其它类型的支持物有尼龙膜和玻璃显微镜载玻片,并且dna片段(也称为探针)可以合成、印刷或点样到这些支持物上。

在本文中,“正态反伽马分布”是指:在概率论和统计中,正态反伽马分布(或高斯反伽马分布)是多元连续概率分布的四参数族。它是均值和方差未知的正态分布的共轭先验。贝叶斯一致性已经与贝叶斯非参数紧密相关,反映了真实的假设,即真实分布函数可以采用任何形状。另一方面,参数贝叶斯推断是基于将先验概率1置于具有特定形式的密度函数上的。

在这种情况下,“后验”是指:在考虑到与正被检查的特定案件有关的相关证据之后。

在本文中,“后验概率”是指:在考虑了相关证据或背景之后分配的随机事件或不确定命题的条件概率。类似地,后验概率分布是未知量的概率分布,视从实验或调查获得的证据为条件,所述未知量被视为随机变量。

在一些实施例中,如图1所示的用于对拷贝数变异进行基因分型的系统100包括分析计算机系统102、反应板104、传感器106和微阵列108。

在一些实施例中,分析计算机系统102从传感器106接收数据。传感器106可以是用于检测来自反应板104上的微阵列108的荧光的光学传感器。

在一些实施例中,如图2所示的用于对拷贝数变异进行基因分型的系统200包括密度聚类202、数据图204、多个候选模型206、分量208、评分函数210、归一化器212、分类器214、调整后的混合组合216、最佳拟合模型218、历史分量数据220、用户界面222、未知样本224、传感器226和微阵列228。

在一些实施例中,将密度聚类202应用于数据图204以生成多个候选模型206,并且从多个候选模型206中选择最佳拟合模型218。密度聚类202可以从传感器226接收数据图204的数据,所述传感器可以从微阵列228读取荧光。将最佳拟合模型218和评分函数210应用于数据图204中的分量208。

在一些实施例中,归一化器212配置有历史分量数据220以调整分量208中的每一个的均值和标准偏差并生成调整后的混合组合216。分类器214可以配置有调整后的混合组合216以对未知样本224进行分类,并将调用传输到用户界面222。

可以根据图3和图4中概述的过程来操作用于对拷贝数变异进行基因分型的系统200。在一些实施例中,可以在本文附图的各个实施例中示出的任何步骤之前、之后或之间执行一个或多个附加步骤。因此,例如,可以在图3的步骤302之前执行选择样本并将样本添加到阵列的步骤。另外,可以在不会实质降低测定的功能的范围内省略附图的示例性实施例中所示的一个或多个步骤。

参考图3,根据一些实施例的用于对拷贝数变异进行基因分型的过程300将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型(框302)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300从多个候选模型中选择最佳拟合模型(框304)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300用历史分量数据配置归一化器,以调整每一个分量的均值和标准偏差,以生成调整后的混合组合(框306)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300用调整后的混合组合配置分类器,以对未知样本进行分类(框308)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300基于调整后的混合组合对分量密度进行加权(子例程框310)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300将未知样本与最可能分量进行比较(子例程框312)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300评估在样本位置评估的最可能分量的密度与第二最可能分量的密度之比是否高于某个临界值(判定框314)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300评估在样本位置评估的最可能分量的绝对密度是否高于密度临界值(判定框316)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300:如果在样本位置评估的最可能分量的密度与第二最可能分量的密度之比低于某个临界值,或在样本位置评估的最可能分量的绝对密度低于密度临界值,则不分配调用(框318)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程300:如果在样本位置评估的最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在样本位置评估的最可能分量的绝对密度高于密度临界值,则为未知样本分配具有最高概率的分量标签(框320)。

参考图4,根据一些实施例的用于从多个候选模型中选择最佳拟合模型的子例程400将来自多个候选模型中的模型以及评分函数应用于分量,以生成分量评分(子例程框402)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程400选择板效应值(子例程框404)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程400基于分量评分为每个分量选择分量(子例程框406)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程400利用板效应值作为每一个分量的点估计,并计算分量的估计统计参数的概率(子例程框408)。

在一些实施例中,用于对拷贝数变异进行基因分型的过程400评估模型针对概率公差的拟合度(子例程框410)。

在一些实施例中,如果模型不在概率公差内,则用于对拷贝数变异进行基因分型的过程400评估下一个模型(子例程框412)。

在一些实施例中,如果多个候选模型中没有一个满足概率公差,则用于对拷贝数变异进行基因分型的过程400对参数应用具有最高中值概率的模型(子例程框414)。

在一些实施例中,如图5所示的数据模型500包括区域502、区域504、区域506、局部最小值508和局部最小值510。

在一些实施例中,可以使用观察到的数据找到核密度。可以通过密度的差异找到局部极小值508和局部极小值510。可以使用局部极小值508和局部极小值510将整个数据集划分为与潜在混合组合分量相对应的区域506、区域404和区域502,然后计算每个区域中的点的均值和sd。

可以将这些区域迭代合并为具有大量观察值的区域。可以重新计算每个区域中数据点的均值、标准偏差和比例,以创建初始和最复杂的候选模型。作为替代示例,根据前述过程分析了一组样本,并且在图8中以分量密度权重和迭代示出了所得数据。

在一些实施例中,如图6中所示,样本中的探针强度的log2比与二倍体对照减去板效应600包括区域602和区域604。用于确定拷贝数状态的固定阈值可以针对每个区域602、区域604以及每个阵列类型进行调整。

在一些实施例中,如图7所示,分量密度权重700包括样本702、样本704、样本706、分量密度708和分量密度710。

可以使用通过调整后的混合组合分数加权的分量密度对样本702、样本704和样本706中的每一个进行分类。可以对估计权重小于某个临界值的分量分配所述权重,然后将所有权重重新归一化为总和为1。

在一些实施例中,对于样本704、样本706和样本702,可以找到最可能和第二最可能分量、分量密度710和分量密度708。可以将分量密度710和分量密度708相互比较。可以基于分量密度710与分量密度608的比以及分量密度708的绝对密度,将与分量密度708相对应的调用分配给样本704。可以根据分量密度710与分量密度708的比以及分量密度608和分量密度710的绝对密度,对样本706分配分量密度708或分量密度710。由于样本702到分量密度710和分量密度708的距离,因此可不对样本702分配调用,这表明缺少绝对和相对分量密度。

参考图9,根据一些实施例的用于对拷贝数变异进行基因分型的系统900包括组件902和组件904。图9示出了可以以迭代方式构建更简单的模型。

在一些实施例中,如果组件902和组件904彼此足够接近,则可以通过在概率公差值内将与它们接近的组件合并来将它们组合在一起。重新计算数据点的均值和标准偏差。

图9示出了根据一个实施例的示例性分析系统900的几个组件。在各种实施例中,系统900可以包含台式pc、服务器、工作站、移动电话、笔记本电脑、平板电脑、机顶盒、家用电器或其它能够执行诸如本文所述的操作的计算装置。在一些实施例中,系统900可以包含比图9所示的组件更多的组件。然而,不必为了公开说明性实施例而示出所有这些通常常规的组件。各种有形组件或有形组件的子集在本文中可以统称为以特定方式配置或适配的“逻辑”,例如,以特定软件或固件配置或适配的逻辑。

在各种实施例中,系统900可以包括共同提供本文所述的功能的一个或多个物理和/或逻辑装置。在一些实施例中,系统900可以包括一个或多个复制和/或分布式物理或逻辑装置。

在一些实施例中,系统900可以包括从“云计算”提供商提供的一个或多个计算资源,例如由华盛顿州西雅图市的amazon.com,inc.提供的amazonelasticcomputecloud(“amazonec2”);由加利福尼亚州圣塔克拉拉市的sunmicrosystems,inc.提供的suncloudcomputeutility;由华盛顿州雷蒙德市的microsoftcorporation提供的windowsazure等。

系统900包含将多个组件互连的总线902,这些组件包含网络接口908、显示器906、中央处理单元910和存储器904。

存储器904通常包括随机存取存储器(“ram”)和永久性的非暂时性大容量存储装置,例如硬盘驱动器或固态驱动器。存储器904存储操作系统912。

可使用与非暂时性计算机可读介质916相关联的例如dvd/cd-rom驱动器、存储卡、网络下载等驱动器机制(未示出)将这些和其它软件组件加载到系统900的存储器904中。

存储器904还包括数据库914。在一些实施例中,系统900可以经由网络接口908、存储区域网络(“san”)、高速串行总线和/或经由其它合适的通信技术与数据库914通信。

在一些实施例中,数据库914可以包括从“云存储”提供商提供的一个或多个存储资源,例如,由华盛顿州西雅图市的amazon.com,inc.提供的amazonsimplestorageservice(“amazons3”);由加利福尼亚州山景城的google,inc.提供的googlecloudstorage等。

本文使用的术语应符合相关领域的普通含义,或与其在上下文中使用所指示的含义一致,但是如果提供明确的定义,则以所述含义为准。

在本文中,“电路系统”是指具有至少一个分立电路的电路系统,具有至少一个集成电路的电路系统,具有至少一个专用集成电路的电路系统,形成由计算机程序配置的通用计算装置的电路系统(例如,由至少部分地执行本文所述的过程或装置的计算机程序配置的通用计算机,或由至少部分地执行本文所述的过程或装置的计算机程序配置的微处理器),形成存储器装置的电路系统(例如,随机存取存储器的形式),或形成通信装置的电路系统(例如,调制解调器、通信交换机或光电设备)。

在本文中,“固件”是指体现为存储在只读存储器或介质中的处理器可执行指令的软件逻辑。

在本文中,“硬件”是指体现为模拟或数字电路的逻辑。

在本文中,“逻辑”是指机器存储器电路、非暂时性机器可读介质和/或电路系统,其通过其材料和/或材料能量配置包括可应用以影响装置的操作的控制和/或过程信号,和/或设置和值(例如电阻、阻抗、电容、电感、电流/电压额定值等)。磁介质、电子电路、电和光存储器(易失性和非易失性)以及固件都是逻辑示例。逻辑专门排除了纯信号或软件本身(但是不排除包括软件的机器存储器,从而形成了物质的配置)。

在本文中,“可编程装置”是指被设计成在制造之后被配置和/或重新配置的集成电路。术语“可编程处理器”是本文中可编程装置的别称。可编程装置可以包含可编程处理器,例如现场可编程门阵列(fpga)、可配置硬件逻辑(chl)和/或任何其它类型的可编程装置。通常使用计算机代码或诸如硬件描述语言(hdl)之类的数据(诸如例如verilog,vhdl等)来指定可编程装置的配置。可编程装置可以包含可编程逻辑块的阵列和可重配置互连的层次,所述可重配置互连的层次允许根据hdl代码中的描述将可编程逻辑块彼此耦合。每个可编程逻辑块可被配置为执行复杂的组合功能,或者仅执行简单的逻辑门,例如“与”逻辑块和“异或”逻辑块。在大多数fpga中,逻辑块还包含存储器元件,其可以是简单的锁存器、触发器(以下也称为“触发器”)或更复杂的存储器块。根据不同逻辑块之间互连的长度,信号可能会在不同时间到达逻辑块的输入端子。

在本文中,“软件”是指被实现为机器存储器(例如,读/写易失性或非易失性存储器或介质)中的处理器可执行指令的逻辑。

在本文中,对“一个实施例”或“实施例”的引用不一定指相同的实施例,尽管它们可以指相同的实施例。除非上下文清楚地另外要求,否则在整个说明书和权利要求书中,词语“包括”、“包含”等应理解为包括性含义,而不是排他性或穷举性含义;也就是说,为“包含但不限于”的意义。除非明确限制为单个或多个,否则使用单数或复数的词也分别包含复数或单数。另外,当在本申请中使用时,词语“本文”、“以上”、“以下”和类似含义的词语整体上是指本申请,而不是本申请的任何特定部分。当权利要求在提及两个或多个项目的列表时使用单词“或”时,所述单词涵盖所述单词的以下所有解释:列表中的任何项目,列表中的所有项目以及列表中的项目的任何组合,除非明确限制为其中一个。相关领域技术人员通常理解,本文中未明确定义的任何术语均具有其常规含义。

本文描述的各种逻辑功能操作可以以使用反映所述操作或功能的名词或名词短语引用的逻辑来实现。例如,关联操作可以由“关联器”或“相关器”执行。同样,可以通过“开关”进行切换,通过“选择器”进行选择等。

本领域技术人员将认识到,在本领域内是常见的是,以本文阐述的方式描述装置或过程,然后使用标准工程实践将这样描述的装置或过程集成到更大的系统中。可以通过合理数目的实验将本文描述的装置或过程的至少一部分集成到网络处理系统中。本文描述了各种实施例并且以示例而非限制的方式呈现。

本领域技术人员将理解,存在可以通过其实现本文描述的过程和/或系统的各种逻辑实现方式(例如,硬件、软件或固件),并且优选的媒介物将随着部署流程的背景的变化而变化。如果实施者确定速度和准确性至关重要,则实施者可以选择硬件或固件实施;替代地,如果灵活性至关重要,则实施者可以选择单独的软件实施;或者又替代地,实施者可以选择硬件、软件或固件的某种组合。因此,存在许多可能的实现方式,通过这些实现方式可以实现本文所述的过程,在这些实现方式中,没有一个在本质上优于另一个,因为要使用的任何媒介物都是根据部署实现方式的背景和具体情况来选择的,并且实施者的关注点(例如速度、灵活性或可预测性)其中的任何一个都可能有所不同。本领域技术人员将认识到,实现方式的光学方面可以涉及面向光学的硬件、软件和/或固件。

本领域技术人员将理解,逻辑可以分布在一个或多个装置中,和/或可以由存储器、介质、处理电路和控制器、其它电路等的组合组成。因此,出于清楚和正确起见,虽然逻辑固有地存在于装置和系统中,但是不一定总是在装置和系统的附图中清楚地示出逻辑。可以经由分布在一个或多个计算装置中的逻辑来实现本文描述的技术和过程。逻辑的特定分布和选择将根据实现方式而变化。

前述详细描述已经通过使用框图、流程图或示例阐述了装置或过程的各种实施例。就这样的框图、流程图或示例包含一个或多个功能或操作而言,本领域技术人员将众所周知,这样的框图、流程图或示例内的每个功能或操作可以由各种硬件、软件、固件或其几乎任何组合单独地或共同地实现。本文描述的主题的部分可以经由专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)或其它集成格式来实现。然而,本领域技术人员将认识到,本文中公开的实施例的某些方面可以全部或部分地等效地在标准集成电路中实现为在一个或多个处理装置上运行的一个或多个计算机程序(例如,实现为在一个或多个计算机系统上运行的一个或多个程序),实现为在一个或多个处理器上运行的一个或多个程序(例如,实现为在一个或多个微处理器上运行的一个或多个程序),实现为固件或实现为实际上以上的任何组合,根据本公开,设计电路或为软件或固件编写代码将完全在本领域技术人员的能力范围内。另外,本领域技术人员将理解,本文描述的主题的机制能够以各种形式作为程序产品来分发,并且本文描述的主题的说明性实施例同等地适用,而无论用于实际进行分布的特定类型的信号承载介质如何。信号承载介质的示例包含但不限于以下内容:可记录类型的介质,例如软盘、硬盘驱动器、cdrom、数字磁带、闪存驱动器、sd卡、固态固定或可移动存储装置以及计算机存储器。


技术特征:

1.一种用于对拷贝数变异进行基因分型的方法,其包括:

将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;

从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包括:

将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;

选择板效应值;

基于所述分量评分为每个分量选择分量标签;

利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;

评估所述模型针对概率公差的拟合度;

如果所述模型不在所述概率公差内,则评估下一个模型;以及

如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高中值概率的模型;

用历史分量数据配置归一化器,以调整所述分量中的每一个的均值和标准偏差,以生成调整后的混合组合;

用所述调整后的混合组合配置分类器,以对未知样本进行分类,所述配置所述分类器包括:

基于所述调整后的混合组合对分量密度进行加权;以及

将所述未知样本与最可能分量进行比较;以及

如果在样本位置评估的所述最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在所述样本位置评估的所述最可能分量的绝对密度高于密度临界值,则为所述未知样本分配具有最高概率的分量标签。

2.根据权利要求1所述的方法,其中所述评分函数被构建为先验密度乘以混合组合分量、板效应,和所述分量的权重的均值的乘积。

3.根据权利要求1到2中任一项所述的方法,其中所述概率公差还包括所述概率的中值大于0.1且不存在单个概率小于0.001。

4.根据权利要求1到3中任一项所述的方法,其中所述多个候选模型按复杂度降序排列。

5.根据权利要求1到4中任一项所述的方法,其中所述数据图包括具有表示密度和中值log2比的轴的图。

6.根据权利要求1到5中任一项所述的方法,其中所述中值log2比值包括在基因组区域的多个测量值中强度数据与参考值的log2比的中值。

7.根据权利要求6所述的方法,其中所述强度数据包含来自微阵列的荧光强度测量。

8.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶序列杂交的核酸探针。

9.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少20,000个不同靶序列杂交的核酸探针。

10.根据权利要求7所述的方法,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶外显子衍生的序列杂交的核酸探针。

11.根据权利要求1到10中任一项所述的方法,其中所述数据图包括具有表示密度和中心趋势的任何测量的轴的图。

12.根据权利要求1到11中任一项所述的方法,其中将基于密度的聚类应用于所述数据图还包括:

根据所述数据图生成核密度估计;

基于密度局部最小值将所述数据图划分为多个区域;

计算每个区域的点的均值和标准偏差;

如果观察次数低于第一阈值,则将与另一个区域的第一指定距离值内的值合并;

从任何其它区域中除去所述第一指定距离值之外的区域;

计算每个区域中的数据点的均值、标准偏差和比例;并且

生成多个简化的候选模型,包括:

合并与另一个区域的第二指定距离值内的值;

如果观察次数低于阈值,则从任何其它区域中除去所述第二指定距离值之外的值;以及

计算所述数据点的均值、标准偏差和比例。

13.根据权利要求1到12中任一项所述的方法,其中统计参数还包括所述分量的所述均值、标准偏差和板效应。

14.根据权利要求1到13中任一项所述的方法,其中所述历史分量数据可以是通用的或特定于所讨论的拷贝数区域的。

15.一种用于对拷贝数变异进行基因分型的计算设备,其包括:

处理器;以及

存储指令的存储器,所述指令在由所述处理器执行时配置所述设备以:

将基于密度的聚类应用于数据图,以从高斯分量生成多个候选模型;

从所述多个候选模型中选择最佳拟合模型,所述选择所述最佳拟合模型包括:

将来自所述多个候选模型中的模型以及评分函数应用于所述分量,以生成分量评分;

选择板效应值;

基于所述分量评分为每个分量选择分量标签;

利用所述板效应值作为每一个所述分量的点估计,并计算所述分量的估计统计参数的概率;

评估所述模型针对概率公差的拟合度;

如果所述模型不在所述概率公差内,则评估下一个模型;以及

如果所述多个候选模型中没有一个满足所述概率公差,则对参数应用具有最高中值概率的模型;

用历史分量数据配置归一化器,以调整所述分量中的每一个的均值和标准偏差,以生成调整后的混合组合;

用所述调整后的混合组合配置分类器,以对未知样本进行分类,所述配置所述分类器包括:

基于所述调整后的混合组合对分量密度进行加权;以及

将所述未知样本与最可能分量进行比较;以及

如果在样本位置评估的所述最可能分量的密度与第二最可能分量的密度之比高于某个临界值,并且在所述样本位置评估的所述最可能分量的绝对密度高于密度临界值,则为所述未知样本分配具有最高概率的分量标签。

16.根据权利要求15所述的计算设备,其中所述评分函数被构建为先验密度乘以混合组合分量、板效应,和所述分量的权重的均值的乘积。

17.根据权利要求15到16中任一项所述的计算设备,其中所述概率公差还包括所述概率的中值大于0.1且不存在单个概率小于0.001。

18.根据权利要求15到17中任一项所述的计算设备,其中所述多个候选模型按复杂度降序排列。

19.根据权利要求15到18中任一项所述的计算设备,其中所述数据图包括具有表示密度和中值log2比的轴的图。

20.根据权利要求19所述的计算设备,其中所述中值log2比值包括在基因组区域的多个测量值中强度数据与参考值的log2比的中值。

21.根据权利要求20所述的计算设备,其中所述强度数据包含来自微阵列的荧光强度测量。

22.根据权利要求21所述的计算设备,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶序列杂交的核酸探针。

23.根据权利要求21所述的计算设备,其中所述微阵列包含被配置为与基因组或转录组中存在的至少20,000个不同靶序列杂交的核酸探针。

24.根据权利要求21所述的计算设备,其中所述微阵列包含被配置为与基因组或转录组中存在的至少10,000个不同靶外显子衍生的序列杂交的核酸探针。

25.根据权利要求15到24中任一项所述的计算设备,其中所述数据图包括具有表示密度和中心趋势的任何测量的轴的图。

26.根据权利要求15到25中任一项所述的计算设备,其中将基于密度的聚类应用于所述数据图还包括:

根据所述数据图生成核密度估计;

基于密度局部最小值将所述数据图划分为多个区域;

计算每个区域的点的均值和标准偏差;

如果观察次数低于第一阈值,则将与另一个区域的第一指定距离值内的值合并;

从任何其它区域中除去所述第一指定距离值之外的区域;

计算每个区域中的数据点的均值、标准偏差和比例;并且

生成多个简化的候选模型,包括:

合并与另一个区域的第二指定距离值内的值;

如果观察次数低于阈值,则从任何其它区域中除去所述第二指定距离值之外的值;以及

计算所述数据点的均值、标准偏差和比例。

27.根据权利要求15到26中任一项所述的计算设备,其中统计参数还包括所述分量的所述均值、标准偏差和板效应。

28.根据权利要求15到27中任一项所述的计算设备,其中所述历史分量数据可以是通用的或特定于所讨论的拷贝数区域的。

技术总结
一种系统和方法利用多样本批次对照在预期拷贝数变化的少量固定区域中进行高通量拷贝数调用。所述系统和方法利用应用于基于密度的聚类和先验知识映射的区域的中间拷贝数来进行对分量的最终拷贝数调用。

技术研发人员:O·卡姆尼瓦;J·库拉布;R·瓦尔马
受保护的技术使用者:阿费梅特里克斯公司
技术研发日:2018.10.17
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-47414.html

最新回复(0)