一种LC-MS数据高灵敏度特征检测方法与流程

专利2022-06-29  146


本申请涉及生物化学图像处理技术领域,特别涉及一种基于神经网络深度学习的质谱图像来实现高灵敏度特征检测的方法。



背景技术:

液相色谱-质谱联用(lc-ms)技术已广泛应用于基于代谢组学、蛋白质组学和基因组学的复杂生物样品研究中。随着lc-ms灵敏度、色谱分辨率和质量测量精度不断提高,越来越多的生物分子可被检测到。但分析掺杂大量噪声的原始lc-ms数据具有较大挑战性,需发展有效的预处理技术以降低数据集的复杂性。其中,峰值检测/特征检测作为关键技术已有效应用于lc-ms数据预处理中。

目前,公开软件如xcms、mzmine2、maxquant和openms,中集成了多种峰值检测计算方法。主要分为两大类:基于eic(提取离子色谱)峰检测方法及基于预定义形状匹配的2d(二维)检测方法。其中,基于eic的检测方法通过在保留时间和m/z维度上分别处理最终实现特征检测。然而,分开处理两个维度,忽略了洗脱化合物的整体特征分布(包括同位素、电荷态分布和lc洗脱特征)。基于预定义形状匹配的2d检测方法,相对于1d特征检测方法可充分利用代谢物的离子综合特征,在处理lc-ms数据方面更具优势。基于预定义形状(例如,gussian)匹配的方法虽可有效实现离子分布特征符合理想状态(符合gussian分布)的检测,然而考虑到实验过程中仪器噪声、样本自身的高复杂性以及不同仪器实验参数的不同设置,很多离子的分布并不完全符合高斯分布。在该情况下,基于预定义形状匹配方法的特征检测灵敏度将大大降低。另一方面,现有的方法几乎都采用预定义的阈值来降低噪声。采用阈值去除噪声,会造成低于阈值的目标离子丢失,最总导致了较高的假阴性率。另外,低丰度离子通常具有较高的生物学意义,阈值设置造成的低丰度离子剔除,在生物标志物鉴定中会产生不可逆转的后果。因此,发展新的高灵敏度和特异性的lc-ms数据特征检测方法,实现低强度、非理想形状的检测急需开展。



技术实现要素:

本发明旨在克服现有特征检测技术的不足,提出一种lc-ms数据高灵敏度特征检测方法,具体为基于深度学习的目标检测方法,来实现特征的高灵敏度、高特异性检测。

本发明提供了一种lc-ms数据高灵敏度特征检测方法,所述检测方法包括以下步骤:

步骤一:lc-ms数据的训练样本数据集制作,包括:

1a)获取生物样本lc-ms数据;采用不同的窗口和步长,将获取的lc-ms数据转化为大小不同的多个待标记图像块,其中图像块的x轴为m/z,y轴为保留时间rt;

2a)对步骤1)中获取的多个图像块,进行标记,其标记过程如下:对所述图像块中具有分布特征的目标物,使用目标框划定其位置以及所属类别,每个图像块的标注信息表示为{x,y,w,h,c,p},其中x,y表示目标框的中心位置,w,h为目标框宽度和长度,c表示目标落入目标框中的置信度,p表示所属类别为目标或背景噪声,所述分布特征是指化合物在y轴上出现两次以上,并且每种洗脱化合物在x轴上产生两种以上质量信号。

3a)将所述多个图像块作为网络输入,将其对应的标记信息{x,y,w,h,c,p}作为网络真值,获得大量训练样本集;

步骤二:设计深度卷积神经网络,进行lc-ms数据检测,包括:

1b)设计深度卷积网络结构使之包括特征提取层、多尺度结构以及检测层,其中,所述特征提取层由多个卷积层conv以及激励层组成;

2b)进行网络训练,所述网络训练包括前向传播和反向传播过程,其中,网络的前向传播过程符合公式i:

a(l 1)=f(w(l)a(l) b(l))i

其中f(),w,bf分别表示每个层的激活函数、权重和偏置矩阵参数;网络loss函数表示为公式ii,网络反向传播过程即最小化loss函数的过程,

其中第一项,第二项和第三项分别表示坐标误差,置信误差以及坐标误差,分别表示为:

其中,{xi,yi,wi,hi,ci,pi(c)}通过前向传播公式i获取;

步骤三:网络测试

输入待测样本的lc-ms数据,采用一定大小的窗口在已知的lc-ms数据上滑动,并在窗口范围内进行目标检测,其中,目标检测结果可以表示为{xi,yi,wi,hi,ci,pi(c)}。

在优选的实施方式中,所述质量信号包括多电荷或同位素。

在优选的实施方式中,所述深度卷积网络结构还包括前j(j<l-1)激励层和最后一层。

所述前j(j<l-1)激励层使用公式vi作为激励函数,

所述最后一层采用公式vii作为激励函数,

f(z)=max(0,z)vi

在优选的实施方式中,所述标记信息{xi,yi,wi,hi,ci,pi(c)}包括待测样本的位置信息和类别信息。

在优选的实施方式中,所述多个图像块具有长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小,其中,m=224~448之间的整数,n=224~448之间的整数。

本申请能产生的有益效果包括:

得益于本发明中设计的深度卷积神经网络层较强的样品特征提取能力,可有效捕获样品离子的二维分布特征,进而实现复杂场景下的目标离子检测。得益于本发明中多尺度结构,可实现不同目标大小的检测,进而提高了对不同洗脱条件及仪器平台的鲁棒性。得益于本发明中目标检测及概率输出,提高了检测结果的可解释性。

附图说明

图1为本发明方法的基本结构,图中m/z代表质荷比,rt代表保留时间;

图2为本方法在复杂场景中的检测结果。其中,a-c为离子交叠状态下的检测结果,d为低信噪比状态下的检测结果,e为低亮度离子检测结果,f为不同a-e中目标大小的检测结果,验证了本发明方法可以实现不同大小目标的检测。图中m/z代表质荷比,rt代表保留时间。

具体实施方式

下面结合实施例详述本申请,但本申请并不局限于这些实施例。

步骤一:lc-ms数据的训练样本数据集制作,包括:

1a)获取生物样本lc-ms数据;采用不同的窗口和步长,将获取的lc-ms数据转化为大小不同的多个待标记图像块,其中图像块的x轴为m/z,y轴为保留时间rt;

2a)对步骤1)中获取的多个图像块,进行标记,其标记过程如下:对所述图像块中具有分布特征的目标物,使用目标框划定其位置以及所属类别,每个图像块的标注信息表示为{x,y,w,h,c,p},其中x,y表示目标框的中心位置,w,h为目标框宽度和长度,c表示目标落入目标框中的置信度,p表示所属类别为目标或背景噪声,所述分布特征是指化合物在y轴上出现两次以上,并且每种洗脱化合物在x轴上产生两种以上质量信号。

3a)将所述多个图像块作为网络输入,将其对应的标记信息{x,y,w,h,c,p}作为网络真值,获得大量训练样本集;

步骤二:设计深度卷积神经网络,进行lc-ms数据检测,包括:

1b)设计深度卷积网络结构使之包括特征提取层、多尺度结构(通过对网络中间层上采样或下采样获得的一系列不同尺度大小的网络层)以及检测层,其中,所述特征提取层由多个卷积层conv以及激励层组成;

2b)进行网络训练,所述网络训练包括前向传播和反向传播过程,其中,网络的前向传播过程符合公式i:

a(l 1)=f(w(l)a(l) b(l))i

其中f(),w,bf分别表示每个层的激活函数、权重和偏置矩阵参数;网络loss函数表示为公式ii,网络反向传播过程即最小化loss函数的过程,反向传播计算过程可通过常规梯度下降法实现,其目的是实现最小化计算估计值与实际值之间的误差,进而实现网络的训练过程。

其中第一项,第二项和第三项分别表示坐标误差,置信误差以及坐标误差,分别表示为:

其中,{xi,yi,wi,hi,ci,pi(c)}通过前向传播公式i获取;

步骤三:网络测试

输入待测样本的lc-ms数据,采用一定大小的窗口在已知的lc-ms数据上滑动,并在窗口范围内进行目标检测,其中,目标检测结果可以表示为{xi,yi,wi,hi,ci,pi(c)}。

表1示出了本发明方法与其他检测方法的对比结果。可以看出,本发明的方法提高了检测结果,可以获得更高的检测精度。

表1

以上所述,仅是本申请的几个实施例,并非对本申请做任何形式的限制,虽然本申请以较佳实施例揭示如上,然而并非用以限制本申请,任何熟悉本专业的技术人员,在不脱离本申请技术方案的范围内,利用上述揭示的技术内容做出些许的变动或修饰均等同于等效实施案例,均属于技术方案范围内。


技术特征:

1.一种lc-ms数据高灵敏度特征检测方法,其特征在于,所述检测方法包括以下步骤:

步骤一:lc-ms数据的训练样本数据集制作,包括:

1a)获取生物样本lc-ms数据;采用不同的窗口和步长,将获取的lc-ms数据转化为大小不同的多个待标记图像块,其中图像块的x轴为m/z,y轴为保留时间rt;

2a)对步骤1)中获取的多个图像块,进行标记,其标记过程如下:对所述图像块中具有分布特征的目标物,使用目标框划定其位置以及所属类别,每个图像块的标注信息表示为{x,y,w,h,c,p},其中x,y表示目标框的中心位置,w,h为目标框宽度和长度,c表示目标落入目标框中的置信度,p表示所属类别为目标或背景噪声,所述分布特征是指化合物在y轴上出现两次以上,并且每种洗脱化合物在x轴上产生两种以上质量信号;

3a)将所述多个图像块作为网络输入,将其对应的标记信息{x,y,w,h,c,p}作为网络真值,获得大量训练样本集;

步骤二:设计深度卷积神经网络,进行lc-ms数据检测,包括:

1b)设计深度卷积网络结构使之包括特征提取层、多尺度结构以及检测层,其中,所述特征提取层由多个卷积层conv以及激励层组成;

2b)进行网络训练,所述网络训练包括前向传播和反向传播过程,其中,网络的前向传播过程符合公式i:

a(l 1)=f(w(l)a(l) b(l))i

其中f(),w,bf分别表示每个层的激活函数、权重和偏置矩阵参数;网络loss函数表示为公式ii,网络反向传播过程即最小化loss函数的过程,

其中第一项,第二项和第三项分别表示坐标误差,置信误差以及坐标误差,分别表示为:

其中,{xi,yi,wi,hi,ci,pi(c)}通过前向传播公式i获取;

步骤三:网络测试

输入待测样本的lc-ms数据,采用一定大小的窗口在已知的lc-ms数据上滑动,并在窗口范围内进行目标检测,其中,目标检测结果可以表示为{xi,yi,wi,hi,ci,pi(c)}。

2.根据权利要求1所述的检测方法,其特征在于,所述质量信号包括多电荷或同位素。

3.根据权利要求1所述的检测方法,其特征在于,所述深度卷积网络结构还包括前j(j<l-1)激励层和最后一层;

所述前j(j<l-1)激励层使用公式vi作为激励函数;

所述最后一层采用公式vii作为激励函数,

f(z)=max(0,z)vi

4.根据权利要求1所述的检测方法,其特征在于,所述标记信息{xi,yi,wi,hi,ci,pi(c)}包括待测样本的位置信息和类别信息。

5.根据权利要求1所述的检测方法,其特征在于,所述多个图像块具有长和宽为m×n像素大小,标签数据也根据相应的比例缩放到相应的大小,其中,m=224~448之间的整数,n=224~448之间的整数。

技术总结
本发明公开了一种新的LC‑MS数据高灵敏度特征检测方法,包括以下步骤:首先采用液相色谱‑质谱联用(LC‑MS)仪获取LC‑MS数据,利用滑动窗口以一定的步长获取一系列的图像块,以目标框方式手工标注图像块中的目标离子位置信息,将该信息作为训练样本集;设计有效深度卷积神经网络结构,在训练过程中根据输入的训练样本学习目标离子分布特征,避免了常规预定义形状造成复杂场景难以识别的问题;测试阶段利用不同样本验证了本发明所提新方法可实现LC‑MS数据的高灵敏度特征检测及其概率输出。

技术研发人员:张晓哲;赵凡;黄帅
受保护的技术使用者:中国科学院大连化学物理研究所
技术研发日:2018.11.30
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-17069.html

最新回复(0)