基于随机森林的食源性致病菌的分类模型训练方法与流程

专利2022-06-29  95


本发明涉及一种基于随机森林的食源性致病菌的分类模型训练方法。



背景技术:

当前用于食源性致病菌检测的方法主要包括:直接接种分离法、增菌培养分离法、直接实时荧光定量聚合酶链式反应(pcr)和增光后实时pcr法。但是这些传统的检测技术存在很多问题,比如说耗时长、效率低、操作繁琐等。



技术实现要素:

本发明的目的在于提供一种基于随机森林的食源性致病菌的分类模型训练方法。

为解决上述问题,本发明提供一种基于随机森林的食源性致病菌的分类模型训练方法,包括:

从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;

对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;

将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;

对食源性致病菌拉曼光谱数据流进行预处理;

将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。

进一步的,在上述方法中,对食源性致病菌拉曼光谱数据流进行预处理,包括:

使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。

进一步的,在上述方法中,使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:

对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。

进一步的,在上述方法中,随机抽取n个新的自助样本集,包括:

应用bootstrap方法有放回地随机抽取n个新的自助样本集。

进一步的,在上述方法中,得到分类结果中,

所述分类结果按照随机森林分类模型的投票多少而定。

与现有技术相比,本发明具有如下的有益效果:

本发明借助于基于随机森林的集成算法模型,在一定程度上缓解了人工识别两种波峰相似的食源性致病菌大肠杆菌o157∶h7和布鲁氏菌s2株出现的误判问题。

附图说明

图1是本发明一实施例的基于随机森林的食源性致病菌的分类模型训练方法的流程图;

图2是本发明一实施例的randomforest集成算法模型流程图;

图3是本发明一实施例的randomforest集成算法流程细节图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

如图1所示,本发明提供一种基于随机森林(randomforest)的食源性致病菌的分类模型训练方法,包括:

步骤s1,从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;

步骤s2,对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;

步骤s3,将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;

步骤s4,对食源性致病菌拉曼光谱数据流进行预处理;

步骤s5,将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。

在此,相比于传统食源性致病菌检测技术,拉曼光谱技术能够提供快速、简单、可重复、且更重要的无损伤的定性定量分析,它无需样品准备,样品可直接通过光纤探头或者通过玻璃、石英和光纤测量。

本发明可以针对拉曼峰相似的两种食源性致病菌——大肠杆菌o157∶h7以及布鲁氏菌s2株,训练出一种基于randomforest集成算法的食源性致病菌的分类训练模型,能够提升传统单一分类器泛化能力不强、分类准确率不高的问题。

本发明的基于随机森林(randomforest)的食源性致病菌的分类模型训练方法一实施例中,步骤s4,对食源性致病菌拉曼光谱数据流进行预处理,包括:

使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。

本发明的基于随机森林(randomforest)的食源性致病菌的分类模型训练方法一实施例中,使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:

对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。

在此,对获得的原始数据进行适当的预处理,其中主要包括使用savitzky-golay卷积平滑算法降低噪声干扰,平滑光谱、加权最小乘基线校正、稀疏优化选择适当波长。

拉曼光谱的信号强度比较弱,重叠严重,同时受环境、探测器等因素的影响,使得测得的拉曼光谱常伴随较严重的噪声,例如仪器噪声、荧光噪声等。同时,拉曼光谱还会伴有基线漂移等问题。为了准确地分析光谱数据,需要对拉曼光谱进行降噪基线校正,波长选择处理。

本发明的基于随机森林(randomforest)的食源性致病菌的分类模型训练方法一实施例中,随机抽取n个新的自助样本集,包括:

应用bootstrap方法有放回地随机抽取n个新的自助样本集。

本发明的基于随机森林(randomforest)的食源性致病菌的分类模型训练方法一实施例中,得到分类结果中,

所述分类结果按照随机森林分类模型的投票多少而定。

具体的,对已有的logisticregression算法和本发明的randomforest算法模型经过10折交叉验证,将取得的十组结果取平均值获得交叉验证结果为:logisticregression算法交叉验证精确率为88.0%,randomforest算法交叉验证精确率为98.1%。可以看出logisticregression算法模型在分类准确率提高了10.1%,因此本发明模型具有更高的可靠性。

图2是本发明一实施例的randomforest集成算法模型流程图.

图3为randomforest集成算法流程图(细节图),本实施例中的方法包括:

1)样本bagging:从原样本中通过bootstrap有放回的随机抽取训练样本集,然后据此构建一个对应的决策树。

2)特征的随机子空间:在对决策树每个节点进行分裂时,从特征中选取一个特征子集,然后从这个子集中选择一个最优分裂特征来建树。

本发明一具体实施例中的方法包括:

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例(trueposition)、假正例(falseposition)、真反例(truenegative)、假反例(falsenegative),令tp、fp、tn、fn分别表示其对应样例数,则显然有tp fp tn fn=样例总数,分类结果的“混淆矩阵”(confusionmatrix)如表1。

表1

查准率p与查全率r分别定义为:

以查准率为纵轴、查全率为横轴作图,就得到了查全率-查准率曲线图,简称“p-r曲线”,显示该曲线的图称为“p-r图”。

logisticregression模型的p-r曲线基本包含在randomforest模型曲线内,可以看出randomforest模型具有更高的分类性能。

本发明一具体实施例中的方法包括:

与p-r图相似,根据学习器的预测结果对样例进行排序,按此顺序逐个把样本作为正例进行预测,每次计算出两个重要的值,分别以它们为横、纵坐标作图,就得到了roc曲线。roc曲线图的纵轴是“真正例率”(truepositionrate,简称tpr),横轴是“假正例率”(falsepositionrate,简称fpr)。基于表1,两者分别定义为:

两条roc曲线图相互交叉,此时,若比较两分类器的性能,较为合理的判据是比较roc曲线下的面积,即auc(areaunderroccurve),logisticregression模型auc值为0.89,而randomforest模型的auc值为0.97,randomforest模型分类性能要明显优于logisticregression模型。

综上所述,本发明对于两种不同致病菌的拉曼光谱数据进行多步数据预处理,包括利用多项式拟合进行基线校正、pca进行数据降维、savitzky-golay卷积平滑算法降低噪声干扰,平滑光谱等步骤。本发明集成多棵决策树模型,有效地提高了分类模型的泛化能力,使得食源性致病菌检测的准确性得到提升。

与现有技术相比,本发明具有如下的有益效果:

本发明借助于集成算法模型,在一定程度上缓解了人工识别两种波峰相似的食源性致病菌大肠杆菌o157∶h7和布鲁氏菌s2株出现的误判问题。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。


技术特征:

1.一种基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,包括:

从食源性致病菌拉曼光谱数据流中,随机抽取n个新的自助样本集,并由此构建n棵分类回归树,每次未被抽到的样本组成n个袋外数据,其中,n为正整数;

对每一棵树,通过计算每一棵树的每个特征蕴含的信息量,选择一个最具有分类能力的特征进行节点分裂,且每棵树最大限度地生长,不做任何剪枝;

将生成的多棵树组成随机森林分类模型,用随机森林分类模型对新的数据进行分类,得到分类结果;

对食源性致病菌拉曼光谱数据流进行预处理;

将经过预处理的食源性致病菌拉曼光谱数据流按照3∶7的比例进行划分,其中,30%的食源性致病菌拉曼光谱数据流作为测试集,70%的食源性致病菌拉曼光谱数据流作为训练集,采用所述测试集和训练集对所述随机森林分类模型进行10折交叉验证并记录对应的随机森林分类模型的性能指标。

2.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,对食源性致病菌拉曼光谱数据流进行预处理,包括:

使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱。

3.如权利要求2所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,使用savitzky-golay卷积平滑算法对食源性致病菌拉曼光谱数据流降低噪声干扰、平滑光谱之后,还包括:

对降低噪声干扰、平滑光谱后的食源性致病菌拉曼光谱数据流进行加权最小乘基线校正和选择波长。

4.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,随机抽取n个新的自助样本集,包括:

应用bootstrap方法有放回地随机抽取n个新的自助样本集。

5.如权利要求1所述的基于随机森林的食源性致病菌的分类模型训练方法,其特征在于,得到分类结果中,

所述分类结果按照随机森林分类模型的投票多少而定。

技术总结
本发明提供了一种基于随机森林的食源性致病菌的分类模型训练方法,本发明对于两种不同致病菌的拉曼光谱数据进行多步数据预处理,包括利用多项式拟合进行基线校正、PCA进行数据降维、Savitzky‑Golay卷积平滑算法降低噪声干扰,平滑光谱等步骤。本发明集成多棵决策树模型,有效地提高了分类模型的泛化能力,使得食源性致病菌检测的准确性得到提升。

技术研发人员:曾万聃;王其;夏志平;黄杰伦
受保护的技术使用者:上海应用技术大学
技术研发日:2020.01.08
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16881.html

最新回复(0)