一种二噁英排放浓度预测方法与流程

专利2022-06-29 109

本发明属于城市固废焚烧技术领域，尤其涉及一种基于随机森林和梯度提升树混合集成的二噁英排放浓度预测方法。

背景技术：

经济的迅速发展和城市化建设的不断升级使得我国城市固体废物(msw)的产生量迅速增加，特别是在经济发达和人口密集的地区，某些城市正面临着垃圾围城危机[1]。城市固体废物焚烧(mswi)发电是实现垃圾减量化、资源化、无害化的典型处理方式[2]。目前国内mswi发电厂数量已超过300座，炉排炉式焚烧炉占比超过了2/3[3]。由于我国垃圾组分的特殊性，导致引进的焚烧设备多处于人工手动控制运行状态，常出现“水土不服”的现象，同时造成了mswi排放不合标等问题[4]。针对这种现象，最为紧要的问题是：如何在满足经济效益的情况下控制mswi过程的污染排放[5]。二噁英(dxn)作为mswi排放的一种具有极强化学性和热稳定性的剧毒持久性有机污染物，是造成焚烧建厂出现“邻避效应”的主要原因之一[6]。

在实际工业过程中，主要通过在线采样与离线实验分析相结合的方法按照一定的周期进行dxn排放浓度检测[3]，但该方式成本昂贵且周期比较长，主要问题是：难以支撑mswi运行参数的实时优化控制以达到使dxn排放浓度最小化的目的[7]。因此，实现dxn排放浓度的在线预测非常必要。mswi过程具有复杂的物理和化学特性，难以建立dxn排放浓度的精确机理模型[8]。dxn排放浓度的在线预测是实现mswi过程优化控制必不可少的重要环节[9]。针对dxn的在线检测研究，目前多是先进行相关关联物的测量再通过映射关系实现dxn的在线预测[10,11,12]；但存在设备昂贵、适应性弱和预测精度有待提升等问题[3]。软测量方法具有比直接离线分析和关联物检测更快、更经济地预测难测参数的能力，其在工业领域中已得到广泛应用[13]。针对mswi过程，已存在采用特征选择结合神经网络构建dxn预测建模的研究[14,15,16]；由于dxn建模数据具有的样本少、维数高、共线性等特性，使得这些方法存在易落入局部最小值、过拟合和模型泛化性能差等问题。

针对传统单一预测模型存在的局限性，基于集成学习的预测模型成为当前研究热点。随机森林(rf)算法具有较强的噪声处理和非线性数据建模能力[17,18]，但较少用于非线性回归[19]。文献[20]面向静电传感器阵列，采用基于rf的集成模型预测硫化床中生物质的水分含量。文献[21]提出基于主成分分析和rf的软测量模型，用于在线预测双螺杆挤出过程中聚丙交酯的拉伸性能。文献[22]提出了具有自我监测的rf模型在线估算磨机中的p80粒径。相对于基于建模数据采样进行并行集成的rf算法，梯度提升决策树(gbdt)是另外一种比较流行的机器学习算法[23]，但在样本特征维数较高且样本数量较大时，其效率和可伸缩性仍有待提高[24]。文献[25]集逻辑回归(lr)、gbdt和投票特征间隔(vfi)等方法于一体对滑坡敏感性进行评估。文献[26]采用gbdt进行建筑能耗预测。文献[27]构建基于gbdt的自动判断电力系统负荷周期的预测模型。文献[28]提出了一种基于gbdt的光伏功率预测模型，主要思想是通过梯度提升对二叉树进行集成融合。文献[29]采用基于实例的迁移学习方法结合gbdt建立风力发电分位数回归模型。文献[30]结合gbdt提出了基于bagging集成学习框架的预测模型。以上研究多采用单一的rf或gbdt算法建模，难以有效构建具有小样本、高维特性的dxn排放浓度预测模型。

技术实现要素：

二噁英(dxn)是城市固废焚烧(mswi)过程排放的剧毒污染物。目前实际工业过程主要通过先现场采集排放烟气样品再在实验室化验分析的方式对dxn排放浓度进行检测，存在周期长、费用高等问题。本申请利用过程控制系统实时采集的过程变量，建立基于随机森林(rf)和梯度提升树(gbdt)混合集成的dxn排放浓度预测模型。首先，针对具有小样本高维特性的dxn建模数据进行训练样本和输入特征的随机采样以生成训练子集；接着，基于训练子集建立j个基于rf的dxn子模型；然后，对每个基于rf的dxn子模型进行i次迭代，构建j×i个基于gbdt的dxn子模型；最后，对基于rf和gbdt的dxn子模型的预测输出采用简单平均加权方式进行合并，获得最终输出。采用集成rf和gbdt的dxn预测模型构建方法能够提高dxn在线预测精度，辅助进行mswi过程操作参数的运行优化，提高企业经济效益。

附图说明

图1城市固废焚烧工艺流程；

图2建模策略图；

图3训练数据的预测曲线；

图4测试数据的预测曲线。

具体实施方式

面向dxn生成的mswi过程描述

msw通过车辆运输到地磅称重后卸入垃圾池，经3～7天的生物发酵和脱水后，由垃圾抓斗投放至加料斗，经进料器将其推送到焚烧炉排上，先后经历干燥、燃烧和燃烬三个主要阶段。干燥后的msw中的可燃成分通过一次风机输送的助燃空气开始着火燃烧，产生的灰渣从炉排末端落至输渣机上后再进入到渣坑，最后在指定地点进行填埋处理。燃烧过程产生的高温烟气在一燃室的温度应控制在850℃以上，以保证有害气体的分解和燃烧。烟气经过二燃室时，通过二次风机输送的空气产生高度湍流并保证烟气停留超过2s，使有害气体进一步分解。高温烟气随后进入余热锅炉系统，通过吸热产生的高温蒸汽推动汽轮发电机组进行发电。随后烟气混合石灰和活性炭进入脱酸反应器发生中和反应，吸附其中的dxn和重金属，接着在袋式除尘器中被除去烟气颗粒物、中和反应物和活性炭吸附物，部分烟灰混合物在混合器中加水后重新进入脱酸反应器进行重复处理。反应器和袋式除尘器产生的飞灰进入到飞灰罐后需运输至相关机构以进一步处理。最终的尾气通过引风机经烟囱排放到大气，其包含烟尘、co、nox、so2、hcl、hf、hg、cd和dxn等物质。

由图1可知，mswi过程主要是将msw转化为残渣、飞灰、烟气与热量，其中残渣、飞灰与烟气三种产物与dxn的排放相关[31]。炉膛残渣产生量多，但dxn浓度含量较低；飞灰产生量比残渣少，其dxn浓度比残渣高；烟气中的dxn浓度包括不完全燃烧生成和新规合成反应生成两种方式[32]。目前，针对dxn检测主要是企业和环保部门以月或者季度为周期进行离线化验，不仅周期长而且费用昂贵。由此可知，dxn建模数据存在真值样本少、过程变量维数高等问题；同时，也存在msw中的dxn含量未知、dxn生成和吸收阶段的机理复杂不清等客观问题。因此，采用软测量技术建立dxn排放浓度预测模型符合实际需求。

本文提出rf和gbdt(enrfgbdt)混合集成的dxn建模策略，包含训练样本与输入特征随机采样、基于rf的dxn子模型构建、基于gbdt的dxn子模型构建和基于简单平均的dxn集成预测共4个模块，如图2所示。

在图2中，表示与采集dxn化验样品同时段的mswi过程的炉膛温度、活性炭喷射量、烟囱排放气体浓度、炉排速度、一次风\二次风流量由过程控制系统所采集的过程变量(输入特征)所组成的输入数据，其中n为训练样本数量，m为过程变量数量；表示在mswi过程末端，即在烟囱排放处进行在线采集离线化验的dxn排放浓度组成的输出数据；{x,y}表示由输入数据和输出数据所组成的训练样本集；{x^j,y^j}表示第jth个从{x,y}中随机采样得到的训练子集，表示全部训练子集；j为训练子集的数量，同时也为基于rf的dxn子模型数量；表示第jth个基于rf的dxn子模型的dxn排放浓度预测值，表示全部基于rf的dxn子模型的预测输出；e^j,0表示第jth个基于rf的dxn子模型的dxn排放浓度预测值与测量值y^j的误差；e^j,1表示基于第jth个训练子集的基于gbdt的第1个dxn子模型的误差预测值与作为其输出数据真值e^j,0的误差；e^j,i表示针对第jth个训练子集的基于gbdt的第ith个dxn子模型的误差预测值与作为其输入数据真值e^j,i-1的误差；表示针对第jth个训练子集的基于gbdt的全部dxn子模型的误差预测输出，i为针对单个训练子集基于gbdt的dxn子模型数量，也是针对单个训练子集的迭代次数；表示混合集成模型的dxn排放浓度预测输出。

本文所提enrfgbdt模型内部的子模型均采用最大化生长的cart回归树构建。基于rf的dxn子模型的训练子集及其输入特征采用随机采样方式产生，其特征数量远小于初始建模数据中的特征数量，进而降低了cart回归树间的相关性，提高了对异常值和噪声数据的鲁棒性。基于gbdt的多个串行dxn子模型也进一步提高了cart回归树的预测精度。最终建立了具有“并行串行”模式的dxn集成预测模型。不同子模块的功能如下所示：

(1)训练样本与输入特征随机采样模块：对训练样本集进行有放回的n次随机采样并随机选择固定数量的输入特征，生成训练子集

(2)基于rf的dxn子模型构建模块：利用前一模块中生成的训练子集建立基于rf的dxn子模型将dxn排放浓度预测值与测量值进行相减，得到预测误差

(3)基于gbdt的dxn子模型构建模块：以上一模块输出的误差作为输出数据真值，和训练子集输入数据组成新的训练子集针对每个训练子集进行i次迭代后，构建i×j个基于gdbt的dxn子模型

(4)基于简单平均的dxn集成预测模块：将基于rf的dxn子模型和基于gbdt的dxn子模型进行简单平均，建立最终的dxn排放浓度预测模型。

综合上述模块的功能可知，本文所提方法的建模步骤为：第1步，对mswi过程数据进行有放回的随机采样和指定特征数量的随机抽取，生成j个训练子集；第2步，构建j个基于rf的dxn子模型第3步，以的预测误差为输出数据真值，进行i次迭代学习，得到i×j个基于gbdt的dxn子模型第四步，将基于rf和gbdt的dxn子模型进行简单平均加权，得到最终的dxn排放浓度集成预测模型。

训练样本与输入特征随机采样模块的具体工作过程为：

采用自助采样法(bootstrap)与随机子空间法(rsm)对mswi过程数据进行处理。利用bootstrap抽取与训练样本子集的样本数量相同的训练子集，随后引入rsm机制随机选择部分特征，最终生成包含n个样本和m^j个特征的j个训练子集。

训练子集的产生过程可表示为：

其中，{x^j,y^j}表示第jth个训练子集；表示第jth个训练子集的第nth个输入和输出样本对；m＝1,l,m^j，m^j表示第jth个训练子集所包含的输入特征数量，通常存在m^j<<m。

基于rf的dxn子模型构建模块的具体工作过程为：

以第jth个训练子集为例描述构建过程。

首先去除因随机采样造成的训练子集中所存在的重复样本，并将其标记为以第mth个输入特征x^j,m作为切分变量，以第nselth个样本所对应的值作为切分点，将输入特征空间切分为两个区域r1和r2，

基于以下准则遍历寻找最佳切分变量(输入特征)编号和切分点取值，

其中，和分别表示第jth个训练子集在r1和r2区域的dxn排放浓度的测量值；c1和c2分别表示在r1和r2两个区域的dxn排放浓度测量值的均值。

基于上述准则，首先通过遍历所有输入特征找到最优切分变量编号和切分点的取值，并将输入特征空间划分为两个区域；然后对每个区域重复上述过程，直到叶子点所包含的训练样本数量少于预先设定的阈值θrf；最终将输入特征空间划分为k个区域(其中k也表示cart回归树的叶子节点数)，将这些区域分别标记为r1,l,rk,l,rk。

采用cart回归树构建的基于rf的dxn子模型可表示为：

其中，

其中，表示区域rk所包含的训练样本数量；表示第jth个训练子集在rk区域的第个dxn排放浓度测量值；i(·)为指示函数，在时存在i(·)＝1，否则存在i(·)＝0.

第jth个训练子集构建的基于rf的dxn子模型的预测误差为，

其中，(e^j,0)n表示基于第nth个训练样本的dxn排放浓度预测误差。

重复上述过程，得到采用cart回归树构建的j个基于rf的dxn子模型通过将这些子模型的预测输出与dxn测量值{y^j}j＝1相减，获得输出误差

基于gbdt的dxn子模型构建模块的具体工作过程为：

本申请基于gbdt的dxn子模型是通过构建多个“串联”的弱学习器模型的方式实现，其中：多个弱学习器模型的训练子集的输入数据保持不变，除第1个子模型的训练子集的输出数据真值为基于rf的子模型的预测值与测量值的误差外，其它子模型均以前一次迭代的gbdt子模型的预测误差作为训练子集的输出数据真值。

此处，以第jth个基于gbdt的dxn子模型的构建为例。假定共有i个基于gbdt的dxn子模型需要构建，并且均采用cart回归树构建。

首先，构建第1个子模型其可表示为，

其中，表示第1个基于gbdt的dxn子模型的预测输出。

上述子模型的损失函数的定义如下，

其中，表示第jth个训练子集中的第nth个样本的预测值。

然后，计算子模型的输出残差e^j,1，如下所示，

接着，e^j,1作为基于gbdt的第2个dxn子模型的训练子集的输出数据真值。类似的，第2个dxn子模型可表示为，

其中，(e^j,1)n表示针对第nth个样本的基于gbdt的第1个dxn子模型的预测误差。

重复上述过程，可知基于gbdt的第ith(i≤i)个dxn子模型可标记为其残差计算如下所示，

在迭代i-1次之后，第ith个子模型的训练子集的输出数据真值为，

其中，为第(i-1)th个子模型的预测输出。

进而，第ith个子模型可表示为，

其中，(e^j,i-1)n表示针对第nth个样本的基于gbdt的第(i-1)th个dxn子模型的预测误差。

因此，基于第jth个训练子集构建的全部i个基于gbdt的dxn子模型可表示为其相应的输出可表示为

基于简单平均的dxn集成预测模块的具体工作流程为：

由上述过程可知，数量为j的基于rf的dxn子模型可表示为这些模型以并行方式构建；数量为j×i的基于gbdt的dxn子模型可表示为这些模型同时以串行和并行方式构建。

针对第jth个训练子集，本文构建了1个基于rf的和i个基于gbdt的dxn子模型，这些子模型以串行方式产生，其预测输出之和作为第jth个训练子集的总体输出，可表示为，

由于j个训练子集间是并行的，通过简单平均加权方式对上述dxn子模型进行合并，最后dxn排放浓度集成预测模型fdxn(·)可表示如下：

实验验证

建模数据

本文建模数据为北京某mswi发电厂1#和2#炉近6年的检验数据，包含作为输入数据的过程变量和作为输出数据的dxn排放浓度测量值，其中：过程变量分别源于发电系统(53个)、公共电气系统(115个)、余热锅炉系统(14个)、焚烧系统(79个)、烟气处理系统(20个)和末端检测系统(6个)；作为输出数据的dxn排放浓度采用在线采集离线化验分析的方式获得，其单位为ng/nm³。全部67个样本中的2/3(45个)用作训练数据，1/3(22个)用作测试数据。

建模实验

实验中，rf和gbdt方法均采用平方误差作为损失函数，随机样本数量为45，输入特征数量的范围为[10,20,30,40,50,60,70,80,90,100]，gbdt的迭代次数范围为[1,2,3,4,5,6,7,8,9]，cart回归树叶子节点包含的最小样本数量为3。采用bootstrap算法抽样的袋外数据(oob)进行模型测试，以均方根误差(rmse)作为评估指标。

针对基于rf的dxn预测模型，表1给出了固定cart回归树的数量为5时，输入特征数量与oob误差间的关系(实验结果为50次的均值)。

表1不同特征数量时的oob误差

由表1可知，当特征数量为15时，oob误差最低。固定输入特征数量后，rf模型中car回归树的数量与oob误差间的关系如表2所示(实验结果为50次的均值)。

表2不同cart树数量时的oob误差

由表2可知知，当cart回归树达到40棵时，基于rf的dxn模型具有最小的oob误差，但其略小表1中的最小值。可见，需要在rf中同时对回归树和输入特征数量进行优化才能够获得更佳的预测性能。

针对基于gbdt的dxn预测模型，平方误差损失函数与迭代次数间的关系如表3所示。

表3gbdt预测模型中迭代次数与损失函数间的关系

由图3可知，损失函数值随迭代次数的增加而逐渐降低，在迭代次数达到5次后，误差的下降趋势变弱。因此，确定合适的迭代次数对降低计算消耗非常必要。

综合考虑上述rf和gbdt模型的建模结果，此处针对本申请所提方法采用的建模参数为：输入特征维数10、cart回归树数量5、gbdt子模型数量(迭代次数)5。不同方法针对训练集和测试集的rmse统计结果如表4所示。图3和4分别给出了rf、gbdt和本申请所提方法的预测曲线。

表4基于rf、gbdt和所提方法构建dxn模型的统计结果

由表4、图3和图4可知：(1)基于gbdt的dxn模型在测试集上具有最大的预测误差(0.03529)，主要原因在于gbdt采用了全部过程变量作为dxn模型的输入特征，而另外两种方法均对输入特征进行了基于随机选择的约简。可见，对高维过程变量进行特征选择非常有必要；(2)基于rf的dxn模型，在cart回归树数量设为5和输入特征设为15时，其在训练集上的rmse值最大(0.34060)，在测试集中的rmse(0.030199)小于gbdt(0.035291)方法，说明rf的泛化能力强于gbdt；(3)本文所提enrfgbdt方法，在训练和测试数据上都具有最好的预测性能，表明所提策略能够同时降低输入特征维度和提升预测模型泛化性能的能力。

针对二噁英(dxn)难以实时检测的问题，基于实际城市固废焚烧过程数据，本文建立了基于随机森林(rf)和梯度提升树(gbdt)的混合集成dxn排放浓度预测模型，其创新性体现在：通过rf构建的首层dxn子模型和gbdt构建多个dxn子模型，同时进行维数约简和降低模型预测误差。基于mswi过程的真实数据的仿真实验结果表明了所提方法在预测效果上优于单一的rf和gbdt预测模型。

参考文献

[1]lix,zhangc,liy,etal.thestatusofmunicipalsolidwasteincineration(mswi)inchinaanditscleandevelopment.wastemanagement,2016,104:498-503.

[2]lix,zhangc,liy,etal.thestatusofmunicipalsolidwasteincineration(mswi)inchinaanditscleandevelopment.wastemanagement,2016,104:498-503.

[3]乔俊飞,郭子豪,汤健.面向城市固废焚烧过程的二噁英排放浓度检测方法综述[j/ol].自动化学报:1-26[2019-12-24].https://doi.org/10.16383/j.aas.c190005..

[4]j.w.lu,s.zhang,j.hai,etal.statusandperspectivesofmunicipalsolidwasteincinerationinchina:acomparisonwithdevelopedregions.wastemanage.vol.69,170-186,2017.

[5]yuananh,hefac,shut.thegrowingimportanceofwaste-to-energy(wte)incinerationinchina'santhropogenicmercuryemissions:emissioninventoriesandreductionstrategies[j].renewableandsustainableenergyreviews,2018,97:119-137.

[6]lix,zhangc,liy,zhiq.thestatusofmunicipalsolidwasteincineration(mswi)inchinaanditscleandevelopment.energyprocedia,2016,104:498-503

[7]zhanghj,niyw,chenjp,zhangq.influenceofvariationintheoperatingconditionsonpcdd/fdistributioninafull-scalemswincinerator[j].chemosphere,2008,70(4):721-730.

[8]b.r.stanmore.modelingtheformationofpcdd/finsolidwasteincinerators,chemosphere,vol.47,565-773,2002.

[9]lavriced,konnovaa,ruyckjd.surrogatecompoundsfordioxinsinincineration.areview.wastemanagement,2005,25(7):755-765

[10]lia-dan,hong-wei,wangjing.onlinedetectionofdioxinanddioxin-relatedsubstancesusinglaserdesoption/laserionization-massspectrometry.journalofyanshanuniversity,2015,39(6):511-515.

[11]caoy,shangfan-jie,pandeng-gao.gaschromatography-massspectrometrytransmissionlinesystemforon-linedetectionofdioxins.china,cn206378474u,2017-08-04.

[12]nakuih,koyamah,takakuraa,watanaben.onlinemeasurementsoflow-volatileorganicchlorinefordioxinmonitoringatmunicipalwasteincinerators.chemosphere,2011,85(2):151-155

[13]f.a.a.souza,r.araújo,j.mendes,reviewofsoftsensormethodsforregressionapplications,chemometr.intell.lab.syst.152(2016)69–79.

[14]bunsans,chenwy,chenhw,chuangyh,grisdanurakn.modelingthedioxinemissionofamunicipalsolidwasteincineratorusingneuralnetworks.chemosphere,2013,92:258-264.

[15]changnb,chenwc.predictionofpcdds/pcdfsemissionsfrommunicipalincineratorsbygeneticprogrammingandneuralnetworkmodeling.wastemanagement&research,2000,18,41-351.

[16]wanghai-rui,zhangyong,wanghua.astudyofga-bpbasedpredictionmodelofdioxinemissionfrommswincinerator.microcomputerinformation,2008,24(21):222-224.

[17]f.stulp,o.sigaud,manyregressionalgorithms,oneunifiedmodel:areview,neuralnetwork.69(2015)60–79.

[18]breiman,l.,2001.randomforests.machinelearning.45,5-32.

[19]kneale,c.,brown,s.d.,2018.smallmovingwindowcalibrationmodelsforsoftsensingprocesseswithlimitedhistory.chemometricsandintelligentlaboratorysystems183,36-46.

[20]zhang,w.b.,cheng,x.f.,hu,y.h.,yan,y.,2019.onlinepredictionofbiomassmoisturecontentinafluidizedbeddryerusingelectrostaticsensorarraysandtherandomforestmethod.fuel239,437-445.

[21]mulrennan,k.,donovan,j.,creedon,l.,rogers,i.,lyons,j.g.,mcafee,m.,2018.asoftsensorforpredictionofmechanicalpropertiesofextrudedplasheetusinganinstrumentedslitdieandmachinelearningalgorithms.polymertesting69,462-469.

[22]napier,l.f.a.,aldrich,c.,2017.anisamill(tm)softsensorbasedonrandomforestsandprincipalcomponentanalysis.ifacpapersonline50,1175-1180.

[23]friedmanj.greedyfunctionapproximation:agradientboostingmachine.annalsofstatistics,2001,29(5)

[24]ke,g.l.,meng,q.,finley,t.,wang,t.f.,chen,w.,ma,w.d.,ye,q.w.,liu,t.y.,2017.lightgbm:ahighlyefficientgradientboostingdecisiontree.advancesinneuralinformationprocessingsystems30(nips2017)30.

[25]sachdeva,s.,bhatia,t.,verma,a.k.,2020.anovelvotingensemblemodelforspatialpredictionoflandslidesusinggis.internationaljournalofremotesensing41,929-952.

[26]wang,r.,lu,s.l.,li,q.p.,2019.multi-criteriacomprehensivestudyonpredictivealgorithmofhourlyheatingenergyconsumptionforresidentialbuildings.sustainablecitiesandsociety49.

[27]chen,b.b.,lin,r.h.,zou,h.,2018.ashorttermloadperiodicpredictionmodelbasedongbdt.2018ieee18thinternationalconferenceoncommunicationtechnology(icct),1402-1406.

[28]wang,j.d.,li,p.,ran,r.,che,y.b.,zhou,y.,2018.ashort-termphotovoltaicpowerpredictionmodelbasedonthegradientboostdecisiontree.appliedsciences-basel8.

[29]cai,l.,gu,j.,ma,j.h.,jin,z.j.,2019.probabilisticwindpowerforecastingapproachviainstance-basedtransferlearningembeddedgradientboostingdecisiontrees.energies12.

[30]liu,x.l.,tan,w.a.,tang,s.,2019.abagging-gbdtensemblelearningmodelforcityairpollutantconcentrationprediction.4thinternationalconferenceonadvancesinenergyresourcesandenvironmentengineering237.

[31]mckayg.dioxincharacterisation,formationandminimisationduringmunicipalsolidwaste(msw)incineration:review.chemicalengineeringjournal,2002,86(3):343-368

[32]lihai-ying,zhangshu-ting,zhaoxin-hua.detectionmethodsofdioxinsemittedfrommunicipalsolidwasteincinerator.journaloffuelchemistryandtechnology,2005,33(3):379-384.

技术特征：

1.一种二噁英排放浓度预测方法，其特征在于，包括以下步骤：

步骤1、通过训练样本与输入特征随机采样模块，对训练样本集{x∈r^n×m,y∈r^n×1}进行有放回的n次随机采样并随机选择固定数量的输入特征，生成训练子集其中，表示与采集dxn化验样品同时段的mswi过程的炉膛温度、活性炭喷射量、烟囱排放气体浓度、炉排速度、一次风\二次风流量由过程控制系统所采集的过程变量所组成的输入数据，其中n为训练样本数量，m为过程变量数量；表示在mswi过程末端，即在烟囱排放处进行在线采集离线化验的dxn排放浓度组成的输出数据；

步骤2、通过基于rf的dxn子模型构建模块，利用生成的训练子集建立基于rf的dxn子模型将dxn排放浓度预测值与测量值进行相减，得到预测误差

步骤3、通过基于gbdt的dxn子模型构建模块，以输出的误差作为输出数据真值，和训练子集输入数据组成新的训练子集针对每个训练子集进行i次迭代后，构建i×j个基于gdbt的dxn子模型

步骤4、通过基于简单平均的dxn集成预测模块，将基于rf的dxn子模型和基于gbdt的dxn子模型进行简单平均，建立最终的dxn排放浓度预测模型。

2.如权利要求1所述的二噁英排放浓度预测方法，其特征在于，所述训练样本与输入特征随机采样模块的具体工作过程为：

采用自助采样法(bootstrap)与随机子空间法(rsm)对mswi过程数据进行处理，利用bootstrap抽取与训练样本子集的样本数量相同的训练子集，随后引入rsm机制随机选择部分特征，最终生成包含n个样本和m^j个特征的j个训练子集，

训练子集的产生过程可表示为：

3.如权利要求2所述的二噁英排放浓度预测方法，其特征在于，所述基于rf的dxn子模型构建模块的具体工作过程为：

以第jth个训练子集为例描述构建过程，

基于以下准则遍历寻找最佳切分变量编号和切分点取值，

其中，和分别表示第jth个训练子集在r1和r2区域的dxn排放浓度的测量值；c1和c2分别表示在r1和r2两个区域的dxn排放浓度测量值的均值，

基于上述准则，首先通过遍历所有输入特征找到最优切分变量编号和切分点的取值，并将输入特征空间划分为两个区域；然后对每个区域重复上述过程，直到叶子点所包含的训练样本数量少于预先设定的阈值θrf；最终将输入特征空间划分为k个区域，将这些区域分别标记为r1,l,rk,l,rk，所述k也表示cart回归树的叶子节点数，

采用cart回归树构建的基于rf的dxn子模型可表示为：

其中，

其中，表示区域rk所包含的训练样本数量；表示第jth个训练子集在rk区域的第个dxn排放浓度测量值；i(·)为指示函数，在时存在i(·)＝1，否则存在i(·)＝0，

第jth个训练子集构建的基于rf的dxn子模型的预测误差为，

其中，(e^j,0)n表示基于第nth个训练样本的dxn排放浓度预测误差，

重复上述过程，得到采用cart回归树构建的j个基于rf的dxn子模型通过将这些子模型的预测输出与dxn测量值{y^j}j＝1相减，获得输出误差

4.如权利要求3所述的二噁英排放浓度预测方法，其特征在于，所述基于gbdt的dxn子模型构建模块的具体工作过程为：通过构建多个“串联”的弱学习器模型的方式实现，其中，多个弱学习器模型的训练子集的输入数据保持不变，除第1个子模型的训练子集的输出数据真值为基于rf的子模型的预测值与测量值的误差外，其它子模型均以前一次迭代的gbdt子模型的预测误差作为训练子集的输出数据真值，

以第jth个基于gbdt的dxn子模型的构建为例，假定共有i个基于gbdt的dxn子模型需要构建，并且均采用cart回归树构建，

首先，构建第1个子模型其可表示为，

其中，表示第1个基于gbdt的dxn子模型的预测输出，

上述子模型的损失函数的定义如下，

其中，表示第jth个训练子集中的第nth个样本的预测值，

然后，计算子模型的输出残差e^j,1，如下所示，

接着，e^j,1作为基于gbdt的第2个dxn子模型的训练子集的输出数据真值。类似的，第2个dxn子模型可表示为，

其中，(e^j,1)n表示针对第nth个样本的基于gbdt的第1个dxn子模型的预测误差，

重复上述过程，可知基于gbdt的第ith(i≤i)个dxn子模型可标记为其残差计算如下所示，

在迭代i-1次之后，第ith个子模型的训练子集的输出数据真值为，

其中，为第(i-1)th个子模型的预测输出。

进而，第ith个子模型可表示为，

其中，(e^j,i-1)n表示针对第nth个样本的基于gbdt的第(i-1)th个dxn子模型的预测误差，

因此，基于第jth个训练子集构建的全部i个基于gbdt的dxn子模型可表示为其相应的输出可表示为

5.如权利要求4所述的二噁英排放浓度预测方法，其特征在于，所述基于简单平均的dxn集成预测模块的具体工作流程为：

由上述过程可知，数量为j的基于rf的dxn子模型可表示为这些模型以并行方式构建；数量为j×i的基于gbdt的dxn子模型可表示为这些模型同时以串行和并行方式构建，

针对第jth个训练子集，构建了1个基于rf的和i个基于gbdt的dxn子模型，这些子模型以串行方式产生，其预测输出之和作为第jth个训练子集的总体输出，可表示为，

由于j个训练子集间是并行的，通过简单平均加权方式对上述dxn子模型进行合并，最后dxn排放浓度集成预测模型fdxn(·)可表示如下：

技术总结
本发明公开一种基于随机森林和梯度提升树混合集成的二噁英排放浓度预测方法，首先，针对具有小样本高维特性的DXN建模数据进行训练样本和输入特征的随机采样以生成训练子集；接着，基于训练子集建立J个基于RF的DXN子模型；然后，对每个基于RF的DXN子模型进行I次迭代，构建J×I个基于GBDT的DXN子模型；最后，对基于RF和GBDT的DXN子模型的预测输出采用简单平均加权方式进行合并，获得最终输出。采用集成RF和GBDT的DXN预测模型构建方法能够提高DXN在线预测精度，辅助进行MSWI过程操作参数的运行优化，提高企业经济效益。

技术研发人员：汤健;夏恒;乔俊飞;郭子豪
受保护的技术使用者：北京工业大学
技术研发日：2020.02.10
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-14948.html

专利

最新回复(0)