本发明涉及火电机组节能领域,具体涉及一种加权和自适应并行关联规则的火电机组能耗动态优化方法。
背景技术:
近年来,在我国节能减排大环境下,各发电企业纷纷寻求节能降耗的措施,通过优化运行,提高发电效率,降低成本,是一个重要的途径。随着电力行业的自动化、信息化程度的日益提高,dcs系统及sis系统在电厂中得到了普及,火电厂积累了大量的机组运行数据,给数据挖掘技术创造了有利条件。基于数据挖掘的大型火电机组能耗运行参数优化成为了主要的研究方向。机组的历史运行数据能够较真实反映机组的实际运行情况,不同工况下的运行可达优化目标值均有记录。因此采用数据挖掘方法进行火电机组能耗运行优化目标值的挖掘具有可行性。关联规则常常用于发现海量高维数据中各个项集之间的关联,来揭示事物之间隐含的关系,现在关联规则在火电机组运行优化已有应用,但由于未考虑关联规则挖掘目标的数据分布特性及主观设定关联规则支持度和置信度阈值,在挖掘过程中容易产生虚假的关联规则或删掉真实有效的关联规则,难以在发电机组实际生产中得到较好应用。
2000年,han等提出了一种基于频繁模式树的fp-growth关联规则挖掘算法。该算法可以有效挖掘频繁模式,通过减少全量扫描事务数据库的次数和不产生候选集的方式,使关联规则挖掘效率得到了提高。随着火力发电厂大规模数据的存储,以及能耗体系复杂,各指标参数的耦合性较大,对其单机环境下数据挖掘过程的存储、计算速率和实时性等方面提出了挑战,因此,在并行分布式计算环境中,建立火力发电厂并行fp-growth关联规则能耗运行优化模型,成为解决数据挖掘火电机组的能耗优化的的重要方法。
关联规则是形如a→b的蕴涵式,其中,a和b都是项目集合i中的项。支持度(support)表示a与b同时发生的概率,用来衡量规则的有用性。置信度(confidence)表示在项集a出现的事务中,项集b同时出现的概率,用来衡量所挖掘出的关联规则的可信度。fp-growth强关联规则指的是同时大于给定的最小支持度和最小置信度的关联规则。关联规则的挖掘过程主要分为2个步骤:1)从事务数据库i中挖掘出满足最小支持度约束的频繁项集;2)在获取频繁项集的基础上,进一步在最小置信度约束下获得强关联规则。因此,关联规则挖掘模型支持度和置信度的阈值取值不同,对挖掘过程的候选项集规模、频繁项集大小、关联规则挖掘结果及数目有着显著影响。
目前关联规则挖掘阈值的计算方法主要有以下几类:
1)通过机理分析和结果为导向,人为经过反复试验进行设定,对于数据量较大的样本,这种阈值计算方法存在效率不高,具有一定的主观性的问题,而对于数值型关联规则的阈值一般无法从结果反馈导向或经验认识进行确定。
2)对于多样本关联规则,采用统一的最小支持度或最小置信度阈值设置,无法适应不同工况样本变化关联规则的动态挖掘,易忽略掉重要但支持度或置信度低的序列项或阈值设置过低而造成过多无用的序列项,影响挖掘结果的判定。
3)采用支持度和置信度出现条数组成数组的统计方法,仅通过候选项或频繁项条数出现的频率设置最小支持度和最小置信度阈值,具有一定的局限性,未充分考虑能耗优化关联规则的后项数组(供电煤耗)属性和特征信息,挖掘结果难免会出现与实际机理分析不符的情况。以上方法对于火电机组的能耗优化关联规则存在一定的局限性和不确定性,容易导致阈值设置不合理,增加了挖掘效率,影响能耗优化关联规则最终挖掘结果。
在能耗优化关联规则候选项或频繁项的支持度或置信度计算中,往往默认各个候选项或频繁项中每个属性重要性相同,或各属性中出现的频率相同,然而对于能耗优化关联规则的后项数组(供电煤耗)属性,实际是一个数据分布特征和出现频率不一致,有必要根据关联规则挖掘目标的后项数组所包含的重要度信息,提出一种基于关联规则后项离散度的倒数加权的关联规则挖掘算法,消除能耗优化关联规则的后项数组(供电煤耗)离散度属性不一致的问题。
因此,科学合理自适应计算出关联规则的最小支持度和最小置信度阈值对于火电机组能耗优化意义性重大,也是火电厂能耗关联分析挖掘结果可信和可操作的关键。解决现有关联规则在火电运行优化中,人为设定最小支持度和最小置信度所产生的虚假规则、丢失重要信息、以及难以自适应动态挖掘的问题。
技术实现要素:
本发明的主要目的是提供一种加权和自适应并行关联规则的火电机组能耗动态优化方法,旨在解决现有关联规则在火电运行优化中,人为设定最小支持度和最小置信度所产生的虚假规则、丢失重要信息、以及难以自适应动态挖掘的问题。
为实现上述目的,本发明提出的加权和自适应并行关联规则的火电机组能耗动态优化方法,包括如下步骤:
对影响火电机组的供电煤耗的工况进行分析确定和对影响火电机组的供电煤耗的特征变量属性约简;
根据不同的所述工况对数据进行分组,并根据所述供电煤耗对数据筛选分析出目标候选数据项;
根据所述目标候选项,建立能耗关联规则模型,对所述能耗关联规则模型的后项差异系数加权,根据加权后的所述能耗关联规则模型的后项计算自适应阀值;
根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库;
根据采集到的所述火电机组实时运行数据确定当前工况,实时动态匹配所述当前工况对应的所述当前寻优库,根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行。
优选地,所述对影响火电机组的供电煤耗的工况进行分析确定的步骤,包括:
把对影响火电机组的供电煤耗的外部条件参数作为工况划分依据,对每个所述外部条件进行聚类分析并确定较佳聚类数量;
组合多个外部条件以确定多个不同工况,并根据所述不同工况对样本区分。
优选地,所述对影响火电机组的供电煤耗的特征变量属性约简的步骤,包括:
通过热力发电过程机理分析,定性选取所述供电煤耗相关联的能耗相关指标;
从数据库中采集大量所述供电煤耗和所述相关指标的数据作为分析对象;
经过数据预处理和稳定性判定后对能耗分析体系指标与供电煤耗关联度计算;
结合机理分析和灰色关联度系数排名较前的相关指标,最终确定能耗特征主要变量。
优选地,所述根据所述供电煤耗对数据筛选分析出目标候选数据项的步骤,包括:
对项集中的供电煤耗从小到大排列,使用等宽分组法将项集进行分组;
选取供电煤耗小的项集组为目标选候数据项。
优选地,所述对所述目标候选数据项差异系数加权的步骤,包括:
计算供电煤耗的差异系数;
根据所述差异系数对支持度和置信度采用集中度加权作为关联规则支持项的等效权重系数;
按照等效加权后的支持度从大到小排列,建立支持度关联规则矩阵;按照等效加权后的置信度从大到小排列,建立置信度关联规则矩阵。
优选地,所述根据所述加权后目标候选数据项计算自适应阀值的步骤,包括:
建立“序号-后项”的样本集,将关联规则阈值的求取转换为一个“序号-后项”的样本集的二分类问题;
采用轮廓系数作为分类密集与分散程度的评估指标,建立新的“序号-轮廓系数”的样本集,求取出二分类器最佳阈值对应的序号;
根据所述二分类器最佳阈值对应的序号,对应找出最小支持度和最小置信度为阀值。
优选地,所述建立新的“序号-轮廓系数”的样本集,求取出二分类器最佳阈值对应的序号的步骤,包括:
建立“序号-轮廓系数”样本集的多项式拟合曲线函数:
对所述多项式拟合曲线函数的单调性进行判断;
当f(i)的一阶导数f(i)′>0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递增数,即假定在某一点(xt,f(xt))时,此时轮廓系数值递增量δf(i)最大,再增大i,轮廓系数曲线继续增大而趋于平缓,此时f(xt)″=0,对应xt向下取整t作为二分类器阈值;
当f(i)的一阶导数f(i)′<0对于i∈(1,2,3,...,k)恒成立,即f(i)为递减函数,此时轮廓系数最大值f(i)max对应点为(1,f(i=1)),此时二分类器阈值对应的序号为“1”;
当f(i)的一阶导数f(i)′<0对于i∈(1,2,3,...,k)恒成立,即f(i)为递减函数,此时轮廓系数最大值f(i)max对应点为(1,f(i=1)),此时二分类器阈值对应的序号为“1”;
存在i∈1,2...k,f(i)的一阶导数f(i)′=0,且f(i)″≠0时。当轮廓系数s(i)首次出现极最大值时,后项集供电煤耗中各样本二分类效果较佳,对应事件发生的概率亦较大,此时f(i)″<0,且i的最小值xt-min为二分类器阈值,点(xt-min,f(xt-min))为二分类器阈值所对应的最佳点,对应xt-min向下取整t作为二分类器阈值。
优选地,所述根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库的步骤,包括:
选取各工况下供电煤耗区间平均值最小对应的规则作为本挖掘关联规则目标,根据所述关联规则获得各工况下特征变量的优化值及及供电煤耗优化目标值;
以供电煤耗优化目标值为寻优目标,构建连续工况条件下包含各个特征变量优化目标值的寻优库。
优选地,所述对影响火电机组的供电煤耗的工况进行分析确定和对影响火电机组的供电煤耗的主要特征参数分析的步骤之前,包括:
构建分布式集群计算环境;
加载数据集,并对数据集进行数组化处理;
所述步骤计算所述能耗关联规则模型的步骤,包括:
并行计算所述所述能耗关联规则模型。
优选地,所述根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行的步骤之后,包括:
在机组实际运行中,据情况不定期的更新能耗优化关联规则训练样本;
对能耗参数进一步优化,以期接近机组当前运行状态下的实际可达目标值。
发明的技术方案中,针对火电机组能耗运行优化关联规则模型的阈值设置问题,提供了一种基于加权和阈值自适应的关联规则的火电机组能耗参数动态优化方法,根据关联规则模型后项(供电煤耗)数组包含信息,通过差异系数倒数加权均衡了不同数据样本的重要性,以及考虑了实时运行样本动态更新对阈值的影响,自适应自动计算出火电机组多工况阈值,以解决现有关联规则在火电运行优化中容易产生虚假规则、丢失重要信息、难以自适应动态挖掘的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
图1为本发明加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例的流程图。
图2为本发明对能耗关联规则模型的后项差异系数加权的流程图。
图3为本发明计算自适应阀值的流程图。
图4为主要能耗特增变量参数表。
图5为环境温度(2.18-14.99℃)时各负荷工况下事务项目集的能耗优化目标值方案。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明的一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明,本发明实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
另外,在本发明中如涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“连接”、“固定”等应做广义理解,例如,“固定”可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通或两个元件的相互作用关系,除非另有明确的限定。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
另外,本发明各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。
请参照图1-图5,为实现上述目的,本发明提出的加权和自适应并行关联规则的火电机组能耗动态优化方法,其包括如下步骤:
s100,对影响火电机组的供电煤耗的工况进行分析确定和对影响火电机组的供电煤耗的特征变量属性约简;
s200,根据不同的所述工况对数据进行分组,并根据所述供电煤耗对数据筛选分析出目标候选数据项;
s300,根据所述目标候选项,建立能耗关联规则模型,对所述能耗关联规则模型的后项差异系数加权,根据加权后的所述能耗关联规则模型的后项计算自适应阀值;
s400,根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库;
s500,根据采集到的所述火电机组实时运行数据确定当前工况,实时动态匹配所述当前工况对应的所述当前寻优库,根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行。
本发明的技术方案中,提供了一种基于加权和阈值自适应的关联规则的火电机组能耗参数动态优化方法,根据关联规则模型后项(供电煤耗)数组包含信息,通过差异系数倒数加权均衡了不同数据样本的重要性,以及考虑了实时运行样本动态更新对阈值的影响,自适应自动计算出火电机组多工况阈值,以解决现有关联规则在火电运行优化中容易产生虚假规则、丢失重要信息、难以自适应动态挖掘的问题。
建立能耗关联规则模型:
fp-growth算法分析的目的是获得优化的参数调整区间及目标值来指导运行操作提高机组经济性能。因此参与分析的能耗特征指标(特征变量)及目标指标(供电煤耗)都要有目标区间及目标值,因此将能耗关联规则模型的前项项集
式中:
请参照图1和图2,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第二实施例中,所述对影响火电机组的供电煤耗的工况进行分析确定的步骤,包括如下步骤:
s110,把对影响火电机组的供电煤耗的外部条件参数作为工况划分依据,对每个所述外部条件进行聚类分析并确定较佳聚类数量;
s120,组合多个外部条件以确定多个不同工况,并根据所述不同工况对样本区分。
具体的,火电机组的发电效率和能耗水平会受到温度和负荷等边界条件的影响,这些边界条件不受人为控制,称之为工况。在大数据样本不同的工况情况下,机组运行特性差异较大,利用k-means算法对这些边界条件进行聚类分析,并进一步采用组内平方误差和(sse)方法确定发电机组运行工况的较佳聚类数目(随着聚类数目增多,每一个类别中数量越来越少,距离越来越近,因此平方误差和(sse)值是随着聚类数目增多而减少,当sse值减少得很缓慢时,认为进一步增大聚类数效果也并不能提高聚类效果,存在的这个“肘点”就是较佳聚类数目)。
请参照图1和图4,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第二实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第三实施例中,所述对影响火电机组的供电煤耗的特征变量属性约简的步骤,包括:
s130,通过热力发电过程机理分析,定性选取所述供电煤耗相关联的能耗相关指标;
s140,从数据库中采集大量所述供电煤耗和所述相关指标的数据作为分析对象;
s150,经过数据预处理和稳定性判定后对能耗分析体系指标与供电煤耗关联度计算;
s160,结合机理分析和灰色关联度系数排名较前的相关指标,最终确定能耗特征主要变量。
具体的,为实现机组能耗水平的快速调整,将供电煤耗作为反映燃煤机组运行能耗水平综合指标,选取对机组供电煤耗影响较大的能耗相关指标作为能耗特征指标(特征变量)。能耗特征指标个数过多会影响能耗目标值寻优模型的效率,且对全部能耗相关指标进行目标值调整,在发电生产中实际运行操作较难实现,因此需要对能耗相关指标进行属性约简。
利用灰色关联度分析(greyrelationanalysis,gra)计算出能耗相关指标对机组供电煤耗的关联程度大小。(灰色关联度分析法主要是依据因素间变化发展趋势的相似或相异程度,计算相应的灰色关联度,适应于火电能耗相关指标的动态分析),通过火电能耗体系机理分析和考虑到实际运行可调操作性。将参考数列供电煤耗表示为x0={x0(i)},将影响供电煤耗较大的能耗相关指标作为比较数列,表示为:
建立比较数列和参考数列的矩阵如下:
由于能耗分析体系中各因素的物理意义不同,导致数据的量纲也不一定相同,便于数列比较,对参考数列和比较数列进行无量纲化处理,选用标准差z-score进行数据标准化处理:
zi(j)=(xi(j)-μi)/σi;
式中:xi(j)为xi或x0矩阵的第i行j列数据,μi为xi或x0样本的平均值,σi为xi或x0样本的标准差。
关联程度是表示曲线间几何形状的差别程度。对于一个参考数列x0有若干个比较数列x1,x2,x3,...xn.,可计算出各比较数列与参考数列在各个时刻(曲线中的各点)的关联系数,即不同能耗特征指标与供电煤耗之间的关联系数ξ(xi)。将各个时刻(即曲线中的各点)的关联系数集中为一个值,计算出各个点出关联系数的平均值,得到不同指标与供电煤耗间的关联度ri。计算公式如下所示。
式中:δ(min)是第二级最小差;δ(max)是两级最大差;ρ是分辨系数,取ρ=0.5,δ0i(k)为各比较数列
将n个子序列对同一母序列的关联度按大小顺序排列起来,组成关联序,记为{x}。若r0i>r0j,则称{xi}对于同一母序列{x0}优于{xj},记为{xi}>{xj};r0i表示第i个子序列对母数列特征值,r0j表示第j个子序列对母数列特征值。因此,根据能耗指标灰色关联度大小排名,选择与供电煤耗关联度大的指标作为能耗特征指标。
请参照图1,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第四实施例中,所述根据所述供电煤耗对数据筛选分析出目标候选数据项步骤,包括:
s210,对项集中的供电煤耗从小到大排列,使用等宽分组法将项集进行分组;
s220,选取供电煤耗小的项集组为目标选候数据项;
具体的,本实例中采用等宽分组法将各指标数值离散化为几个相互独立的区间,并将原数值映射到对应的区间,原来的连续型数值替换成离散型属性。
对于事务数据集(项集)
针对各个能耗特征参数,将数据转换为数组输出,做为关联分析的输入项,在项集dl中挖掘出
请参照图1,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第五实施例中,所述对所述目标候选数据项差异系数加权的步骤,包括:
s310,计算供电煤耗的差异系数;
s320,根据所述差异系数对支持度和置信度采用集中度加权作为关联规则支持项的等效权重系数;
s330,按照等效加权后的支持度从大到小排列,建立支持度关联规则矩阵;按照等效加权后的置信度从大到小排列,建立置信度关联规则矩阵。
具体的,本目标需求是求出最低供电煤耗下的有效强关联规则,因此设置能耗特征参数
式中:j=(1,2,3....k),s为标准差,m为平均数,n为总体样本数。cv越大,项ii中各数据组的离散程度越大,定义集中度γj(i)越小。对支持度和置信度采用集中度加权w作为关联规则支持项的等效权重系数。按照等效加权后的支持度从大到小排列,建立关联规则矩阵如下:
(w1α1≥w2α2≥w3α3,...,wkαk)
同理,可得按等效加权后的置信度从大到小排列,建立关联规则矩阵如下:
(w1β1≥w2β2≥w3β3;...;wk'βk')
请参照图1,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第六实施例中,所述根据所述加权后目标候选数据项计算自适应阀值的步骤,包括:
s340,建立“序号-后项”的样本集,将关联规则阈值的求取转换为一个“序号-后项”的样本集的二分类问题;
s350,采用轮廓系数作为分类密集与分散程度的评估指标,建立新的“序号-轮廓系数”的样本集,求取出二分类器最佳阈值对应的序号;
s360,根据所述二分类器最佳阈值对应的序号,对应找出最小支持度和最小置信度为阀值。
具体的,有效强关联规则阈值挖掘过程是寻找满足最小支持度minsup或最小置信度minconf对应的t列。根据事务数据集d中候选项集的等效加权支持度或频繁项集等效加权置信度,从大到小顺序排序,建立如下序列关系式:
因此,对于关联规则阈值的求取可转换为一个“序号-后项”的样本集
求取出二分类器最佳阈值对应的序号后,进而可找出矩阵a中最小支持度minsup阈值wαt或矩阵b中最小支持度minconf阈值wβt。本发明可以根据关联规则后项集数据分布情况、支持数或频繁数自动计算关联规则阈值,无需人为主观设定阈值,达到关联规则自适应增量学习的目的,更有利于火力发电厂生产过程能耗的实时动态优化。
请参照图1,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第七实施例中,所述s350的步骤,包括:
s351,建立“序号-轮廓系数”样本集的多项式拟合曲线函数:
s352,对所述多项式拟合曲线函数的单调性进行判断;
执行步骤s353:即假定在某一点(xt,f(xt))时,此时轮廓系数值递增量δf(i)最大,再增大i,轮廓系数曲线继续增大而趋于平缓,此时f(xt)″=0,对应xt向下取整t作为二分类器阈值;
当f(i)的一阶导数f(i)′<0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递减函数时;
执行步骤s354:此时轮廓系数最大值f(i)max对应点为(1,f(i=1)),此时二分类器阈值对应的序号为“1”;
当存在i∈1,2...k,f(i)的一阶导数f(i)′=0,且f(i)″≠0时;
执行步骤s354:当轮廓系数s(i)首次出现极最大值时,后项集供电煤耗中各样本二分类效果较佳,对应事件发生的概率亦较大,此时f(i)″<0,且i的最小值xt-min为二分类器阈值,点(xt-min,f(xt-min))为二分类器阈值所对应的最佳点,对应xt-min向下取整t作为二分类器阈值。
具体的,建立新的“序号-轮廓系数”的样本集:
fi={序号,轮廓系数}={i,s(i)}={(1,s(1)),(2,s(2)),...,(t,s(t)),...,(k,s(t))};
其中s(i)表式二分类器阈值取不同的序号i=1,2,3,..,k值时,对应轮廓系数值。依据下式求出:
式中:a(i)是它与同类中其他样本的相似度,b(i)是它与另一类中各样本的相似度,对于样本集合
相似度计算采用欧式距离(欧几里得距离或欧几里得度量)计算后项集最小供电煤耗各样本的相似性。
依据序号i初始化“1”开始遍历计算y=f(x)=s(i),采用k次多项式对该f(x)曲线拟合。拟合的多项式曲线模型如公式所示:
当i递增时,f(i)的单调情况无法判定,因此分情况进行分析:
当f(i)的一阶导数f(i)′>0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递增数;
即假定在某一点(xt,f(xt))时,此时轮廓系数值递增量δf(i)最大,再增大i,轮廓系数曲线继续增大而趋于平缓,此时f(xt)″=0,对应xt向下取整t作为二分类器阈值;
当f(i)的一阶导数f(i)′<0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递减函数时;
此时轮廓系数最大值f(i)max对应点为(1,f(i=1)),此时二分类器阈值对应的序号为“1”;
当存在i∈1,2...k,f(i)的一阶导数f(i)′=0,且f(i)″≠0时;
当轮廓系数s(i)首次出现极最大值时,后项集供电煤耗中各样本二分类效果较佳,对应事件发生的概率亦较大,此时f(i)″<0,且i的最小值xt-min为二分类器阈值,点(xt-min,f(xt-min))为二分类器阈值所对应的最佳点,对应xt-min向下取整t作为二分类器阈值。
求取出二分类器最佳阈值对应的序号t后,进而可找出矩阵a中最小支持度minsup阈值wαt或矩阵b中最小支持度minconf阈值wβt。本发明可以根据关联规则后项集数据分布情况、支持数或频繁数自动计算关联规则阈值,无需人为主观设定阈值,达到关联规则自适应增量学习的目的,更有利于火力发电厂生产过程能耗的实时动态优化。
请参照图1和图2,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第八实施例中,所根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库的步骤,包括:
s410,选取各工况下供电煤耗区间平均值最小对应的规则作为本挖掘关联规则目标,根据所述关联规则获得各工况下特征变量的优化值及及供电煤耗优化目标值;
s420,以供电煤耗优化目标值为寻优目标,构建连续工况条件下包含各个特征变量优化目标值的寻优库。
请参照图1和图2,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第九实施例中,所述对影响火电机组的供电煤耗的工况进行分析确定和对影响火电机组的供电煤耗的主要特征参数分析的步骤之前,包括:
s10,构建分布式集群计算环境;
s20,加载数据集,并对数据集进行数组化处理;
所述步骤计算所述能耗关联规则模型的步骤,包括:
s430,并行计算所述所述能耗关联规则模型。
具体的,基于spark的并行fp-growth关联规则算法的实现流程如下:1)构建分布式集群计算环境。采用spark框架的rdd弹性分布式计算,实现一次读取hdfs数据,基于内存存储中间计算结果,大大提高数据运行效率。2)加载数据集。数据集在执行之前进行数组化处理,并且每条数据包含若干个项,记作item。舍去未包含优化目标的候选项,减少项集规模,提高运行效率。3)关联规则前项与后项设定。能耗分析指标在机组运行过程中都属于调控指标,都要有目标区间及目标值,因此将模型的前项(能耗特征指标)项数输出设为全部参与分析的相关指标,后项(供电煤耗)设为需优化的目标指标,生成形如a→b的候选关联规则,筛选频繁kmax项集,减少产生小于指定item数量的候选关联规则数目,提高分析效率。4)计算候选项集item频数。通过md计算所有分析目标a→b的候选项item的支持条数。5)加权及阈值自适应计算。通过对各候选项item后项数据分布情况,利用统计方法加权候选项item支持度,建立“序号-后项”数组二分类器,并对候选项集item或频繁项集item自适应计算最小支持度或最小置信度阈值。采用候选项集加权及阈值自适应,其计算量较小,对于整个关联规则挖掘运行时间可忽略,无需人为主关设定阈值,大大减少了尝试不同阈值反复试验时间。6)数据分组。将大于自适应支持度阈值的频繁项item进行均衡分n组,加快分析挖掘效率。7)遍历数据,根据每组的item,将数据中的项分配到对应的组,各组并行执行fp-growth算法,每个分组通过mr完成计算,构建fp-tree频繁树,利用加权自适应置信度计算方法对频繁树进行频繁项挖掘,通过两次遍历数据完成关联规则的结果输出。8)聚合,对每个节点上的结果聚合成最终结果。将所有分组的频繁项集聚合在一起,并计算置信度,根据指定置信度筛选出关联规则。
请参照图1和图2,基于本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第一实施例,本发明的加权和自适应并行关联规则的火电机组能耗动态优化方法的第十实施例中,所述根据采集到的所述火电机组实时运行数据确定当前工况,实时动态匹配所述当前工况对应的所述当前寻优库,根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行的步骤之后,包括:
s510,在机组实际运行中,据情况不定期的更新能耗优化关联规则训练样本;
s520,对能耗参数进一步优化,以期接近机组当前运行状态下的实际可达目标值。
具体的,在机组实际运行中,根据情况不定期的更新能耗优化关联规则训练样本,以期接近机组当前运行状态下的实际可达目标值,根据新采集到的实时运行数据,实时动态匹配当前工况对应的寻优库,在实际生产应用中有效降低供电煤耗,从而实现对机组能耗优化运行的在线指导。
在其中一个实施例中,将参考数列供电煤耗表示为x0={x0(i)},将影响供电煤耗较大的18个能耗特征指标作为比较数列,表示为
经过计算,本实施例符合目标要求的结果参考数列为:
利用k-means算法对外部条件机组负荷和环境温度进行聚类分析,采用组内平方误差和(sse)方法确定较佳聚类数目,结果如下:
计算结果表明负荷聚类为6个区间,环境温度聚类为4个区间,通过组合该外部条件参数可确定该样本可区分为24个不同工况。
通过建立模型并进行计算后,选取供电煤耗区间平均值最小对应的规则作为本挖掘关联规则目标:
依据上述方法分别计算24个不同负荷和环境温度工况条件的火电机组能耗优化关联规则结果,表6为以环境温度(2.18-14.99℃)下,各负荷工况事务项目集的能耗优化目标值方案。
基于上述加权阈值自适应关联规则方法挖掘出各工况能耗特征变量的优化值及供电煤耗目标值,对各工况的供电煤耗目标值按机组运行时长加权平均后得到全年供电煤耗平均值,与机组年实际平均供电煤耗比较,按照此加权阈值自适应关联规则方法挖掘出能耗运行特征指标的目标值进行优化运行调整,全年可平均降低供电煤耗2.76g/kw.h,具有较大的经济效益。
考虑到机组在实际运行中能耗参数运行变化的连续性,对上述24个工况挖掘得到的能耗优化目标值进行连续工况动态趋优拟合。采用离散函数逼近曲面插值方法,根据函数在24个工况目标值挖掘结果,估算出函数在其他点处的近似值,构建负荷、环境温度为边界条件的能耗动态目标值全工况库。以供电煤耗优化值为寻优目标,构建连续工况边界条件下包含厂用电率、主汽温度、再热蒸汽温度、锅炉氧量、排烟温度等能耗特征指标目标值的寻优库。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个计算机可读存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备进入本发明各个实施例所述的方法。
在本说明书的描述中,参考术语“一实施例”、“另一实施例”、“其他实施例”、或“第一实施例~第x实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料、方法步骤或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,包括如下步骤:
对影响火电机组的供电煤耗的工况进行分析确定,和对影响火电机组的供电煤耗的特征变量属性约简;
根据不同的所述工况对数据进行分组,并根据所述供电煤耗对数据筛选分析出目标候选数据项;
根据所述目标候选项,建立能耗关联规则模型,对所述能耗关联规则模型的后项差异系数加权,根据加权后的所述能耗关联规则模型的后项计算自适应阀值;
根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库;
根据采集到的所述火电机组实时运行数据确定当前工况,实时动态匹配所述当前工况对应的所述当前寻优库,根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行。
2.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述对影响火电机组的供电煤耗的工况进行分析确定的步骤,包括:
把对影响火电机组的供电煤耗的外部条件参数作为工况划分依据,对每个所述外部条件进行聚类分析并确定较佳聚类数量;
组合多个外部条件以确定多个不同工况,并根据所述不同工况对样本区分。
3.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述对影响火电机组的供电煤耗的特征变量属性约简的步骤,包括:
通过热力发电过程机理分析,定性选取所述供电煤耗相关联的能耗相关指标;
从数据库中采集大量所述供电煤耗和所述相关指标的数据作为分析对象;
经过数据预处理和稳定性判定后对能耗分析体系指标与供电煤耗关联度计算;
结合机理分析和灰色关联度系数排名较前的相关指标,最终确定能耗特征主要变量。
4.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述根据所述供电煤耗对数据筛选分析出目标候选数据项的步骤,包括:
对项集中的供电煤耗从小到大排列,使用等宽分组法将项集进行分组;
选取供电煤耗小的项集组为目标选候数据项。
5.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述对所述目标候选数据项差异系数加权的步骤,包括:
计算供电煤耗的差异系数;
根据所述差异系数对支持度和置信度采用集中度加权作为关联规则支持项的等效权重系数;
按照等效加权后的支持度从大到小排列,建立支持度关联规则矩阵;按照等效加权后的置信度从大到小排列,建立置信度关联规则矩阵。
6.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述根据所述加权后目标候选数据项计算自适应阀值的步骤,包括:
建立“序号-后项”的样本集,将关联规则阈值的求取转换为一个“序号-后项”的样本集的二分类问题;
采用轮廓系数作为分类密集与分散程度的评估指标,建立新的“序号-轮廓系数”的样本集,求取出二分类器最佳阈值对应的序号;
根据所述二分类器最佳阈值对应的序号,对应找出最小支持度和最小置信度为阀值。
7.根据权利要求6所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述建立新的“序号-轮廓系数”的样本集,求取出二分类器最佳阈值对应的序号的步骤,包括:
建立“序号-轮廓系数”样本集的多项式拟合曲线函数:
对所述多项式拟合曲线函数的单调性进行判断;
当f(i)的一阶导数f(i)′>0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递增数时,即假定在某一点(xt,f(xt)),此时轮廓系数值递增量δf(i)最大,再增大i,轮廓系数曲线继续增大而趋于平缓,此时f(xt)″=0,对应xt向下取整t作为二分类器阈值;
当f(i)的一阶导数f(i)′<0对于i∈(1,2,3,...,k)恒成立,即f(i)为单调递减函数时,此时轮廓系数最大值f(i)max对应点为(1,f(i=1)),此时二分类器阈值对应的序号为“1”;
当存在i∈1,2...k,f(i)的一阶导数f(i)′=0,且f(i)″≠0时,当轮廓系数s(i)首次出现极最大值时,后项集供电煤耗中各样本二分类效果较佳,对应事件发生的概率亦较大,此时f(i)″<0,且i的最小值xt-min为二分类器阈值,点(xt-min,f(xt-min))为二分类器阈值所对应的最佳点,对应xt-min向下取整t作为二分类器阈值。
8.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述根据所述自适应阀值,计算所述能耗关联规则模型,挖掘不同工况下的能耗优化有效强关联规则,根据所述有效强关联规则建立全工况特征变量参数动态的寻优库的步骤,包括:
选取各工况下供电煤耗区间平均值最小对应的规则作为本挖掘关联规则目标,根据所述关联规则获得各工况下特征变量的优化值及及供电煤耗优化目标值;
以供电煤耗优化目标值为寻优目标,构建连续工况条件下包含各个特征变量优化目标值的寻优库。
9.根据权利要求1所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述对影响火电机组的供电煤耗的工况进行分析确定和对影响火电机组的供电煤耗的主要特征参数分析的步骤之前,包括:
构建分布式集群计算环境;
加载数据集,并对数据集进行数组化处理;
所述步骤计算所述能耗关联规则模型的步骤,包括:
并行计算所述所述能耗关联规则模型。
10.根据权利要求1-9中任一项所述的加权和自适应并行关联规则的火电机组能耗动态优化方法,其特征在于,所述根据采集到的所述火电机组实时运行数据确定当前工况,实时动态匹配所述当前工况对应的所述当前寻优库,根据所述当前寻优库实现对所述火电机组进行动态能耗优化运行的步骤之后,包括:
在机组实际运行中,据情况不定期的更新能耗优化关联规则训练样本;
对能耗参数进一步优化,以期接近机组当前运行状态下的实际可达目标值。
技术总结