一种运维管控平台故障特征提取方法与流程

专利2022-06-29  69


本发明涉及信息系统运维管控故障特征提取
技术领域
,是一种运维管控平台故障特征提取方法。
背景技术
:信息系统管控平台为了获取系统运行状况和运行趋势等信息,对硬件设备、软件应用进行实时远程的监控。管控平台对设备监控需要在网络环境下进行,在网络环境下,数据传输通常会为数据流带来对应的特征,这些特征是实现数据识别的重要基础。当管控设备进行监控时,会收集到大量的故障信息,特征提取与选择技术是对这些进行故障信息进行分类识别的基础。特征提取与选择技术可以实现多属性、高冗余的信息环境下关键监控特征的选取。在信息系统智能管控平台中,为加强系统的集中管理和统一监控,通过实现网络、安全设备的全网监控,提供精准的故障判断及处理建议,提高人员解决故障的能力及效率。为了实现这一目标,用特征提取与选择技术确定监控故障数据的关键特征,每个故障类型可能包含许多个特征,从中选取最能代表此类故障类型的关键特征。特征提取与选择技术的优势在于进行故障类型识别分类的过程中,在降低数据冗余前提下,大大提高故障识别的精确度。相比于其他技术更能准确地选取最能代表此类故障类型的关键特征。通过特征提取与选择技术,实现对故障类型的有效识别分类,从而对故障进行快速高效的分析和处理,及时向管理人员进行快速报警,实现24小时的无人连续监控。运维管控平台故障数据中含有较多特征的数据,这些数据称为高维数据。基于高维数据的部分特征对故障类型进行自动分类,但某些故障数据中的特征对分类结果的贡献并不大。此外,由于特征之间存在一定的相关性及冗余,使分类过程中产生较大的时间、空间开销,造成故障分类效果不佳。高维数据的冗余特征在很大程度上影响着分类器的性能,尤其是采用全部数据特征作为决策函数的标准有监督学习分类算法。因而,对于基于有监督学习的分类器,在分类之前先对其原始数据特征进行提取或特征选择,减少数据的冗余性,能够有效提升分类器的泛化能力。目前,管控平台故障分类的故障统计特征可以达到上百种。为了提升分类算法效率与准确率,有效减少原始数据的规模与特征间的冗余,需要对原始高维数据的特征进行特征选择和提取。特征选择是从原始数据特征中选择出一个最优特征子集,这个特征子集能够最大程度上代表原始数据的分布特性;特征提取是通过映射原理,将高维的数据样本通过变换映射为低维样本,映射后形成新的样本特征组合,这种组合不仅维度降低且由于是映射变换亦能够充分代表原始特征。技术实现要素:本发明的目的是,克服当数据间相似的依赖性很强时,单纯采用特征选择方法冗余信息去除不充分的问题,提供一种科学合理,适用性强,能够在确定特征子集的情况下,更加有效的去除数据冗余,同时取得较好分类精度的运维管控平台故障特征提取方法。本发明的目的是由以下技术方案来实现的:一种运维管控平台故障特征提取方法,其特征是,它包括的内容有:1)主成分分析特征提取主成分分析(principlecomponentanalysis,pca)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本n个,x∈rn,每个样本为一个xi=[xi1,...,xin]t∈rn,其矢量均值为m,则对应的特征向量为xi=[x1i,...,xni]∈rn,且对应的协方差矩阵为公式(1),样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),将q表示为其中m为正交矩阵q的维数,pca则基于q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵q的特征值及相应的标准正交特征向量,即得到协方差矩阵s的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应s的前d个最大非零特征值,设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间u={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)txi,则yi为低维空间中的样本点,通过pca的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;2)二次特征选择pca特征提取后,为进一步得到最优特征子集及pca低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(filter)关联规则特征选择(correlation-basedfeatureselection,cfs),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,cfs将特征的相关性作为评估标准,是一种过滤(filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集s的k个特征的评价用ms表示,其中特征属性与类的相关度均值为属性间的相关度均值则用表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值ms越高,特征属性与类的相关度均值为越大,属性间的相关度均值则用越小,关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集s中两个高阶关联的特征存在时,例如特征wi、wj,可采用公式(5)的对称不确定方法,特征的熵为h(w),特征关联性为u,由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值hs升高时,特征子集s中特征wj与wi相关性减小,且与类属性相关性增大,采用cfs算法,在pca中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算cfs的评估结果,经过排序后筛选出最优特征子集。本发明的一种运维管控平台故障特征提取方法是一种嵌入二次特征选择功能的特征提取方法,因为基于pca特征提取,将高维空间样本变换为低维空间样本,在特征维度降低的同时降低了特征属性的冗余度,并保留了主要的分类信息,大大降低了分类器的计算复杂度,缩短了训练时间;又因为在此特征提取过程中嵌入二次特征选择功能,基于cfs结合启发式序列后向搜索策略对评估结果进行排序,进而确定特征子集的关键特征,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,显著提高管控故障分类精度。该方法科学合理,适用性强,可广泛适用于各种故障分类管控平台。附图说明图1为本发明的一种运维管控平台故障特征提取方法功能示意图;图2为嵌入二次特征选择功能的特征后向搜索策略流程图;图3为基于初次pca特征提取前后故障分类性能对比图;图4为嵌入二次特征选择功能的pca特征提取方法与传统特征提取方法性能对比图。具体实施方式下面利用附图和具体实施方式对本发明作进一步说明。本发明的一种运维管控平台故障特征提取方法,包括的内容有:1)主成分分析特征提取主成分分析(principlecomponentanalysis,pca)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本n个,x∈rn,每个样本为一个xi=[xi1,...,xin]t∈rn,其矢量均值为m,则对应的特征向量为xi=[x1i,...,xni]∈rn,且对应的协方差矩阵为公式(1),样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),将q表示为其中m为正交矩阵q的维数,pca则基于q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵q的特征值及相应的标准正交特征向量,即得到协方差矩阵s的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应s的前d个最大非零特征值,设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间u={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)txi,则yi为低维空间中的样本点,通过pca的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;2.二次特征选择pca特征提取后,为进一步得到最优特征子集及pca低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(filter)关联规则特征选择(correlation-basedfeatureselection,cfs),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,cfs将特征的相关性作为评估标准,是一种过滤(filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集s的k个特征的评价用ms表示,其中特征属性与类的相关度均值为属性间的相关度均值则用表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值ms越高,特征属性与类的相关度均值为越大,属性间的相关度均值则用越小,关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集s中两个高阶关联的特征存在时,例如特征wi、wj,可采用公式(5)的对称不确定方法,特征关联性为u,特征的熵为h(w),由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值hs升高时,特征子集s中特征wj与wi相关性减小,且与类属性相关性增大,采用cfs算法,在pca中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算cfs的评估结果,经过排序后筛选出最优特征子集。参照图1,本发明的一种运维管控平台故障特征提取方法的功能框架基于pca特征提取进行样本空间变换后更有效去除数据冗余。该特征提取过程:1)基于pca对预处理后数据集s0特征提取。依据pca原理得出高维样本空间x的协方差矩阵s;推导出s的正交矩阵q及其特征值λ1≥λ2≥…≥λn;根据管控故障特征提取实际要求设定累计贡献率t的阈值,从而得到其标准正交向量ui,及特征提取后的低维样本空间u={u1,u2,…ud},并得到原始样本xi空间变换后的主分量特征y=(u1,u2,…ud)txi,形成新的候选特征子集f1。2)基于pca的自适应二次特征选择。①管控故障pca特征提取后如需锁定特征子集f1的关键特征,则进入二次特征选择功能模块。二次特征选择采用关联规则特征选择cfs算法,计算提取后特征集的特征相关性,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,且同时能锁定pca特征提取后的关键特征子集f2。该功能模块在提高故障分类精度同时,能增强其特征的最大关联—最小冗余性,并锁定在pca特征提取基础上的关键特征。②当仅需要故障分类,并不需要分析关键特征时,可跳过此功能模块,对管控故障快速分类。3)在上述嵌入自适应二次特征选择功能的特征提取基础上,对形成的管控故障最优特征数据集进行训练,在测试集上得到管控平台故障分类结果。2.本发明的一种运维管控平台故障特征提取方法的算法框架算法基于主成分分析对原始数据集进行特征提取形成特征集f1,并衡量f1中特征wj与类属性s的关联性u(wj,s),将u进行降序排列,并计算cfs的特征熵评估值hs1。计算时采用的搜索策略是启发式序列后向搜索,后向搜索策略流程如图2所示,每次将与类属性相关性评估值较小的特征删除,并再次计算此特征删除后的特征熵评估值hs2。循环评估hs当其不小于阈值时,若hs2≥hs1,特征子集f1将更新,若hs2<hs1,特征子集f1不更新,当hs小于阈值时跳出循环输出最优特征子集f2。该二次特征选择功能模块能在pca特征提取基础之上,通过关联规则特征选择进一步锁定最优特征子集的关键特征。其二次特征选择算法的伪代码如下:输入:pca特征提取后的特征集f1,输出:最优特征集f2,1.选择pca特征提取后的全部特征构成特征子集f1,2.计算f1中各个特征属性wj与类属性s的关联性u(wj,s),3.计算特征熵评估值hs,4.对每个特征与类属性关联性u(wj,s)值进行降序排列,hs1←hs,5.forhs1≥δdo,6.删除f1中一个特征,形成新的特征子集f2,计算特征熵评估值hs2,7.ifhs2≥hs1,thenf1=f2,8.else,f1不变,9.endif,10.hs1=hs2,11.endfor。发明人采用本发明的一种运维管控平台故障特征提取方法,对特征提取后管控平台识别故障性能进行了对比分析。首先,通过pca进行特征提取,确定主成分累计贡献率为94%,这是由于当阈值t(threshold=94%),特征维度降到18维,并且故障识别平均准确率达到了98%以上,如图3所示。需要注意的是,阈值t决定了pca主成分的累计贡献率,虽然当threshold=100%时累计贡献率最大,拥有较高的识别准确率,但与此同时特征的维度也急剧增加。因此,阈值t并不是越高越好,只有达到维度与分类准确率平衡时,才能使分类器的性能最优。经过pca特征提取后,再次进行18维特征的二次选择,结果显示第1,2,5,6,7,12维的特征间的冗余最小,且与类属性关联性最强。经筛选后,它们为特征提取后的关键特征子集。表1是二次特征选择后的交叉验证结果,基于二次特征选择的6维关键特征子集的对比效果如图4所示,其平均二分类准确率为96.9%,与单纯通过pca特征提取的分类准确率相差不到1.1%。由于特征维度降到6维,相比单纯进行pca降维得到的特征维度降低了65%;分类器模型执行时间平均减少31.3%。在管控平台故障分类过程中,可以根据具体需求进行自适应的特征提取与选择。当仅需要故障分类,且对分类精度要求较高,并不需要分析关键特征时,可跳过二次特征选择模块,对管控故障分类。当需要锁定关键特征,且对特征维度要求较高时,可自适应的进入二次特征选择模块,进一步锁定关键特征,同时在测试集上得到管控平台故障分类结果。以上证明了本发明提出的一种运维管控平台故障特征提取方法的可行性与有效性。表1基于pca的二次故障特征选择(十折交叉验证)pca提取后特征维度交叉验证(%)pca提取后特征维度交叉验证(%)19(90%)111(10%)210(100%)1210(100%)35(50%)130(0%)44(40%)140(0%)510(100%)150(0%)610(100%)160(0%)79(90%)170(0%)87(70%)180(0%)91(10%)100(0%)综上所述,本发明的一种运维管控平台故障特征提取方法,降低了各故障样本空间的特征维度,缩短了训练时间,提高了学习分类器的分类精度。由于其先进行了pca特征提取,大大降低了管控故障分类的特征维度,减少了计算复杂度。同时,由于其在特征提取后进行自适应二次特征选择,克服了单一特征提取方法不能锁定关键特征的问题,并且使特征间冗余度减少,特征与类属性关联性增强,大大提高了故障分类的精度。本发明的软件程序依据自动化和计算机处理技术编制,是本领域技术人员所熟悉的技术。本发明的实施例并非穷举,本领域技术人员不经过创造性劳动的简单复制和改进,仍属于本发明权利保护的范围。当前第1页1 2 3 
技术特征:

1.一种运维管控平台故障特征提取方法,其特征是,它包括的内容有:

1)主成分分析特征提取

主成分分析(principlecomponentanalysis,pca)是进行样本空间变换,通过投影确定所有原始特征向量方差最大的投影方向,将该投影方向定位判别矢量进行特征提取,投影变换后,原始样本变为尽量分散的低维样本,同时保持变换前原高维样本空间的差异性,设定在原始高维空间包含样本n个,x∈rn,每个样本为一个xi=[xi1,...,xin]t∈rn,其矢量均值为m,则对应的特征向量为xi=[x1i,...,xni]∈rn,且对应的协方差矩阵为公式(1),

样本在特征矢量上的分布方差,即公式(1)协方差矩阵的特征值,对公式(1)中的协方差矩阵进行对角化后得到的正交矩阵为公式(2),

将q表示为其中m为正交矩阵q的维数,pca则基于q推导出矩阵中的特征值λ1≥λ2≥…≥λn,并求出特征值对应的标准正交特征向量v1≥v2≥…≥vn,通过正交矩阵q的特征值及相应的标准正交特征向量,即得到协方差矩阵s的标准正交特征向量u1,u2,…ud,如公式(3),其中标准正交特征向量u1,u2,…ud对应s的前d个最大非零特征值,

设定t=95%,ui>t,则空间样本在前d个轴上的主成分累计贡献率就为原始数据的95%,这样,对于任何样本xi将其映射到降维后的低维样本空间u={u1,u2,…ud},其xi的主分量特征为y=(u1,u2,…ud)txi,则yi为低维空间中的样本点,通过pca的空间样本变换,不仅使变换后的样本能够代表主成分的累计贡献率的95%,还使原始空间维度由n降为d,d<<n,因而,大大降低了空间的维度,且起到了特征提取的作用;

2)二次特征选择

pca特征提取后,为进一步得到最优特征子集及pca低维空间的关键特征,嵌入二次特征选择算法,该算法基于过滤式(filter)关联规则特征选择(correlation-basedfeatureselection,cfs),在对样本特征进行相关性评估时采用启发式序列后向搜索策略,通过对特征的相关性排序确定最优的特征子集,

cfs将特征的相关性作为评估标准,是一种过滤(filter)式的特征选择算法,在相应的搜索策略下,旨在降低属性与属性之间的冗余,同时提高属性特征与类属性关联度,达到筛选冗余性高的属性及与类别无关的属性,公式(4)是其评估标准,对特征子集s的k个特征的评价用ms表示,其中特征属性与类的相关度均值为属性间的相关度均值则用表示,由公式(4)可知,由关联规则特征选择算法确定的候选特征子集能够使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,即公式(4)中评价值ms越高,特征属性与类的相关度均值为越大,属性间的相关度均值则用越小,

关联规则特征选择中采用信息增益算法评估各属性间的相关性,而信息增益的计算方法是对称性的测量方法,因此当特征子集s中两个高阶关联的特征存在时,例如特征wi、wj,可采用公式(5)的对称不确定方法,特征的熵为h(w),特征关联性为u,由此公式(6)为基于属性间相关性的特征子集的评估函数,当评估值hs升高时,特征子集s中特征wj与wi相关性减小,且与类属性相关性增大,

采用cfs算法,在pca中嵌入二次特征选择功能,然后基于启发式序列后向搜索策略,计算cfs的评估结果,经过排序后筛选出最优特征子集。

技术总结
一种运维管控平台故障特征提取方法,其特点是,包括:主成分分析特征提取和二次特征选择等内容。基于主成分分析特征提取能将高维空间样本变换为低维空间样本,在特征维度降低的同时降低特征属性的冗余度,并保留了主要的分类信息,大大降低了分类器的计算复杂度,缩短了训练时间;又因为在此特征提取过程中嵌入二次特征选择功能,基于关联规则特征选择,结合启发式序列后向搜索策略对评估结果进行排序,进而确定特征子集的关键特征,使特征属性具有最大关联—最小冗余,即可以最大程度提高属性特征与类属性关联度,且降低属性与属性之间的冗余,显著提高管控故障分类精度。该方法科学合理,适用性强,可广泛适用于各种故障分类管控平台。

技术研发人员:姜涛;曹杰;王蕾;薄小永;曲朝阳;薛凯;于建友;吕洪波;胡可为;徐鹏程;于成立;周玉光
受保护的技术使用者:东北电力大学;国网吉林省电力有限公司信息通信公司;国网吉林省电力有限公司;国网内蒙古东部电力有限公司信息通信分公司;国网东北分部绿源水力发电公司太平湾发电厂
技术研发日:2020.01.07
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53023.html

最新回复(0)