本申请涉及电气设备和信息技术领域,尤其涉及一种基于电容型设备缺陷数据的设备缺陷时间预测方法。
背景技术:
电容型设备是采用电容屏蔽绝缘结构的设备。它主要包括电流互感器、电压互感器、电容型管套和耦合便容器等,约占输变电设备总量的40%到50%,是变电站中数量最多的设备。电容型设备的健康运行和电气设备安全对变电站来说至关重要,任何意想不到的故障都可能导致重大事故和非常巨大的经济损失。因此,实现电容型设备的在线检测和预计有十分重要的研究意义。
目前关于电容型设备的在线监测研究主要集中在数字化测量发方和在线监测系统的开发方面,研究环境对于电容型设备的影响需要在气候室中进行实验,相对较为复杂,国内外此类研究也比较少。
有研究采用大型人工气候室进行了环境因素对电容型设备影响的实验,获得了较为全面、精确的实验数据,提出了一个基于支持向量机(svm)的主要环节因素对影响的修正模型,并采用了遗传算法优化了模型参数。但是,这种方法需要独立实验室,并且由于各个厂家设备参数性能不是很一致,要对所有类型的设备都做气候室实验,这显然损失不现实的。同时,电容型设备工作的现实环境比实验环境更为复杂,单纯考虑试验数据放弃电网公司历年来收集到的电容设备工作和检修数据来进行研究预测可能得出比较片面的结论。
技术实现要素:
本申请提供了一种基于电容型设备缺陷数据的设备缺陷时间预测方法,以解决现有技术中单纯考虑试验数据放弃电网公司历年来收集到的电容设备工作和检修数据来进行研究预测可能得出比较片面的结论,不能准确预测设备缺陷时间的问题。
本申请解决上述技术问题所采取的技术方案如下:
一种基于电容型设备缺陷数据的设备缺陷时间预测方法,所述方法包括:
对电容型设备缺陷数据集进行数据清洗处理;
将经过清洗的数据进行特征变换和编码,得到特征数据;
对所述特征数据使用自编码器再编码的方法进行降维和去噪,得到再编码特征数据;
利用得到的再编码数据特征训练多个机器学习模型,使用训练时间和均方根误差对模型优劣程度进行评估,选择最优模型;
保存所述最优模型,并使用所述最优模型对电容型设备缺陷时间进行预测。
可选的,所述数据清洗处理包括:对所述数据清洗中的缺失值进行填充,所述填充方法为使用k近邻算法和随机森林算法进行填充。
可选的,所述特征变换和编码包括特征分解和交叉。
可选的,所述自编码器再编码的方法包括:稀疏自编码器、降噪自编码器和变分自编码器;
所述稀疏编码器选择包括4个全连接层的编码器和4个全连接层的解码器。
可选的,所述利用得到的再编码数据特征训练多个机器学习模型,包括:
将已标注和清洗的数据特征作为标签样本,对其进行归一化预处理过程;
利用所述标签样本对五种机器学习模型:k近邻回归、支持向量回归、随机森林、梯度提升树和深度学习分别进行训练;
计算机器学习模型的均方损失函数,若损失函数满足条件并且所有网格搜索的超参数都已完成训练,则使用效果最好的超参数得到模型;否则,重新利用所述标签样本对五种机器学习模型继续训练。
经过评估五种机器学习模型的损失,选择损失最小的模型。
可选的,所述五种机器学习模型中,k近邻回归中k值选择为3,使用曼哈顿距离作为距离度量;支持向量回归中选择使用高斯核;随机森林中的决策树个数为100,树的最大深度为3;梯度提升数中的决策树个数为100,树的最大深度为3,学习率为0.1;深度学习中包括四组卷积和批归一化层,后接两层全连接层,激活函数选择relu,损失函数选择mse,优化方法使用adam。
可选的,所述机器学习模型均采用五折交叉验证的网格超参数搜索方法进行训练,保证搜索到最优的超参数,并且达到设定的均方误差阈值,若均方误差大于阈值,则继续训练。
本申请提供的技术方案包括以下有益技术效果:
本申请提供的一种基于电容型设备缺陷数据的设备缺陷时间预测方法,首先获取电容型设备缺陷数据,通过一系列特征工程的方法更好地处理得到的异常、冗余和缺失数据,通过建立电容型设备缺陷发生时间模型更好地预测缺陷的发生时间,模型可以从大数据中提取有效特征,并且使用这些特征来比较精确地预测电容型设备的缺陷发生时间。本申请提供的基于电容型设备缺陷数据的设备缺陷时间预测方法,具有实现简单,计算速度快,预测精度高,预测鲁棒性好,预测流程系统化的优点,解决了现有技术中单纯考虑试验数据放弃电网公司历年来收集到的电容设备工作和检修数据来进行研究预测可能得出比较片面的结论,不能准确预测设备缺陷时间的问题。
附图说明
为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的基于电容型设备缺陷数据的设备缺陷时间预测方法流程图;
图2为本申请实施例提供的。
具体实施方式
为了使本领域技术人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对申请实施例中的技术方案进行清楚、完整地描述;显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
请参考附图1,附图1为本申请实施例提供的基于电容型设备缺陷数据的设备缺陷时间预测方法流程图,如图1所示,本申请提供的基于电容型设备缺陷数据的设备缺陷时间预测方法,包括以下步骤:
s1:对电容型设备缺陷数据集进行数据清洗处理;
s2:将经过清洗的数据进行特征变换和编码,得到特征数据;
s3:对特征数据使用自编码器再编码的方法进行降维和去噪,得到再编码特征数据;
s4:利用得到的再编码数据特征训练多个机器学习模型,使用训练时间和均方根误差对模型优劣程度进行评估,选择最优模型;
s5:保存最优模型,并使用最优模型对电容型设备缺陷时间进行预测。
本申请实施例中的基于电容型设备缺陷数据的设备缺陷时间预测方法,首先获取电容型设备缺陷数据,通过一系列特征工程的方法更好地处理得到的异常、冗余和缺失数据,通过建立电容型设备缺陷发生时间模型更好地预测缺陷的发生时间,模型可以从大数据中提取有效特征,并且使用这些特征来比较精确地预测电容型设备的缺陷发生时间。本申请提供的基于电容型设备缺陷数据的设备缺陷时间预测方法,具有实现简单,计算速度快,预测精度高,预测鲁棒性好,预测流程系统化的优点。
可选的,数据清洗处理包括:对数据清洗中的缺失值进行填充,填充方法为使用k近邻算法和随机森林算法进行填充。
通过采用k近邻算法和随机森林算法,对于缺失值填充的结果更加鲁棒,结合使用了其他特征的信息,引入了更多的可用信息,使得数据更加贴近真实数据,有利于后面的建模步骤。
可选的,特征变换和编码包括特征分解和交叉。
可选的,自编码器再编码的方法包括:稀疏自编码器、降噪自编码器和变分自编码器;稀疏编码器选择包括4个全连接层的编码器和4个全连接层的解码器。
通过采用上述技术方案,在所述特征数据的降维中,使用自编码器再编码的方法模型,函数空间比使用主成分分析更大,能够在降维的同时损失较小;在所述特征数据的降噪中,使用自编码其方法能够保证数据的稀疏性,去掉大部分数据中的噪声,从而得到具体的所述自编码器再编码的方法模型的建立过程,结合到具体的应用场景中,设置具体的输入、输出参数。
可选的,利用得到的再编码数据特征训练多个机器学习模型,包括:
将已标注和清洗的数据特征作为标签样本,对其进行归一化预处理过程;
利用标签样本对五种机器学习模型:k近邻回归、支持向量回归、随机森林、梯度提升树和深度学习分别进行训练;
计算机器学习模型的均方损失函数,若损失函数满足条件并且所有网格搜索的超参数都已完成训练,则使用效果最好的超参数得到模型;否则,重新利用标签样本对五种机器学习模型继续训练。
经过评估五种机器学习模型的损失,选择损失最小的模型,从而得到最好的机器学习模型。
可选的,五种机器学习模型中,k近邻回归中k值选择为3,使用曼哈顿距离作为距离度量;支持向量回归中选择使用高斯核;随机森林中的决策树个数为100,树的最大深度为3;梯度提升数中的决策树个数为100,树的最大深度为3,学习率为0.1;深度学习中包括四组卷积和批归一化层,后接两层全连接层,激活函数选择relu,损失函数选择mse,优化方法使用adam。
通过采用上述技术方案,得到具体的所述机器学习模型的建立过程,结合到具体的应用场景中,设置具体的输入、输出参数。
可选的,机器学习模型均采用五折交叉验证的网格超参数搜索方法进行训练,保证搜索到最优的超参数,并且达到设定的均方误差阈值,若均方误差大于阈值,则继续训练。
通过采用上述技术方案,得到所述机器学习模型的确定标准。
具体的,本申请实施例还提供了具体的一种事实方式,如下所述:
步骤1:对电容型设备缺陷数据集进行数据清洗处理:去除缺失70%以上的值,并对缺失30%以上的值使用k近邻算法和随机森林算法进行缺失值填充;依据数据特征绘制每个特征的箱型图,并由此来去数据除异常值,把所有的冗余数据和空数据进行删除;
步骤2:将经过清洗的数据进行特征变换和编码:将所有的字符型特征进行特征分解,具体如下表1所示。把分解出的字符型特征进行标签编码,即把每个特征的值对应到一个数字。对于连续型数值特征,进行特征分箱技术,例如经纬度,每隔10°给定一个不同的编码。最后,把所有编码后的特征进行特征交叉,特征两两之间相乘,构成新的特征。
表1字符型特征分解对照表
步骤3:对步骤2得到的特征数据进行稀疏自编码器再编码:根据特征数据的质量,选择稀疏自编码其对特征数据进行降维、去噪的再编码。稀疏编码器选择包括4个全连接层的编码器和4个全连接层的解码器。编码器输入为步骤2得到的特征,第一层输出为降维后的32个特征。编码器第二层、第三层和第四层形状分别为(64,32),(32,32)和(32,16)。解码器第一层,第二层、第三层形状分别为(16,32),(32,32)和(32,64)。解码器第四层输入为64个特征,输出为步骤2得到的特征数量。选择的激活函数为tanh函数。自编码器加入了l1正则化项,损失函数选择为均方误差。经过五折交叉验证各200轮训练之后,得到训练好的稀疏自编码器。将步骤2的得到的数据特征输入自编码器,将编码器的输出作为新的再编码特征。稀疏自编码器结构见如图2所示。
步骤4:使用步骤3得到的特征数据构建模型:分别使用k近邻回归、支持向量回归、随机森林、梯度提升树和深度学习的方法对电容型设备缺陷发生时间进行预测。把发生过缺陷的特征数据作为有标签的训练集,未发生过缺陷的特征数据作为测试集,对特征数据集进行归一化。用训练集分别通过五折交叉验证和网格搜索法训练以上五种模型,选择最优的超参数。得到的模型及其均方误差如下表2所示,其中k近邻回归k值选择为3,使用曼哈顿距离作为距离度量;支持向量回归选择使用高斯核;随机森林的决策树个数为100,树的最大深度为3;梯度提升数的决策树个数为100,树的最大深度为3,学习率为0.1;深度学习模型包括四组卷积和批归一化层,后接两层全连接层。激活函数选择relu,损失函数选择mse,优化方法使用adam。对五种模型进行评估,最终得到效果最好的模型:梯度提升树模型。
表2五种模型及其均方误差对照表
步骤5:将步骤4得到的模型保存,并对测试集数据进行预测:把梯度提升决策树模型的参数保存,提取步骤4中测试集的特征向量,输入模型进行预测。最终得到电容型设备缺陷时间的预测结果,重新写回数据表中,结束。
本申请实施例提供的基于电容型设备缺陷数据的设备缺陷时间预测方法,首先获取电容型设备缺陷数据,通过一系列特征工程的方法更好地处理得到的异常、冗余和缺失数据,通过建立电容型设备缺陷发生时间模型更好地预测缺陷的发生时间,模型可以从大数据中提取有效特征,并且使用这些特征来比较精确地预测电容型设备的缺陷发生时间。本申请提供的基于电容型设备缺陷数据的设备缺陷时间预测方法,具有实现简单,计算速度快,预测精度高,预测鲁棒性好,预测流程系统化的优点,解决了现有技术中单纯考虑试验数据放弃电网公司历年来收集到的电容设备工作和检修数据来进行研究预测可能得出比较片面的结论,不能准确预测设备缺陷时间的问题。
需要说明的是,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本申请的具体实施方式,使本领域技术人员能够理解或实现本申请。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的内容,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。
1.一种基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述方法包括:
对电容型设备缺陷数据集进行数据清洗处理;
将经过清洗的数据进行特征变换和编码,得到特征数据;
对所述特征数据使用自编码器再编码的方法进行降维和去噪,得到再编码特征数据;
利用得到的再编码数据特征训练多个机器学习模型,使用训练时间和均方根误差对模型优劣程度进行评估,选择最优模型;
保存所述最优模型,并使用所述最优模型对电容型设备缺陷时间进行预测。
2.根据权利要求1所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述数据清洗处理包括:对所述数据清洗中的缺失值进行填充,所述填充方法为使用k近邻算法和随机森林算法进行填充。
3.根据权利要求1所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述特征变换和编码包括特征分解和交叉。
4.根据权利要求1所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述自编码器再编码的方法包括:稀疏自编码器、降噪自编码器和变分自编码器;
所述稀疏编码器选择包括4个全连接层的编码器和4个全连接层的解码器。
5.根据权利要求1所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述利用得到的再编码数据特征训练多个机器学习模型,包括:
将已标注和清洗的数据特征作为标签样本,对其进行归一化预处理过程;
利用所述标签样本对五种机器学习模型:k近邻回归、支持向量回归、随机森林、梯度提升树和深度学习分别进行训练;
计算机器学习模型的均方损失函数,若损失函数满足条件并且所有网格搜索的超参数都已完成训练,则使用效果最好的超参数得到模型;否则,重新利用所述标签样本对五种机器学习模型继续训练。
经过评估五种机器学习模型的损失,选择损失最小的模型。
6.根据权利要求5所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述五种机器学习模型中,k近邻回归中k值选择为3,使用曼哈顿距离作为距离度量;支持向量回归中选择使用高斯核;随机森林中的决策树个数为100,树的最大深度为3;梯度提升数中的决策树个数为100,树的最大深度为3,学习率为0.1;深度学习中包括四组卷积和批归一化层,后接两层全连接层,激活函数选择relu,损失函数选择mse,优化方法使用adam。
7.根据权利要求1所述的基于电容型设备缺陷数据的设备缺陷时间预测方法,其特征在于,所述机器学习模型均采用五折交叉验证的网格超参数搜索方法进行训练,保证搜索到最优的超参数,并且达到设定的均方误差阈值,若均方误差大于阈值,则继续训练。
技术总结