一种对基于降维的电气特征数据进行均值聚类的方法及系统与流程

专利2022-06-29  123


本发明涉及低压台区
技术领域
,更具体地,涉及一种对基于降维的电气特征数据进行均值聚类的方法及系统。
背景技术
:线损是可以反映电力企业的经营和管理水平重要技术经济指标,其大小与电力企业的经济效益息息相关。低压台区的线损占到了整个配电网线损的一半以上,低压台区线损指的是电压在0.4kv及以下情况下所产生的线损,在电力系统的电能损耗中占的比例较大,具有不易察觉的特点,在我国电网现状下,低压台区线损有非常大的降损节电潜力,可以通过加强低压台区的线损管理,以此来有效地监测配电网每个台区所有电力用户用电量变化,来分析线损组成。因此,低压台区线损分析和降损可以大大降低供电企业运营成本,随着新一轮电力体制改革的持续深入和电力公司化运营管理机制的不断完善,低压台区线损管理的重要性将日益突出,也成为深入开展线损精细化管理的重点。对低压台区的线损进行分析,研究其降损措施,有针对性地采取措施进一步降低台区的线路损耗将显著地提高电力企业的效益,也将为缓减能源压力、减轻环境污染,构建节能环保型社会做出相应的贡献,具有重要的理论研究意义和工程应用价值。线损计算所需要的原始数据一是有关电力网结构的元件参数和接线图;二是有关电力网的运行参数(电流、电压、功率因数、有功及无功功率等)。但是由于低压台区的建设和管理状况参差不齐、台区和终端用户数目庞大、台账管理不完备、线路分布复杂多样、用电采集系统的采集成功率差别较大,不论计算理论线损率还是评估统计线损率,均需要动用大量的人力、物力才能收集到必要的运行资料和数据,工作量非常大,供电部门很难每月进行一次计算工作。并且目前台区线损管理中普遍存在户变关系不清、抄表量不佳、窃电、计量故障等管理原因致使线损计算数值不准确。基于上述现状,如何快速、准确地计算出台区线损率是亟待解决的问题。近年来,机器学习的出现与发展,为台区线损率计算提供了新思路和新途径,这类算法无需人工建立配电网复杂的数学模型,通过对样本的训练就可以实现输入到输出的映射,但由于台区规模、用电结构、经济发展水平等各方面差异比较大,将所有台区的线损率放在同一水平线上进行计算评估并不合理,所以需要对台区进行分类分析。因此,需要一种技术,以实现基于降维的电气特征数据进行均值聚类的方法。技术实现要素:本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,以解决如何基于降维的电气特征数据进行均值聚类的问题。为了解决上述问题,本发明提供了一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。优选地,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。优选地,还包括:通过sc系数和ch系数对多个台区的聚类结果进行评价。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。优选地,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据zij进行降维,采用t-sne流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;(2)计算高维空间内台区两两样本点之间联合概率pij:式中n为台区总数量;(3)计算低维空间内两点之间的联合概率qij:式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。(4)计算pij和qij之间的kl散度,将其设为目标函数c:p为高维空间数据点的联合概率分布;q为低维空间数据点的联合概率分布;(5)用目标函数c对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:δ为求导符号;通过以上步骤,得到降维矩阵v。基于本发明的另一方面,提供一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。优选地,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。优选地,还包括评价单元,用于:通过sc系数和ch系数对多个台区的聚类结果进行评价。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。优选地,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,还用于:对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据zij进行降维,采用t-sne流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;(2)计算高维空间内台区两两样本点之间联合概率pij:式中n为台区总数量;(3)计算低维空间内两点之间的联合概率qij:式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。(4)计算pij和qij之间的kl散度,将其设为目标函数c:p为高维空间数据点的联合概率分布;q为低维空间数据点的联合概率分布;(5)用目标函数c对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:δ为求导符号;通过以上步骤,得到降维矩阵v。本发明技术方案提供一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵;将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。本发明技术方案提出的一种基于电气特征非线性降维的低压台区mean-shift聚类算法,首先根据t-sne流行学习算法对原始的多维数据进行降维处理,然后根据降维数据对样本台区进行mean-shift均值聚类,再根据聚类结果,利用sc系数以及ch系数评价聚类效果的好坏。附图说明通过参考下面的附图,可以更为完整地理解本发明的示例性实施方式:图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图;图2为根据本发明优选实施方式的基于改进的聚类算法及集成学习模型对台区线损率进行预测的流程图;图3为根据本发明优选实施方式的t-sne流行学习算法流程示意图;以及图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。具体实施方式现在参考附图介绍本发明的示例性实施方式,然而,本发明可以用许多不同的形式来实施,并且不局限于此处描述的实施例,提供这些实施例是为了详尽地且完全地公开本发明,并且向所属
技术领域
的技术人员充分传达本发明的范围。对于表示在附图中的示例性实施方式中的术语并不是对本发明的限定。在附图中,相同的单元/元件使用相同的附图标记。除非另有说明,此处使用的术语(包括科技术语)对所属
技术领域
的技术人员具有通常的理解含义。另外,可以理解的是,以通常使用的词典限定的术语,应当被理解为与其相关领域的语境具有一致的含义,而不应该被理解为理想化的或过于正式的意义。图1为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程图。本申请提出一种基于电气特征非线性降维的低压台区mean-shift均值聚类算法。本申请首先对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响;步骤2:将多个电气特征参数的参数值进行标准化处理;步骤3:采用t-sne非线性的降维方法对多个电气特征进行降维,去除指标之间的相关性,实现结果可视化;步骤4:将降维之后的数据作为输入数据,采用mean-shift均值聚类算法将台区进行聚类,步骤5:采用sc系数以及ch系数评价聚类效果。如图1所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的方法,方法包括:优选地,在步骤101:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。本申请将1959个台区的电气特征指标是作为t-sne算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-sne算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。设台区个数为n,每个台区的台区电气特征参数为7个,n个台区样本的台区电气特征参数组成台区电气特征向量x,有:用xij表示台区电气特征向量x的第i行、第j列元素,i=1,2,...,n,j=1,2,...,7;对台区电气特征参数进行标准化处理,有:其中,zij为xij标准化处理后的量,为xij的平均值,sij为xij的方差;根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:表1以下为标准化后部分台区数据台区id台区容量负载率功率因数功率方差三相不平衡度最大负荷居民用户占比462900.27-1.511.180.300.391.290.00463180.210.46-1.280.39-1.172.51-1.38463190.08-1.51-0.510.39-0.83-0.40-1.10463210.29-0.98-0.090.23-0.52-0.39-0.50463240.03-0.981.27-0.130.10-0.790.30464340.38-2.220.800.57-0.200.25-0.53464580.230.460.220.250.33-1.150.68464590.17-1.510.260.32-0.501.12-0.52464610.02-0.35-0.280.12-0.410.44-0.34464620.250.46-0.88-1.160.950.400.32优选地,在步骤102:对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。优选地,方法对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据zij进行降维,采用t-sne流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;(2)计算高维空间内台区两两样本点之间联合概率pij:式中n为台区总数量;(3)计算低维空间内两点之间的联合概率qij:式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。(4)计算pij和qij之间的kl散度,将其设为目标函数c:p为高维空间数据点的联合概率分布;q为低维空间数据点的联合概率分布;(5)用目标函数c对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:δ为求导符号;通过以上步骤,得到降维矩阵v。通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为v,有:降维之后的部分样本台区电气特征参数如表2:表2台区id特征1特征2特征3462905.824.69-6.1146318-2.105.190.78463196.596.540.60463212.400.30-12.37463246.280.03-3.76464344.963.15-2.68464580.85-9.575.62464594.396.36-9.4546461-3.56-1.43-6.4546462-11.10-2.6411.69优选地,在步骤103:将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。本申请将降维之后的台区样本点v采用mean-shift聚类算法将台区进行聚类,具体如下:(1)引入高斯核函数,得到数据集的密度,如下:式中k(v)是径向对称函数,如下:k(v)=ck,dk(||v||2)(16)其中系数ck,d是归一化常数,使k(v)的积分等于1;(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:因此,mean-shift算法流程如下:第一步:计算每个样本的均值漂移向量mh(v);第二步:对每个样本点以mh(v)进行平移,即:vi=vi mh(vi)(18)第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;第四步:收敛到相同点的样本被认为是同一簇类的成员。根据上述步骤,将台区样本数据分为2类,具体类别如表3:表3类别第一类第二类每一类个数8981061每一类的台区特征指标降维矩阵为v1,v2,有:上述10个台区其中第一类台区如表4:表4台区id特征1特征2特征3462905.824.69-6.11463196.596.540.60463212.400.30-12.37463246.280.03-3.76464344.963.15-2.68464594.396.36-9.4546461-3.56-1.43-6.45第二类台区如表5:表5台区id特征1特征2特征346318-2.105.190.78464580.85-9.575.6246462-11.10-2.6411.69优选地,在步骤101之前,方法还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。根据公式:式中,ey为台区的日均线损率,σy为台区线损率的样本方差,py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。优选地,方法还包括:通过sc系数和ch系数对多个台区的聚类结果进行评价。其中,sc系数为轮廓系数(silhouettecoefficient,sc),ch系数为calinski-harabaz指数(calinski-harabasz,ch)。本申请采用sc系数以及ch系数两种性能评价指标评价聚类效果;sc系数公式如下:上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见sc系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。ch系数公式如下:式中,w(k)表示类内散度,b(k)表示类间散度,其中k为聚类个数,ch系数越大说明聚类效果越好。通过对聚类结果进行评估,两类评价函数值如表6:表6评价指标sc系数ch系数评价值0.3800871495.195本申请实施方式采用t-sne非线性降维方法,可以实现结果可视化。本申请提出mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。图4为根据本发明优选实施方式的一种对基于降维的电气特征数据进行均值聚类的方法流程的系统结构图。如图4所示,本申请提供一种对基于降维的电气特征数据进行均值聚类的系统,系统包括:处理单元401,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理。优选地,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。本申请对台区电气特征参数进行标准化处理,本申请对台区电气特征参数进行标准化处理之前,先确定台区电气特征参数;台区电气特征参数包括以下7个:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷、居民用户占比。本申请将1959个台区的电气特征指标是作为t-sne算法的输入,也就是自变量。各参数具有不同的单位和量级,对于t-sne算法来说只区分数据数值的大小,并不能反映出数据的单位。为了更好的应用上述算法,需要消除各参数间不同单位和量级对数值的影响,防止出现“大数吃小数”的现象。而数据的标准化就是将数据按比例缩放,使之落入一个小的特定区间去除数据的单位限制,将其转化为无量纲的纯数值。设台区个数为n,每个台区的台区电气特征参数为7个,n个台区样本的台区电气特征参数组成台区电气特征向量x,有:用xij表示台区电气特征向量x的第i行、第j列元素,i=1,2,...,n,j=1,2,...,7;对台区电气特征参数进行标准化处理,有:其中,zij为xij标准化处理后的量,为xij的平均值,sij为xij的方差;根据以上处理,得到1959个台区标准化后的特征指标,其中部分样本台区电气特征参数如表1:表1台区id台区容量负载率功率因数功率方差三相不平衡度最大负荷居民用户占比4629031518.360.9921.3848.1096.630.65463186302.420.994.3760.9026.830.70463193157.420.998.0730.3940.800.004632140010.150.9911.5330.4271.340.974632440019.080.9818.3826.15112.890.714643420015.901.0014.9237.1569.920.494645863012.140.9920.7122.55130.990.944645931512.380.9911.6646.2870.271.00464615009.400.9813.2938.6283.600.94464626305.000.9427.5638.78112.741.00以下为标准化后部分台区数据台区id台区容量负载率功率因数功率方差三相不平衡度最大负荷居民用户占比462900.27-1.511.180.300.391.290.00463180.210.46-1.280.39-1.172.51-1.38463190.08-1.51-0.510.39-0.83-0.40-1.10463210.29-0.98-0.090.23-0.52-0.39-0.50463240.03-0.981.27-0.130.10-0.790.30464340.38-2.220.800.57-0.200.25-0.53464580.230.460.220.250.33-1.150.68464590.17-1.510.260.32-0.501.12-0.52464610.02-0.35-0.280.12-0.410.44-0.34464620.250.46-0.88-1.160.950.400.32降维单元402,用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵。优选地,降维单元402用于对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据进行降维,获取多个台区的多个电气特征的降维矩阵,还用于:对经过标准化处理后的多个台区的多个电气特征的矩阵中的参数数据zij进行降维,采用t-sne流形学习的非线性降维方法,将高维数据降到3维或2维,实现结果可视化,如下:(1)计算高维空间台区两两样本点之间的相似性条件概率pi|j和pj|i:式中zi为标准化后第i个台区的特征向量,取值服从以zi为中心方差为δi的高斯分布,同样zj为标准化后第j个台区的特征向量,取值服从以zj为中心方差为δj的高斯分布;(2)计算高维空间内台区两两样本点之间联合概率pij:式中n为台区总数量;(3)计算低维空间内两点之间的联合概率qij:式中vi,vj,vk,vl分别为高维数据点zi,zj,zk,zl映射到低维空间的点;低维数据点vi,vj真实的反应了高维数据点zi,zj之间的关系。(4)计算pij和qij之间的kl散度,将其设为目标函数c:p为高维空间数据点的联合概率分布;q为低维空间数据点的联合概率分布;(5)用目标函数c对输入数据对应的低维度表达式进行求导,并把该低维度表达式作为可优化变量进行寻优,从而得到输入值在低维空间的最佳模拟点:δ为求导符号;通过以上步骤,得到降维矩阵v。通过以上步骤,台区样本的特征指标由7个降到了3个,可以实现样本点的可视化,具体流程图见图3,降维之后的台区特征向量为v,有:降维之后的部分样本台区电气特征参数如表2:表2执行单元403,用于将多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。本申请将降维之后的台区样本点v采用mean-shift聚类算法将台区进行聚类,具体如下:(1)引入高斯核函数,得到数据集的密度,如下:式中k(v)是径向对称函数,如下:k(v)=ck,dk(||v||2)(16)其中系数ck,d是归一化常数,使k(v)的积分等于1;(2)求高斯核函数的梯度,其第一项为实数,第二项的向量与梯度方向一致,表达式如下:因此,mean-shift算法流程如下:第一步:计算每个样本的均值漂移向量mh(v);第二步:对每个样本点以mh(v)进行平移,即:vi=vi mh(vi)(18)第三步:重复(1)(2)步骤,直到样本点收敛,即:mh(v)=0;第四步:收敛到相同点的样本被认为是同一簇类的成员。根据上述步骤,将台区样本数据分为2类,具体类别如表3:表3类别第一类第二类每一类个数8981061每一类的台区特征指标降维矩阵为v1,v2,有:上述10个台区其中第一类台区如表4:表4台区id特征1特征2特征3462905.824.69-6.11463196.596.540.60463212.400.30-12.37463246.280.03-3.76464344.963.15-2.68464594.396.36-9.4546461-3.56-1.43-6.45第二类台区如表5:表5台区id特征1特征2特征346318-2.105.190.78464580.85-9.575.6246462-11.10-2.6411.69优选地,系统还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。本申请对所给台区数据进行去噪处理,根据日均线损率和线损率变异系数,消除线损率差异较大台区的影响。如图2所示。根据公式:式中,ey为台区的日均线损率,σy为台区线损率的样本方差,py为台区的线损率变异系数,去除台区线损率变异系数较大的台区,形成稳定的台区样本数据库。其中,yi为台区i的线损率;本申请计算出2017个台区的日均线损率和线损率变异系数,去掉线损率变异系数大于1的台区样本,最终得到1959个稳定的台区样本。优选地,系统还包括还包括评价单元,用于:通过sc系数和ch系数对多个台区的聚类结果进行评价。本申请sc系数为轮廓系数(silhouettecoefficient,sc),ch系数为calinski-harabaz指数(calinski-harabasz,ch)。本申请采用sc系数以及ch系数两种性能评价指标评价聚类效果;sc系数公式如下:上式中,a(i)表示i向量到同一簇内其他点不相似程度的平均值,b(i)表示i向量到其他簇的平均不相似程度的最小值;由此可见sc系数的值是介于[-1,1],越趋近于1代表内聚度和分离度都相对较优。ch系数公式如下:式中,w(k)表示类内散度,b(k)表示类间散度,其中k为聚类个数,ch系数越大说明聚类效果越好。通过对聚类结果进行评估,两类评价函数值如表6:表6评价指标sc系数ch系数评价值0.3800871495.195本申请实施方式采用t-sne非线性降维方法,可以实现结果可视化。本申请提出mean-shift聚类算法,对于聚类个数无需人为选择,并且受均值影响小。本申请提出的基于电气特征非线性降维的台区聚类方法有效的解决了因台区线损率数值分散而导致的智能算法训练精度差的问题,为台区线损分析提供了技术支撑。已经通过参考少量实施方式描述了本发明。然而,本领域技术人员所公知的,正如附带的专利权利要求所限定的,除了本发明以上公开的其他的实施例等同地落在本发明的范围内。通常地,在权利要求中使用的所有术语都根据他们在
技术领域
的通常含义被解释,除非在其中被另外明确地定义。所有的参考“一个//该[装置、组件等]”都被开放地解释为装置、组件等中的至少一个实例,除非另外明确地说明。这里公开的任何方法的步骤都没必要以公开的准确的顺序运行,除非明确地说明。当前第1页1 2 3 
技术特征:

1.一种对基于降维的电气特征数据进行均值聚类的方法,所述方法包括:

将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;

对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;

将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。

2.根据权利要求1所述的方法,还包括:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。

3.根据权利要求1所述的方法,还包括:通过sc系数和ch系数对多个台区的聚类结果进行评价。

4.根据权利要求1所述的方法,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。

5.根据权利要求1所述的方法,所述对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:

对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据zij进行降维,将参数数据zij降到3维或2维。

6.一种对基于降维的电气特征数据进行均值聚类的系统,所述系统包括:

处理单元,用于将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;

降维单元,用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;

执行单元,用于将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据进行聚类,获取多个台区的聚类结果。

7.根据权利要求6所述的系统,还包括初始单元,用于:对多个台区的参数数据进行去噪处理,根据多个台区的参数数据的日均线损率和线损率样本方差确定线损率变异系数,消除线损率变异系数大于设定阈值的台区。

8.根据权利要求6所述的系统,还包括评价单元,用于:通过sc系数和ch系数对多个台区的聚类结果进行评价。

9.根据权利要求6所述的系统,多个台区的多个电气特征的矩阵中的参数,包括:台区容量、负载率、功率因数、功率方差、三相不平衡度、最大负荷以及居民用户占比。

10.根据权利要求6所述的系统,所述降维单元用于对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵,包括:

对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据zij进行降维,将参数数据zij降到3维或2维。

技术总结
本发明公开了一种对基于降维的电气特征数据进行均值聚类的方法及系统,其中方法包括:将多个台区的多个电气特征的矩阵中的参数数据进行标准化处理;对经过标准化处理后的所述多个台区的多个电气特征的矩阵中的参数数据进行降维,获取所述多个台区的多个电气特征的降维矩阵;将所述多个台区的多个电气特征的降维矩阵的参数数据作为输入数据,对所述降维矩阵的参数数据通过均值聚类算法进行聚类,获取多个台区的聚类结果。

技术研发人员:刘丽平;董美娜;姚力;唐伟;吴萍;张子岩;章江铭;张密;李媛
受保护的技术使用者:中国电力科学研究院有限公司;国家电网有限公司;华北电力大学;国网浙江省电力有限公司;国网四川省电力公司电力科学研究院
技术研发日:2020.01.17
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16550.html

最新回复(0)