一种基于标签自适应策略的深度半监督图像聚类方法与流程

专利2022-06-29  105


本发明属于图像聚类与数据挖掘
技术领域
,涉及一种基于标签自适应策略的深度半监督图像聚类方法。
背景技术
:随着网络信息技术和数据采集技术的飞速发展,人们不断地与外界进行数据交换,从而导致数据量的爆炸性增长。同时智能手机和照相机的广泛应用,造成了图像数据的迅猛增长。尽管互联网上不断增长的图像数据中包含丰富的信息,但要从中获取真正有价值的信息却也变得更加困难。庞大的数据量使得我们迫切需要一种新方法来深入挖掘大规模图像数据中蕴含的真正有价值的信息。数据挖掘技术可以从大量不完整、嘈杂和随机的数据中挖掘隐藏的、潜在的和有价值的信息。它不仅可以学习已有的知识,还可以从数据中发现未知的规律。图像聚类是图像处理技术中重要的研究内容之一,其目的在于将拥有类似特征或空间属性的图像归为一类,进而在面对海量图像数据时提高图像的管理和检索性能。近年来,许多研究者已经投入到图像聚类领域中,并取得了很大的成果。但是由于图像数据往往表现为高维属性导致其具有不可靠的相似性指标。因此在面对具有较高维度的图像数据时,传统聚类方法的性能往往会下降。为了解决这一维度灾难问题,研究者们常用的方法是将图像数据从高维特征空间转换到低维空间。在深度学习兴起之前,可以使用主成分分析(pca)和线性判别分析(lda)之类的方法来缩小数据的维数。但是近年来,由于深度神经网络具有很强的数据表达能力,利用深度神经网络(dnn)变换特征空间的方法引起了广泛的关注。我们将这种聚类方法称为深度聚类。其中代表性的方法包括深度嵌入式聚类(dec)、深度聚类网络(dcn)、保留局部结构的改进深度嵌入聚类(idec)。然而,以上方法只利用了图像数据的无监督信息,没有利用海量图像数据中存在的部分先验信息,即数据中少量的标签数据或专家给定的约束表示。为了充分考虑数据中有限的标记数据和足够的未标记数据来提高聚类方法的性能,半监督聚类方法引起了研究者的关注。相应地,一些半监督聚类方法被提出,如自加权多核学习(smkl)和半监督深度嵌入聚类(sdec),利用数据中监督信息,提高聚类精度。由于聚类方法在执行过程中产生的标签无实际意义,仅表示数据是否归属于同一类,这导致聚类方法在执行过程中每次迭代所产生的标签都不一致且和实际标签无对应关系。本发明中将该现象称作标签漂移。因此以往的半监督聚类方法只是将数据的监督信息作用于数据的特征学习,无法将其直接作用于聚类过程,导致对监督信息的利用程度不足。综上,本发明提出一种基于标签自适应策略的深度半监督图像聚类方法,主要考虑纠正聚类过程中的标签漂移问题,从而直接利用监督信息来调整聚类簇心,指导聚类过程。技术实现要素:本发明提出一种基于标签自适应策略的深度半监督图像聚类方法。该方法使用堆叠自动编码机对原始图像数据进行特征空间的转换,避免图像在原始数据空间中的维度灾难难题,生成语义丰富的深度数据表示。同时,本发明设计一种标签自适应策略,纠正聚类过程中的标签漂移问题,该策略可有效提高标签信息的利用率,同时抑制编解码网络对深度聚类方法簇心学习的过重影响。此外,本发明提出一种半监督联合学习框架,该框架集成部分已知的标签信息来共同学习潜在特征空间和聚类划分,最终提高聚类方法的准确率(acc)和标准化互信息(nmi)。为了达到上述目的,本发明采用的技术方案为:一种基于标签自适应策略的深度半监督图像聚类方法,包括以下步骤:步骤1、预训练编解码网络,初始化潜在特征空间;步骤2、通过k-means方法在潜在特征空间初始化聚类簇心;步骤3、计算聚类结果的软分配和目标分布,基于kl散度生成聚类损失;步骤4、利用标签自适应策略动态生成临时监督标签,基于交叉熵生成标签损失;步骤5、计算和优化联合目标函数,迭代更新直至满足收敛条件,完成聚类学习;本发明的有益效果为:本发明针对图像数据设计了一种深度半监督聚类方法,主要考虑聚类过程中的标签漂移问题,并为此设计一种标签自适应策略,动态适应标签的漂移,同时整合聚类损失和标签损失,联合优化潜在特征空间和调整聚类簇心。该策略将标签信息直接作用于聚类簇心的学习,有助于抑制聚类簇心受编解码网络的过重影响。实验表明,本发明在聚类方法常用的评价指标acc和nmi上,有效提高了聚类性能。附图说明图1基于标签自适应策略的深度半监督图像聚类方法框架图;图2标签自适应策略示意图;图3本发明提出方法的流程图。具体实施方式下面结合附图对本发明的实施方式做进一步说明。图1为基于标签自适应策略的深度半监督图像聚类方法的框架图。首先采用堆叠自动编码机将原始图像数据映射到低维特征空间,生成图像数据的潜在特征表示,避免图像在原始数据空间中维度灾难的难题。其次,通过k-means方法在低维空间中初始化聚类簇心。然后,使用student’s-t分布度量特征空间中的数据点和聚类簇心之间的相似度,得到聚类的软分配和高置信度的辅助目标分布;并将二者的kl散度损失作为聚类损失。之后,利用聚类的软分配结果和本发明设计的标签自适应策略对监督信息进行动态更新,纠正聚类过程中的标签漂移问题,得到标签损失。最后,联合聚类损失和标签损失生成目标优化函数,使用随机梯度下降sgd对其进行迭代优化直至收敛。具体步骤如下:步骤1、学习潜在特征空间;原始的图像数据往往维度过高且其中包含较多的冗余信息,导致图像数据的显著信息不明显,难以有效地度量图像数据间的相似性。为了解决图像数据的这一维度灾难难题,本发明采用堆叠自编码器网络,通过最小化重构损失,构建高维数据的低维特征空间,学习原始图像数据的低维语义表示。具体地,利用降噪自编码机逐层初始化堆叠自编码器网络。设定x表示降噪自编码机的输入,t表示降噪自编码机的输出,具体的计算过程如下:其中,dropout(·)是一个随机映射,随机地将输入层的一部分设置为0,是对输入x进行随机映射后的结果,h是降噪自编码机的中间输出结果,是对h进行随机映射后的结果,g1和g2分别代表编码器和解码器的激活函数,θ={w1,b1,w2,b2}是网络的参数。降噪自编码机通过最小化平方损失进行训练。在训练完第一层之后,第一层的输出h作为下一层的输入,依据公式(1)、(2)、(3)、(4)训练网络第二层,以此类推,逐层初始化堆叠自编码器网络。因为初始输入数据中可能既包含正值元素又包含负值元素,为保证重构初始输入,将第一组自编码器的激活函数g2设置为常数1。同理,为了使数据在最终的潜在空间能包含全部的信息,将最后一组自编码器的激活函数g1也设置为常数1。除此之外,所有自编码器的g1和g2都设置为relu激活函数。逐层训练后,将所有的编码器层和解码器层连接起来,使用随机梯度下降算法微调整个网络,最小化重构损失,最终得到一个多层的深度自编码器网络。然后,使用编码器层作为初始数据空间和潜在特征空间之间的初始映射fθ:x→z,其中θ是学习到的参数,x是图像的初始数据空间,z是潜在特征空间。步骤2、初始化聚类簇心;给定n个图像样本的集合使用已初始化的深度自编码器网络,生成数据点xi在潜在特征空间z中的对应点zi=fθ(xi)∈z,然后利用k-means聚类方法在潜在特征空间中得到k个初始化的聚类簇心这里采用欧氏距离平方度量样本之间的相似度,将样本与其所属类的簇心之间的距离总和作为损失函数,k-means的过程即最小化损失函数(5):其中,j=c(i)表示划分,其中i∈{1,2,...,n},j∈{1,2,...,k}。由于上式的直接求解是np难的问题,因此只能采用启发式的迭代方法进行求解。具体地,首先随机选择k个类的簇心,将样本逐个指派到与其最近的簇心的类中,得到中间聚类结果;然后更新每个类的簇心的均值,作为类的新的簇心;重复以上步骤,直到划分不再改变,得到聚类结果,并将最终的聚类结果用作潜在特征空间中的初始聚类簇心。步骤3、深度嵌入聚类;给定初始非线性映射fθ和初始化的聚类簇心交替使用下述两个步骤来改善聚类性能。第一步,计算潜在特征空间中的数据点和聚类簇心之间的软分配。第二步,利用辅助目标分布从当前的高置信分配中学习聚类损失。1)软分配利用student’s-t分布来测量特征点zi和簇心μj之间的相似度,计算公式如下:其中,zi=fθ(xi)∈z表示原始数据xi∈x在潜在特征空间中的对应点,qij为样本i被分配到类别j的概率。2)kl分布最小化本发明使用辅助目标分布指导网络学习,从高置信度的分配中学习聚类损失,即通过kl散度度量目标分布与网络输出分布间的代价。因此,本发明采用的目标分布应该满足以下特性:(1)提高簇类的纯度,(2)注重高置信度分配的数据点,(3)归一化各簇心对损失的贡献,防止具有较多数据点的类簇扭曲特征空间。所以,本发明首先将qi升至二次幂,然后按每个簇的频率进行归一化来计算pi,计算公式如下:其中,fj=∑iqij为类别j的软频率。为了让软分配尽可能地匹配目标分布,将聚类损失定义为软分配qi和辅助目标分布pi之间的kl散度损失,定义如公式(8)所示。如此,通过拟合软分配和目标分布,获得具有高置信度的聚类损失l1,使用聚类损失进一步更新深度映射fθ和优化聚类簇心步骤4、标签自适应策略;为了更加充分地利用海量图像数据中的监督信息,学习到更准确的聚类划分,本发明设计一种标签自适应策略,识别和纠正聚类过程中的标签漂移问题。首先,构建样本标签列表a记录样本点是否具有真实标签,样本标签列表a中的元素ai定义如下:其次,本发明设计的标签自适应策略如下。对于原始数据集中有标签数据中任意类别为i的子集y=[i1,i2,...,in],初始聚类结果按下式计算得到:其中,l1,r2,ln分别代表不同的标签。在聚类结果中存在的误差,即未能将上述同一类别的样本全部归属到同一类中,为了更正这个误差,本发明设计下面的学习策略:1)统计q=[l1,r2,...,ln]中各类别的数目{ci|i=1,...,k},并认为其中的最大值c:=max{ci|i=1,...,k}为聚类结果的正确标签。2)为了学习聚类过程中的标签误差,将真实标签y=[i1,i2,...,in]在此次聚类过程中动态标记为y'=[c1,c2,...,cn],即原始数据中类别为i的子集在聚类结果中的类别应全部体现为c。3)计算标签损失-∑y'logq,即聚类结果中未正确判断类别的样本产生的误差。4)重复上述步骤,不断地动态更新q和y',迭代调整潜在特征空间和聚类簇心。基于上述标签自适应策略和标签存在列表a,定义全部数据集的标签损失如下:步骤5、优化联合目标函数;本发明集成深度自编码网络、深入嵌入聚类以及标签自适应策略,设计半监督联合框架如图1所示。为训练半监督联合框架,本发明联合优化聚类损失和标签损失,设计整体半监督损失函数如下:使用随机梯度下降(sgd)优化损失函数。更新半监督联合框架的参数:堆叠自动编码机的参数θ和聚类簇心{μj}。损失函数相对于潜在特征空间中数据表示点zi的梯度为:损失函数相对于潜在特征空间中的聚类簇心{μj}的梯度为:然后,将梯度向下传递到堆叠自动编码器网络,并使用随机梯度下降sgd计算堆叠自动编码机中的参数梯度对参数θ进行更新。聚类簇心{μj}通过进行更新。当两次连续迭代之间的聚类分配变动小于tol%或达到最大训练次数时,聚类过程将终止。方法流程描述:本发明的整体流程分为三部分:预训练计算,初始聚类簇心计算,标签自适应聚类计算。具体地,本发明构建深度自编码器网络,利用编码与解码策略预训练网络,并利用网络的编码器层将图像数据从初始特征空间映射到潜在特征空间,构建图像数据的潜在特征空间表示。然后基于数据点的潜在特征空间表示,利用k-means方法得到初始化的聚类簇心。最后依据辅助目标分布和标签自适应策略分别计算聚类损失和标签损失,构建联合目标函数对潜在特征空间和聚类簇心进行动态优化更新,直至满足聚类完成条件。具体过程见下表。表1本发明的整体流程验证结果:在本发明的实验中,选择广泛使用的图像数据集mnist和usps来验证本发明的有效性,其中数据集的详细信息如表1所示。mnist数据集:由28*28像素大小的70000个手写数字组成。本发明将每个图像重构为784维向量。usps数据集:由16*16像素大小的9298个手写数字组成。本发明将每个图像重构为256维向量。表1数据集的基本信息dataset样本数量样本维度类别数量mnist7000078410usps929825610本发明的评价标准为聚类精度(accuracy,acc)和标准化互信息(normalizedmutualinformation,nmi)。为了验证本发明的性能,选择6个业界公认的典型聚类方法进行对比:传统的无监督聚类方法:k均值(k-means);深度的无监督聚类方法:深度嵌入式聚类(dec),深度聚类网络(dcn),保留局部结构的改进深度嵌入聚类(idec);传统的半监督聚类方法:自加权多核学习(smkl);深度的半监督聚类方法:半监督深度嵌入聚类(sdec)。本发明提出的方法在mnist和usps数据集上的acc性能比较结果如表2所示,nmi性能比较结果如表3所示。表2acc结果比较methodsmnistuspsk-means0.52980.6732dec0.8430.7408dcn0.8110.73idec0.88060.7605smkl0.7830.7667sdec0.86110.7639our0.96480.8609表3nmi结果比较methodsmnistuspsk-means0.49740.6146dec0.83720.7529dcn0.7570.719idec0.86720.7849smkl0.68420.7105sdec0.82890.7769our0.94570.8654从表2和表3中,可以观察到本发明提出的方法在mnist和usps数据集的两个评价指标上都优于对比基线方法,这证明了本发明的有效性。具体地,与k-means和smkl方法相比,本发明的优势在于可以通过堆叠自动编码机学习到图像更具有表示能力的特征。与dec,dcn以及idec方法相比,本发明的优势在于可以使用少数的标签数据提高聚类的性能。与sdec方法相比,本发明的优势在于可以通过标签自适应策略纠正聚类过程中的标签漂移问题,利用监督信息直接调整聚类簇心。当前第1页1 2 3 
技术特征:

1.一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的深度半监督图像聚类方法包括以下步骤:

步骤1、学习潜在特征空间;

采用堆叠自编码器网络构建高维数据的低维特征空间,学习原始图像数据的低维语义表示;利用降噪自编码机逐层初始化堆叠自编码器网络,设定x表示降噪自编码机的输入,t表示降噪自编码机的输出,具体的计算过程如下:

其中,dropout(·)是一个随机映射,随机地将输入层的一部分随机设置为0,是对输入x进行随机映射后的结果,h是降噪自编码机的中间输出结果,是对h进行随机映射后的结果,g1和g2分别代表编码器和解码器的激活函数,θ={w1,b1,w2,b2}是网络的参数;降噪自编码机通过最小化平方损失来完成训练;在训练完第一层之后,第一层的输出h作为下一层的输入,依据公式(1)、(2)、(3)、(4)训练网络第二层,以此类推,逐层初始化堆叠自编码器网络;为保证重构初始输入和最终的潜在空间能包含全部的信息,将第一组自编码器的g2和最后一组自编码器的g1设置为常数1,除此之外,所有自编码器的g1和g2都设置为relu激活函数;逐层训练后,将所有的编码器层和解码器层连接起来,使用随机梯度下降算法微调整个网络,最小化重构损失,最终得到一个多层的已初始化的深度自编码器网络;然后,使用编码器层作为初始数据空间和潜在特征空间之间的初始映射fθ:x→z,其中θ是学习到的参数,x是图像的初始数据空间,z是潜在特征空间;

步骤2、初始化聚类簇心;

给定n个图像样本的集合使用已初始化的深度自编码器网络,生成数据点xi在潜在特征空间z中的对应点zi=fθ(xi)∈z,利用k-means聚类方法在潜在特征空间中得到k个初始化的聚类簇心采用欧氏距离平方度量样本之间的相似度,将样本与其所属类的簇心之间的距离总和作为损失函数,k-means的过程即最小化损失函数(5):

其中,j=c(i)表示划分,其中i∈{1,2,...,n},j∈{1,2,...,k};由于上式的直接求解是np难的问题,因此只能采用启发式的迭代方法进行求解;首先随机选择k个类的簇心,将样本逐个指派到与其最近的簇心的类中,得到中间聚类结果;然后更新每个类的簇心的均值,作为类的新的簇心;重复以上步骤,直到划分不再改变,得到聚类结果,并将最终的聚类结果用作潜在特征空间中的初始聚类簇心;

步骤3、深度嵌入聚类;

给定初始非线性映射fθ和初始化的聚类簇心交替使用下述两个步骤来改善聚类性能;第一步,计算潜在特征空间中的数据点和聚类簇心之间的软分配;第二步,利用辅助目标分布从当前的高置信分配中学习聚类损失;

1)软分配

使用student’s-t分布来测量特征点zi和簇心μj之间的相似度,计算公式如下:

其中,zi=fθ(xi)∈z表示原始数据xi∈x在潜在特征空间中的对应点,qij为样本i被分配到类别j的概率;

2)kl分布最小化

使用辅助目标分布指导网络学习,从高置信度的分配中学习聚类损失,通过kl散度度量目标分布与网络输出分布间的代价;先将qi升至二次幂,然后按每个簇的频率进行归一化来计算得到辅助目标分布pi,计算公式如下所示:

其中,fj=∑iqij为类别j的软频率;

让软分配尽可能地匹配目标分布,将聚类损失定义为软分配qi和辅助目标分布pi之间的kl散度损失,定义如公式(8)所示;

如此,通过拟合软分配和目标分布,获得具有高置信度的聚类损失l1,使用聚类损失进一步更新深度映射fθ和优化聚类簇心

步骤4、标签自适应策略;

首先,构建样本标签列表a记录样本点是否具有真实标签,样本标签列表a中的元素ai定义如下:

其次,本发明所设计的标签自适应策略如下;

对于原始数据集中有标签数据中任意类别为i的子集为y=[i1,i2,...,in],初始聚类结果按下式计算得到:

其中,l1,r2,ln分别代表不同的标签;

在聚类结果中存在的误差,即未能将上述同一类别的样本全部归属到同一类中,为了更正这个误差,设计下面的学习策略:

1)统计q=[l1,r2,...,ln]中各类别的数目{ci|i=1,...,k},并认为其中的最大值c:=max{ci|i=1,...,k}为聚类结果的正确标签;

2)为了学习聚类过程中产生的标签误差,将真实标签y=[i1,i2,...,in]在此次聚类过程中动态标记为y'=[c1,c2,...,cn],即原始数据中类别为i的子集在聚类结果中的类别应全部体现为c;

3)计算标签损失-∑y'logq,即聚类结果中未正确判断类别的样本产生的误差;

4)重复步骤1)至步骤3),不断地动态改变q和y',迭代调整潜在特征空间和聚类簇心;

基于上述标签自适应策略和标签存在列表a,定义全部数据集的标签损失如下:

步骤5、优化联合目标函数;

将深度自编码网络、深入嵌入聚类以及标签自适应策略集成至半监督联合框架,并联合优化聚类损失和标签损失,设计整体半监督损失函数如下:

使用随机梯度下降sgd优化损失函数;更新半监督联合框架的参数:堆叠自动编码机的参数θ和聚类簇心{μj};

损失函数相对于潜在特征空间中数据表示点zi的梯度为:

损失函数相对于潜在特征空间中的聚类簇心{μj}的梯度为:

然后,将梯度向下传递到堆叠自动编码器网络,并使用随机梯度下降计算堆叠自动编码机中的参数梯度对参数θ进行更新;聚类簇心{μj}通过进行更新;当两次连续迭代之间的聚类分配变动小于tol%或达到最大训练次数时,聚类过程将终止。

2.根据权利要求1所述的一种基于标签自适应策略的深度半监督图像聚类方法,其特征在于,所述的迭代终止条件中的阈值tol%设为0.01。

技术总结
一种基于标签自适应策略的深度半监督图像聚类方法,属于图像聚类与数据挖掘技术领域,1)预训练编解码网络,初始化特征嵌入空间;2)通过K‑means方法在潜在特征空间初始化聚类簇心;3)计算聚类结果的软分配和目标分布,基于KL散度生成聚类损失;4)利用标签自适应策略动态生成临时监督标签,基于交叉熵生成标签损失;5)计算和优化联合目标函数,迭代更新直至满足收敛条件,完成聚类学习。本发明针对图像数据设计了一种深度半监督聚类方法,考虑在聚类过程中的标签漂移问题,并设计了一种标签自适应策略,以动态适应标签的漂移,同时整合聚类损失和标签损失,联合优化潜在特征空间和调整聚类簇心,能有效提高聚类方法的性能。

技术研发人员:陈志奎;李超杰;高静;李朋
受保护的技术使用者:大连理工大学
技术研发日:2020.02.10
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16422.html

最新回复(0)