一种基于单一像素标注的图像语义分割方法及系统与流程

专利2022-06-29  129


本发明涉及模式识别技术领域,特别是指一种基于单一像素标注的图像语义分割方法及系统。



背景技术:

在人工智能计算机视觉领域,图像语义分割是一个重要的研究领域,该任务旨在为图像提供像素级别的类别标注,实现图像理解过程。

近年来,针对驾驶场景的图像理解任务得到了国内外许多学者的关注和大量研究,并在全监督条件下,取得了越来越有意的性能。这些方法依赖大量的高精度的像素级手工标签,实现深度神经网络的训练过程。然而,这些方法往往依赖大量的数据标注,且模型的性能受到采集数据的局限性的影响,往往不具备足够高的泛化性能。在面向新的场景时,需要采集新的数据并进行标注,这也限制了这种方法在驾驶场景的应用。

另一方面,弱监督学习提供了一种轻量化的方法,在训练语义分割网络模型时,不需要提供大量的像素级别图像标注,因此在以自动驾驶为代表的众多领域中都有着广泛的应用前景。现有的弱监督标注方法主要包括了提供给图像中每个类别图像级、包围盒级标签等方式,这些标注形式为解决只包含少量类别物体的自然场景图像中的语义分割任务提供了可解条件。然而,在面向包含了大量类别的复杂驾驶场景时,已有的弱监督标注方式不仅不足够轻量化,还无法为每个类别的学习提供帮助。因此,提供一种面向复杂驾驶场景的、更轻量且合理的弱监督标注方式具有重要意义。

在弱监督条件和复杂的驾驶场景的约束下,算法的设计和训练难度都显著提升。这里,如何实现对每个类别的最适特征编码,以及如何利用驾驶场景下各类别目标位置先验信息和同物性特征实现可靠地像素级分割,是面向驾驶场景的弱监督语义分割任务亟待解决的难题。



技术实现要素:

本发明要解决的技术问题是提供一种基于单一像素标注的图像语义分割方法及系统,以解决面向复杂驾驶场景的弱监督标注及每个类别的特征编码问题,在弱监督条件和复杂的驾驶场景的约束下实现可靠地像素级别语义分割。

为解决上述技术问题,本发明提供如下技术方案:

一种基于单一像素标注的图像语义分割方法,所述方法包括:

步骤一、基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

步骤二、对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

步骤三、以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

步骤四、利用所述初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

步骤五、迭代地执行步骤三至步骤四,直至语义分割网络的语义分割性能收敛;保存最终一次训练得到的语义分割网络,用于对新的图像的语义分割。

进一步地,每个类别单一像素的标签的标注方式为:对于每个类别,从训练图像集中仅选取一张包含其的训练图像,并只标注一个属于该类别的像素。

进一步地,所述类别的属性包括物体和场景;其中,对类别进行编码时,对于物体类别通过语义特征来表示;对于场景类别通过表观特征来表示。

进一步地,所述语义特征采用先将待处理图像切分为预设数量的碎片,再对每个碎片基于预训练的类别激活映射网络模型进行特征提取,最后得到与待处理图像全图等大的预设维度的语义特征图,并将每一种物体表示为一个语义特征向量;所述表观特征采用将颜色特征和纹理特征分别编码为96维和32维的特征,并将每一种场景表示为若干组颜色特征和纹理特征。

进一步地,当类别的属性为物体时,类别的编码过程包括:

将待处理图像切分为15个相等大小的碎片,将每个碎片经过映射网络模型,编码成16×16×1000维的特征图,对于1000维的特征维度,将其归一化;对于图像中每个像素,计算该像素坐标与15个碎片中心坐标的距离,用与其最近的碎片中对应该像素的位置上的1000维特征作为该像素的语义热图响应;

利用超像素分割方法将待处理图像分为多个超像素,对于每个超像素,用其包含的所有像素的语义热图响应的平均值,作为该超像素的语义特征

对于被标注类别的像素,将其对应的1000维特征向量作为该类别的初始的类中心,记为计算的相似度;

将与相似度最大的前1%的超像素选取为集合ωg;

用e-m方法交替更新和ωg,直到稳定;

记录最终得到的作为该物体类别的编码特征。

进一步地,当类别的属性为场景时,类别的编码过程包括:

计算待处理图像的三通道颜色特征和局部二值化模式编码的纹理特征,并进行归一化;利用超像素分割的方法将待处理图像分为多个超像素;对于每个超像素,在每个特征通道中,将[0,1]划分为32个相等的区间,对其包含像素的值进行统计;由此,每个超像素将得到96维的颜色特征和32维的纹理特征;

计算待处理图像的边缘特征和显著性特征,计算两两超像素对的相似性;

记录两两超像素之间的边缘距离度量;

确定包含了标注类别像素的超像素,并计算图中其他超像素与该超像素的相似度,记录所有与之相似度大于0.5的超像素;

对于记录的超像素,计算两两超像素的颜色特征相似度和纹理特征相似度,记录二者的乘积,作为该超像素对的表观特征相似度;以0.5为阈值,将这些超像素分为g个组,每个组内超像素的平均特征作为该组的类中心;

通过e-m方法交替更新类中心和超像素的分组,直到稳定;

记录最终得到的g个类中心,作为该场景类别的编码特征组。

进一步地,所述计算训练图像每个超像素与各个类别的相似度,包括:

计算图像的语义特征和表观特征,并将图像划分为多个超像素区域,对于每一个超像素区域,生成每个超像素的语义特征和表观特征;

分别计算每个超像素与各类别的相似度;对于每个属于物体的类别,计算该超像素的语义特征与该类别语义特征的相似度;

对于每个属于场景的类别,计算该超像素的表观特征与该类别编码特征组中每一特征向量的相似度,将其中的最大值记录为该超像素与该类别的相似度。

进一步地,所述初始监督种子的生成过程,包括:

计算图像的边缘特征和显著性特征;其中,所述显著性特征包括全局显著性特征和两种划分模式的局部显著性特征,并使用边缘特征和三种显著性特征编码每一对超像素的上下文相似度量,从而形成图像上下文信息;

基于步骤二得到的超像素划分结果,对于每一个超像素区域,生成每个超像素的显著性特征和每一对超像素的边缘距离度量;

将图像中全部超像素对物体的相似度向量记为矩阵形式mobj,同时将图像中全部超像素对场景的相似度向量记为矩阵形式msce;

将驾驶场景图像从上到下划分为四个相等的区域,并规定每一个类别的出现位置范围;对于每一个超像素,根据其所在的区域被定义含有的物体和场景类别,只保留两个相似度向量中这些类别对应的特征维度;

记录两个相似度向量中的最大值和最大值对应的类别;其中,对于每个超像素对应的两个向量,若物体类别对应的最大值大于0.05,则将该超像素类别记录为物体类别;若物体类别对应的最大值不大于0.05且场景类别对应的最大值大于0.05,则将该超像素类别记录为场景类别;若不满足以上两种情况,则该超像素区域在训练时不被使用;

记录超像素类别,并将该超像素对应回原图,将属于该超像素位置的所有像素均置为与该超像素相同的类别,得到全图的标签信息,记为初始监督种子。

进一步地,步骤四中训练语义分割网络时,统计每个超像素区域内像素的语义分割结果,将属于每个类别的占比作为该超像素与各个类别的相似度;

步骤五的迭代过程中,利用步骤四得到的新的相似度代替之前的相似度,并交替迭代步骤三至步骤四,直至语义分割网络的语义分割性能收敛。

相应地,为解决上述技术问题,本发明还提供如下技术方案:

一种基于单一像素标注的图像语义分割系统,所述系统包括:

类别编码模块,所述类别编码模块用于基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

相似度计算模块,所述相似度计算模块用于对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

初始监督种子生成模块,所述初始监督种子生成模块用于以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

语义分割网络训练模块,所述语义分割网络训练模块用于利用所述初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

迭代模块,所述迭代模块用于迭代地执行所述初始监督种子生成模块和所述语义分割网络训练模块,直至语义分割网络的语义分割性能收敛;

语义分割网络保存模块,所述语义分割网络保存模块用于保存最终一次训练得到的语义分割网络,用于对新的图像的语义分割。

本发明的上述技术方案的有益效果如下:

本发明的基于单一像素标注的图像语义分割方法提供了一种轻量化的标注条件,对每一种类别仅标注一个像素点;通过交替实现基于图像上下文关系的区域类别相似度计算,和基于语义分割网络的大量实例同物性特征学习过程,迭代地优化图像语义分割性能,从而在每个类别只有单一像素标注的情况下,实现驾驶场景下图像中物体的高精度分割;为驾驶场景下的弱监督语义分割任务提供了一种可行策略,其在自动驾驶等场景下的应用具有广泛的前景。

附图说明

图1为本发明的基于单一像素标注的图像语义分割方法的流程示意图;

图2为本发明用于获取驾驶场景语义特征的一个样例图;

图3为本发明从每个类别的单一像素标注生成该类别的编码特征或特征组的流程示意图;

图4为本发明提取图像边缘特征、局部与全局显著性特征的一个样例图;

图5为驾驶场景的区域划分及每一个类别出现位置范围的示意图;

图6为本发明的基于单一像素标注的图像语义分割方法的分割性能随迭代次数的增长曲线示意图。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

第一实施例

请参阅图1至图6,本实施例提供一种基于单一像素标注的图像语义分割方法,该基于单一像素标注的图像语义分割方法包括以下步骤:

步骤一、基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

其中,类别标签的标注方式为:面向复杂驾驶场景,对每个类别进行单一像素的标注,从训练图像集中仅选取一张包含其的训练图像,并只标注一个属于该类别的像素,设置任务标注条件。

具体地,针对驾驶场景下的图像语义分割任务,如果图像中需要提供的类别标签包括c类,那么,对于包含了n张图像的训练集,本实施例选取其中部分图像,使得所有类别能够被选取图像中的至少一个样本所涵盖,接着对每个类别,在所选取的样本中对一个像素进行类别标注,即对于一个包含c个类别的图像语义分割任务,在包含n张图像的整个训练集中,本实施例只对每个类别选取一个属于该类别的像素进行标注,即在整个训练集中,只有属于k张图像(k≤c,k≤n)的c个像素点具有类别标注。

基于上述标注条件,将每个类别分为物体和场景两种属性,编码每个类别的最适特征表达。对于包含c种类别的驾驶场景,本实施例首先基于每个类别的特性,将车辆、行人等实例定义为物体,将路面、天空等非实例定义为场景,通过分析每个类别单一标注的像素的特征表达,利用不同的适合的特征分别编码两种属性,并建立起c个类别的特征表达。对物体类别通过语义特征来表示;对场景类别通过表观特征来表示。其中,语义特征采用先将待处理图像切分为预设数量的碎片,再对每个碎片基于预训练的类别激活映射网络模型进行特征提取,最后得到与待处理图像全图等大的预设维度的语义特征图,并将每一种物体表示为一个语义特征向量;表观特征采用将颜色和纹理特征分别编码为96维和32维的特征,并将每一种场景表示为若干组颜色和纹理特征。

具体地,本实施例所采用的编码流程如图3所示。首先,对于每一张包含了标注像素的图像,对于其包含的每一个被标注像素对应的类别属性进行判断,如果属于物体,则按照以下步骤来执行,计算表示该类别的编码特征:

s1,利用imagenet上预训练的类别激活映射网络(cam),采用多交叠碎片融合策略得到热图,编码该图像的语义特征,图2展示了一个示例。首先,本实施例将图像切分为15个相等大小的区域。对于长为l,宽为w的图像,每一个区域的长为l/2,宽为w/3。15个区域的左上角像素的纵向坐标为(0,l/4,l/2),横向坐标为(0,w/6,w/3,w/2,w*2/3)。本实施例将每个区域都经过cam,编码成16×16×1000维的特征图,对于1000维的特征维度,本实施例将其归一化。接着,对于图像中每个像素,计算该像素坐标与15个区域碎片中心坐标的距离,用与其最近的碎片中,对应该像素的位置上的1000维特征作为该像素的语义热图响应;

s2,利用超像素分割方法,将图像分为k个超像素。对于每个超像素spi,用其包含的所有像素的响应特征的平均值,作为该超像素的语义特征

s3,对于被标注的像素,将其对应的1000维特征向量作为该类别的初始中心,记为利用(公式1),将作为xi和xj,计算相似度;

s4,将与类中心相似度最大的前1%的超像素选取为集合ωg;

s5,通过(公式2),用e-m方法交替更新类中心的值和选取的集合ωg,直到稳定。

s6,记录最终得到的类中心作为该物体类别的编码特征。

如果属于场景,则按照以下步骤来执行,计算表示该类别的编码特征组:

s1,计算图像的三通道颜色特征和局部二值化模式(lbp)编码的纹理特征,并进行归一化。利用超像素分割的方法,将图像分为k个超像素。对于每个超像素spi,在每个特征通道中,本实施例将[0,1]划分为32个相等的区间,对其包含像素的值进行统计。由此,每个超像素将得到96维的颜色特征和32维的纹理特征;

s2,计算图像的边缘特征、显著性特征。特别的,在计算显著性特征时,一方面,本实施例将原图直接作为对象提取显著性特征,另一方面,本实施例分别采用两种不同模式,将图像切分为多个碎片,并对每个碎片提取显著性特征,并将碎片的特征图对应拼接为完整图,如图4示例所示。在第一种模式中,本实施例将图像分为5个区域:上1/4区域,下1/4区域和从左到右进行三等分的余下中间区域。在第二种模式中,本实施例将图像的长方向分为两等分,宽防线分为四等分,得到8个等大小的碎片区域。进一步的,本实施例利用(公式1)计算两两超像素对spi和spj的相似性,对全局显著性记录为simg(i,j),对局部显著性记录为

s3,本实施例记录了两两超像素之间的边缘距离度量,定义为:以边缘特征图上属于两个超像素中心点连线像素的值的和的相反数的3.5倍为指数,以e为底数的值,记为e(i,j)。这里需要说明的是,在边缘特征图上,像素值越大代表边缘越显著,因此,在本实施例的定义中,两个超像素的边缘距离度量越大,代表两个超像素直接的边缘越不显著。

s4,将包含了标注像素的超像素记为spanno,并利用(公式3)计算图中其他超像素与该超像素的相似度,并记录所有与之相似度大于0.5的超像素。

s5,对于记录的超像素,利用(公式1),计算两两超像素的颜色特征相似度和纹理特征相似度,记录二者的乘积,作为该超像素对的表观特征相似度。以0.5为阈值,将这些超像素分为g个组,每个组内超像素的平均特征作为该组的初始类中心

s6,利用(公式2),通过e-m方法交替更新类中心的值和超像素的分组,直到稳定。

s7,记录最终得到的g个类中心作为该场景类别的编码特征组。

步骤二、对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

具体地,对于训练集中的每一张图像,本实施例都采取如下步骤:

s1,计算图像的语义特征和表观特征,并将图像划分为多个超像素区域,对于每一个超像素区域,本实施例采用和步骤一中相同的方法,生成每个超像素的语义特征和表观特征;

s2,分别计算每个超像素spi与属于物体和场景类别的相似度。对于每个属于物体的类别,利用(公式1),计算该超像素的语义特征与每个类别语义特征的相似度,将其与所有物体类别的相似度记为向量

s3,对于每个属于场景的类别,利用(公式1),计算该超像素的表观特征与该类别特征组中每一特征向量的相似度,将其中的最大值记录为超像素与该类别的相似度,最终将超像素与所有场景类别的相似度记为向量

步骤三、以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

具体地,对于训练集中的每一张图像,本实施例都采取如下步骤:

s1,计算图像的边缘特征、显著性特征。这里,计算边缘、显著性特征的方式和步骤一中完全相同。

s2,基于步骤二的超像素划分结果,对于每一个超像素区域,采用步骤一中相同的方法,生成每个超像素的显著性特征和每一对超像素的边缘距离度量;

s3,将图像中全部k个超像素对物体的相似度向量记为矩阵形式mobj,矩阵的每一列代表一个超像素对每一物体类别的相似度,每一行表示对所有超像素对一种物体类别的相似度。对于场景相似度,采用相同的方式处理,得到矩阵msce。通过(公式3)计算得到两两超像素间的上下文相似矩阵。

s4,利用(公式4),更新矩阵mobj和msce,得到矩阵

s5,对于每一个超像素spi,本实施例记录其更新后的物体相似度向量和场景相似度向量;

s6,在驾驶场景中,每一个类别都有其集中出现的区域,对于一张图像,本实施例将其从上到下划分为四个相等的区域,并规定了每一个类别的出现位置范围,如示意图5所示。对于每一个超像素,本实施例根据其所在区域被定义含有的物体和场景类别,只保留两个相似度向量中这些类别对应的特征维度。

s7,对于两个处理后的向量,本实施例都记录其中的最大值和最大值对应的物体(或场景)类别,定义该超像素的物体类别为clsobj(spi),场景类别为clssce(spi)。这里,对于每个超像素对应的两个向量,若物体类别对应的最大值大于0.05,则将该超像素类别记录为物体类别;若物体类别对应的最大值不大于0.05且场景类别对应的最大值大于0.05,则将该超像素类别记录为场景类别;若不满足以上两种情况,则该超像素区域在训练时不被使用;也即如果物体(或场景)类别对应的最大值小于0.05,本实施例将物体(或场景)类别记录为255,即在训练时不被使用。

s8,本实施例用(公式5)记录该超像素的最终类别。进一步的,将超像素对应回其在图像中的位置,将属于该超像素位置的所有像素都置为与该超像素相同的类别标签,得到对全图的标签信息,记为初始监督种子,用于语义分割网络的训练。

步骤四、利用初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

其中,在训练语义分割网络时,利用所有训练图像和每张图像对应生成的标签,以全监督学习下的语义分割方法采用一致的方式,实现这一过程。

具体训练过程如下:

给定n张训练图像ii,及由步骤三得到的n张对应生成的标签gi,训练以θ为参数的分割网络f(θ,i),网络的输出代表了像素pix的标签y属于类别c的概率,即fpix(θ,i)=ppix(y=c|i)。训练时采用的损失函数为交叉熵函数。

步骤五、迭代执行步骤三至步骤四,直至语义分割网络的分割性能收敛;

其中,步骤五的迭代过程中,利用步骤四得到的新的相似度代替之前的相似度,并交替迭代步骤三至步骤四,直至语义分割网络的语义分割性能收敛。

采用的具体方法为:对于每个超像素区域,统计超像素内像素的语义分割结果,将属于每个类别的占比作为该超像素与各个类别的相似度。需要说明的是,通过步骤三的上下文信息修正和步骤四的语义分割网络同物性学习过程,提供的类别相似度精度要明显高于步骤二提供的初始类别相似度。

重复交替执行步骤三和步骤四两个步骤,充分融合基于图像上下文和图间不同实例的同物性信息,就可以得到越来越准确的语义分割结果。图6给出了本实施例在cityscapes语义分割数据集上,随着迭代次数的增加,分割网络性能的增长曲线。

步骤六、保存最终一次训练得到的分割网络,用于对新图像的语义分割。

需要说明的是,在经过步骤一至步骤五的训练过程后,在实际应用中,只需要采用步骤五最后得到的语义分割网络进行新图像的语义分割推理,因此在实际应用时算法具备较高的效率。

本实施例的基于单一像素标注的图像语义分割方法提供了一种轻量化的标注条件,对每一种类别仅标注一个像素点;通过交替实现基于图像上下文关系的区域类别相似度计算,和基于语义分割网络的大量实例同物性特征学习过程,迭代地优化图像语义分割性能,从而在每个类别只有单一像素标注的情况下,实现驾驶场景下图像中物体的高精度分割;为驾驶场景下的弱监督语义分割任务提供了一种可行策略,其在自动驾驶等场景下的应用具有广泛的前景。

第二实施例

本实施例提供一种基于单一像素标注的图像语义分割系统,该系统包括:

类别编码模块,所述类别编码模块用于基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

相似度计算模块,所述相似度计算模块用于对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

初始监督种子生成模块,所述初始监督种子生成模块用于以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

语义分割网络训练模块,所述语义分割网络训练模块用于利用所述初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

迭代模块,所述迭代模块用于迭代地执行所述初始监督种子生成模块和所述语义分割网络训练模块,直至语义分割网络的语义分割性能收敛;

语义分割网络保存模块,所述语义分割网络保存模块用于保存最终一次训练得到的语义分割网络,用于对新的图像的语义分割。

本实施例的基于单一像素标注的图像语义分割系统与上述第一实施例的基于单一像素标注的图像语义分割方法相对应;其中,本实施例的基于单一像素标注的图像语义分割系统中的各功能模块所实现的功能与上述基于单一像素标注的图像语义分割方法中的各流程步骤一一对应;故,在此不再赘述。

此外,需要说明的是,本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

最后需说明的是,以上所述是本发明优选实施方式,应当指出,尽管已描述了本发明优选实施例,但对于本技术领域的技术人员来说,一旦得知了本发明的基本创造性概念,在不脱离本发明所述原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。


技术特征:

1.一种基于单一像素标注的图像语义分割方法,其特征在于,包括:

步骤一、基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

步骤二、对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

步骤三、以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

步骤四、利用所述初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

步骤五、迭代地执行步骤三至步骤四,直至语义分割网络的语义分割性能收敛;保存最终一次训练得到的语义分割网络,用于对新的图像的语义分割。

2.如权利要求1所述的基于单一像素标注的图像语义分割方法,其特征在于,每个类别单一像素的标签的标注方式为:对于每个类别,从训练图像集中仅选取一张包含其的训练图像,并只标注一个属于该类别的像素。

3.如权利要求1所述的基于单一像素标注的图像语义分割方法,其特征在于,所述类别的属性包括物体和场景;其中,对类别进行编码时,对于物体类别通过语义特征来表示;对于场景类别通过表观特征来表示。

4.如权利要求1所述的基于单一像素标注的图像语义分割方法,其特征在于,所述语义特征采用先将待处理图像切分为预设数量的碎片,再对每个碎片基于预训练的类别激活映射网络模型进行特征提取,最后得到与待处理图像全图等大的预设维度的语义特征图,并将每一种物体表示为一个语义特征向量;

所述表观特征采用将颜色特征和纹理特征分别编码为96维和32维的特征,并将每一种场景表示为若干组颜色特征和纹理特征。

5.如权利要求4所述的基于单一像素标注的图像语义分割方法,其特征在于,当类别的属性为物体时,类别的编码过程包括:

将待处理图像切分为15个相等大小的碎片,将每个碎片经过映射网络模型,编码成16×16×1000维的特征图,对于1000维的特征维度,将其归一化;对于图像中每个像素,计算该像素坐标与15个碎片中心坐标的距离,用与其最近的碎片中对应该像素的位置上的1000维特征作为该像素的语义热图响应;

利用超像素分割方法将待处理图像分为多个超像素,对于每个超像素,用其包含的所有像素的语义热图响应的平均值,作为该超像素的语义特征

对于被标注类别的像素,将其对应的1000维特征向量作为该类别的初始的类中心,记为计算的相似度;

将与相似度最大的前1%的超像素选取为集合ωg;

用e-m方法交替更新和ωg,直到稳定;

记录最终得到的作为该物体类别的编码特征。

6.如权利要求4所述的基于单一像素标注的图像语义分割方法,其特征在于,当类别的属性为场景时,类别的编码过程包括:

计算待处理图像的三通道颜色特征和局部二值化模式编码的纹理特征,并进行归一化;利用超像素分割的方法将待处理图像分为多个超像素;对于每个超像素,在每个特征通道中,将[0,1]划分为32个相等的区间,对其包含像素的值进行统计;由此,每个超像素将得到96维的颜色特征和32维的纹理特征;

计算待处理图像的边缘特征和显著性特征,计算两两超像素对的相似性;

记录两两超像素之间的边缘距离度量;

确定包含了标注类别像素的超像素,并计算图中其他超像素与该超像素的相似度,记录所有与之相似度大于0.5的超像素;

对于记录的超像素,计算两两超像素的颜色特征相似度和纹理特征相似度,记录二者的乘积,作为该超像素对的表观特征相似度;以0.5为阈值,将这些超像素分为g个组,每个组内超像素的平均特征作为该组的类中心;

通过e-m方法交替更新类中心和超像素的分组,直到稳定;

记录最终得到的g个类中心,作为该场景类别的编码特征组。

7.如权利要求1所述的基于单一像素标注的图像语义分割方法,其特征在于,所述计算训练图像每个超像素与各个类别的相似度,包括:

计算图像的语义特征和表观特征,并将图像划分为多个超像素区域,对于每一个超像素区域,生成每个超像素的语义特征和表观特征;

分别计算每个超像素与各类别的相似度;对于每个属于物体的类别,计算该超像素的语义特征与该类别语义特征的相似度;

对于每个属于场景的类别,计算该超像素的表观特征与该类别编码特征组中每一特征向量的相似度,将其中的最大值记录为该超像素与该类别的相似度。

8.如权利要求6所述的基于单一像素标注的图像语义分割方法,其特征在于,所述初始监督种子的生成过程,包括:

计算图像的边缘特征和显著性特征;其中,所述显著性特征包括全局显著性特征和两种划分模式的局部显著性特征,并使用边缘特征和三种显著性特征编码每一对超像素的上下文相似度量,从而形成图像上下文信息;

基于步骤二得到的超像素划分结果,对于每一个超像素区域,生成每个超像素的显著性特征和每一对超像素的边缘距离度量;

将图像中全部超像素对物体的相似度向量记为矩阵形式mobj,同时将图像中全部超像素对场景的相似度向量记为矩阵形式msce;

将驾驶场景图像从上到下划分为四个相等的区域,并规定每一个类别的出现位置范围;对于每一个超像素,根据其所在的区域被定义含有的物体和场景类别,只保留两个相似度向量中这些类别对应的特征维度;

记录两个相似度向量中的最大值和最大值对应的类别;其中,对于每个超像素对应的两个向量,若物体类别对应的最大值大于0.05,则将该超像素类别记录为物体类别;若物体类别对应的最大值不大于0.05且场景类别对应的最大值大于0.05,则将该超像素类别记录为场景类别;若不满足以上两种情况,则该超像素区域在训练时不被使用;

记录超像素类别,并将该超像素对应回原图,将属于该超像素位置的所有像素均置为与该超像素相同的类别,得到全图的标签信息,记为初始监督种子。

9.如权利要求1所述的基于单一像素标注的图像语义分割方法,其特征在于,步骤四中训练语义分割网络时,统计每个超像素区域内像素的语义分割结果,将属于每个类别的占比作为该超像素与各个类别的相似度;

步骤五的迭代过程中,利用步骤四得到的新的相似度代替之前的相似度,并交替迭代步骤三至步骤四,直至语义分割网络的语义分割性能收敛。

10.一种基于单一像素标注的图像语义分割系统,其特征在于,包括:

类别编码模块,所述类别编码模块用于基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别,建立每个类别的特征表达;

相似度计算模块,所述相似度计算模块用于对训练图像进行超像素划分,并基于每个类别的特征表达,计算训练图像每个超像素与各个类别的相似度;

初始监督种子生成模块,所述初始监督种子生成模块用于以每个超像素与各个类别的相似度作为初始条件,利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;

语义分割网络训练模块,所述语义分割网络训练模块用于利用所述初始监督种子,训练语义分割网络,学习不同实例的同物性特征,提供图像语义分割结果,用于更新每个超像素与各个类别的相似度;

迭代模块,所述迭代模块用于迭代地执行所述初始监督种子生成模块和所述语义分割网络训练模块,直至语义分割网络的语义分割性能收敛;

语义分割网络保存模块,所述语义分割网络保存模块用于保存最终一次训练得到的语义分割网络,用于对新的图像的语义分割。

技术总结
本发明提供一种基于单一像素标注的图像语义分割方法及系统,该方法包括:基于每个类别单一像素的标签,利用表观特征和语义特征,分别编码每个类别;基于每个类别的特征表达,计算训练图像每个超像素与各类别的相似度;利用图像上下文信息和驾驶场景位置先验,更新相似度计算结果,生成初始监督种子;利用初始监督种子,训练语义分割网络,学习不同实例的同物性特征,更新每个超像素与各类别的相似度;迭代地执行初始监督种子生成和相似度更新过程,直至收敛;保存收敛后的语义分割网络。本发明为驾驶场景下的弱监督语义分割任务提供了一种可行策略,在自动驾驶等场景下具有广泛应用前景。

技术研发人员:马惠敏;李熹;储华珍;陈衍先;易生
受保护的技术使用者:北京科技大学;清华大学
技术研发日:2020.01.09
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16818.html

最新回复(0)