本发明涉及遥感图像语义分割技术领域,尤其涉及一种基于下采样的特征融合遥感图像语义分割方法。
背景技术:
图像的语义分割是对输入图像进行逐像素的类别分类,实现目标和场景的像素级分割。近年来,深度学习的方法在遥感图像语义分割方面已经取得了不错的进展。mfpn(multi-featurepyramidnetwork)是一种用于遥感图像道路的多特征提取的金字塔网络,该网络给出了加权平衡损失函数,解决了道路稀疏导致的分类不平衡问题;fcn(fullyconvolutionalnetworks)以端到端、像素到像素的方法进行训练,这种框架的优势在于能够借助一个跳跃架构,利用经过训练的网络所产生的原始语义信息进行图像分割;segnet采用反池化的方法进行上采样,使得网络的参数远少于fcn;u-net具有对称的编解码网络结构,通过编码部分到解码部分的快捷连接,恢复位置信息;deeplabv1和deeplabv2使用空洞卷积提高感受野,在不增加参数数量的情况下,提高了训练准确率;refinenet使用远程残差连接的网络结构,能够有效的将下采样中缺失的信息融合进来,从而产生高分辨率的预测图像。在遥感图像语义分割方面,还有其他一些分割效果不错的网络,比如pspnet、deeplabv3plus。目前大部分的方法存在参数多、运算量大及分割效率低等问题,并且随着神经网络层数的增加,会出现“网络退化”现象。
技术实现要素:
针对现有技术存在参数多、运算量大及分割效率低等问题,本发明的目的在于提供一种基于下采样的特征融合遥感图像语义分割方法,能够提高遥感图像的分割精度,同时降低网络的复杂程度且节省训练耗时。
为实现上述目的,本发明提供了如下技术方案:一种基于下采样的特征融合遥感图像语义分割方法,包括以下步骤:
(1)将彩色遥感图像分成训练图像集和测试图像集两部分,将训练图像集中的遥感图像和其对应的标签图以相同的方式切割成256×256像素的小图像,即训练小图像和训练小标签图像;
(2)对训练小图像和训练小标签图像分别进行如下操作,且操作后的图像形成一个新的数据集:
a、将训练小图像和训练小标签图像分别旋转90度、180度和270度;
b、将训练小图像和训练小标签图像分别做镜像操作;
c、将训练小图像做模糊操作;
d、将训练小图像做亮度、对比度、饱和度的色彩调整;
e、将训练小图像做添加噪声操作;
(3)搭建语义分割模型:语义分割模型由下采样模块、高级语义特征提取模块、特征融合模块和分类器模块组成,分别搭建下采样模块、高级语义特征提取模块、特征融合模块和分类器模块;
(4)首先通过预训练对搭建好的语义分割模型的节点参数进行预先配置,然后训练小图像进入下采样模块进行高分辨率的低级语义特征提取得到低级语义特征图像,低级语义特征图像分成两条支路,一路进入高级语义特征提取模块进行特征提取得到高级语义特征图像,高级语义特征图像与另一路下采样模块直接提取的低级语义特征图像一起进入特征融合模块进行融合得到融合特征图像,分类器模块将融合特征图像和对应的训练标签小图像进行交叉熵运算,得到训练小图像每个像素的预测概率值,根据得到的预测概率值对融合特征图进行分类,最后通过随机梯度下降的方式来更新语义分割模型中的节点参数;
(5)将测试图像集中的遥感图像和其对应的标签图按照与步骤(1)相同的方式切割成256×256像素的小图像,即测试小图像和测试小标签图像,将测试小图像及对应的测试小标签图像输入到按照步骤(4)训练得到的语义分割模型中,测试模型分类的准确率。
作为上述方案的进一步改进,步骤(3)还包括以下子步骤:
(2.1)下采样模块由一个3×3的标准卷积和两个3×3的深度可分离卷积组成,标准卷积和两个深度可分离卷积的卷积步长都为2,输入下采样模块的训练小图像或者测试小图像大小为256×256×3,经过一个标准卷积后的输出特征图大小为128×128×32,经过第一个深度可分离卷积后的输出特征图大小为64×64×48,经过第二个深度可分离卷积后输出大小为32×32×64的低级语义特征图;
(2.2)高级语义特征提取模块由一个mobilenetv2、一个空间金字塔池化层、一个平均池化层以及两个4倍上采样组成,空间金字塔池化层由一个逐点卷积及空洞率为2,4,6的三个空洞卷积并行组成;mobilenetv2由三组瓶颈倒残差块组成;下采样模块输出的低级语义特征图输入到mobilenetv2,得到大小为8×8×128的特征图,然后,一路分别通过空间金字塔池化层和平均池化层分别得到大小为8×8×128的多尺度特征图及大小为8×8×128的全局特征图,二者处理后输出的特征图与另一路mobilenetv2直接输出的特征图分别通过4倍上采样恢复到大小为32×32×128后,进行融合,最后得到大小为32×32×128的高级语义特征图;
(2.3)特征融合模块由一个3×3深度卷积以及两个3×3标准卷积组成,它们的步长都为1,该模块通过一个标准卷积及一个深度卷积级联来处理从高级语义特征提取模块得到的高级语义特征图,得到32×32×128的输出特征图;另外,通过另一个标准卷积处理下采样模块输出的低级语义特征,得到32×32×128的输出特征图,然后,将两路特征图融合,得到大小为32×32×128的融合特征图;
(2.4)分类器模块由两个3×3的深度可分离卷积、一个3×3的标准卷积、一个大小为8×8,步长为8的转置卷积以及softmax函数级联组成,两个深度可分离卷积和标准卷积的卷积步长都为1,特征融合模块输出的融合特征图经过两个级联的深度可分离卷积,它们的输出特征图大小都为32×32×128,再经过标准卷积后的输出特征图大小为32×32×32,然后,利用转置卷积将特征图恢复成大小为256×256×3后,使用softmax函数对得到的特征图的像素点进行分类,得到最终分割结果。
与现有技术相比,本发明的优点是:
本发明提供了一种基于下采样的特征融合遥感图像语义分割方法,能够提高遥感图像的分割精度,同时降低网络的复杂程度且节省训练耗时。
下面结合说明书附图和具体实施例对本发明作进一步说明。
附图说明
图1为本发明的网络结构示意图;
图2为本发明的高级语义特征提取模块的示意图;
图3中(a)为本发明的训练集和测试集准确率的示意图;(b)为本发明的训练集和测试集损失率的示意图。
具体实施方式
本发明使用的数据集源于“ccf卫星影像的ai分类与识别竞赛(thefifthaiclassificationandrecognitioncompetition:challengeofaionsatelliteimaging.accessed:oct.10,2017.[online].available:http://www.datafountain.cn/competitions/270/details?tdsourcetag=spctimaiomsg.),图像不涉及大气光、云图和其他因素的干扰,无需进一步处理。该数据集为2015年中国南方某地区的高分辨率遥感图像,每个图像都有五个标签,分别是植被、水体、道路、建筑和其他类,其中,土地、林地和草地被定义为植被。数据集中共有6幅尺寸从4000×2000到8000×8000大小不一的高分辨率遥感图像。本发明使用其中4幅作为训练图像,2幅作为测试图像。
参见图1、图2、图3,本发明公开的一种基于下采样的特征融合遥感图像语义分割模型,包括以下步骤:
(1)将彩色遥感图像分成训练图像集和测试图像集两部分,将训练图像集中的遥感图像和其对应的标签图以相同的方式切割成256×256像素的小图像,即训练小图像和训练小标签图像;
(2)对训练小图像和训练小标签图像分别进行如下操作,且操作后的图像形成一个新的数据集:
a、将训练小图像和训练小标签图像分别旋转90度、180度和270度;
b、将训练小图像和训练小标签图像分别做镜像操作;
c、将训练小图像做模糊操作;
d、将训练小图像做亮度、对比度、饱和度的色彩调整;
e、将训练小图像做添加噪声操作;
(3)搭建语义分割模型:语义分割模型由下采样模块、高级语义特征提取模块、特征融合模块和分类器模块组成,分别搭建下采样模块、高级语义特征提取模块、特征融合模块和分类器模块;
(4)首先通过预训练对搭建好的语义分割模型的节点参数进行预先配置,然后训练小图像进入下采样模块进行高分辨率的低级语义特征提取得到低级语义特征图像,低级语义特征图像分成两条支路,一路进入高级语义特征提取模块进行特征提取得到高级语义特征图像,高级语义特征图像与另一路下采样模块直接提取的低级语义特征图像一起进入特征融合模块进行融合得到融合特征图像,分类器模块将融合特征图像和对应的训练标签小图像进行交叉熵运算,得到训练小图像每个像素的预测概率值,根据得到的预测概率值对融合特征图进行分类,最后通过随机梯度下降的方式来更新语义分割模型中的节点参数;
(5)将测试图像集中的遥感图像和其对应的标签图按照与步骤(1)相同的方式切割成256×256像素的小图像,即测试小图像和测试小标签图像,将测试小图像及对应的测试小标签图像输入到按照步骤(4)训练得到的语义分割模型中,测试模型分类的准确率。
本发明采用全局准确率、平均准确率和均交并比3个常用指标来定量评估图像分割的好坏。同时,为了验证本发明模型的训练效果,与四种经典语义分割模型(fcn-16s,u-net,segnet,fcn-8s)进行了对比。
作为上述方案的进一步改进,步骤(3)还包括以下子步骤:
(2.1)下采样模块由一个3×3的标准卷积和两个3×3的深度可分离卷积组成,标准卷积和两个深度可分离卷积的卷积步长都为2,输入下采样模块的训练小图像或者测试小图像大小为256×256×3,经过一个标准卷积后的输出特征图大小为128×128×32,经过第一个深度可分离卷积后的输出特征图大小为64×64×48,经过第二个深度可分离卷积后输出大小为32×32×64的低级语义特征图;
(2.2)高级语义特征提取模块由一个mobilenetv2、一个空间金字塔池化层、一个平均池化层以及两个4倍上采样组成,空间金字塔池化层由一个逐点卷积及空洞率为2,4,6的三个空洞卷积并行组成;mobilenetv2由三组瓶颈倒残差块组成;下采样模块输出的低级语义特征图输入到mobilenetv2,得到大小为8×8×128的特征图,然后,一路分别通过空间金字塔池化层和平均池化层分别得到大小为8×8×128的多尺度特征图及大小为8×8×128的全局特征图,二者处理后输出的特征图与另一路mobilenetv2直接输出的特征图分别通过4倍上采样恢复到大小为32×32×128后,进行融合,最后得到大小为32×32×128的高级语义特征图;
(2.3)特征融合模块由一个3×3深度卷积以及两个3×3标准卷积组成,它们的步长都为1,该模块通过一个标准卷积及一个深度卷积级联来处理从高级语义特征提取模块得到的高级语义特征图,得到32×32×128的输出特征图;另外,通过另一个标准卷积处理下采样模块输出的低级语义特征,得到32×32×128的输出特征图,然后,将两路特征图融合,得到大小为32×32×128的融合特征图;
(2.4)分类器模块由两个3×3的深度可分离卷积、一个3×3的标准卷积、一个大小为8×8,步长为8的转置卷积以及softmax函数级联组成,两个深度可分离卷积和标准卷积的卷积步长都为1,特征融合模块输出的融合特征图经过两个级联的深度可分离卷积,它们的输出特征图大小都为32×32×128,再经过标准卷积后的输出特征图大小为32×32×32,然后,利用转置卷积将特征图恢复成大小为256×256×3后,使用softmax函数对得到的特征图的像素点进行分类,得到最终分割结果。
作为上述方案的进一步改进,步骤(4)采用resnetv2_50网络对语义分割模型进行预训练。
作为上述方案的进一步改进,本发明采用一台cpu为英特尔corei7-9700处理器,显卡的配置为nvidiageforcegtx10606gb,内存总容量为16g的计算机,并用pytorch搭建算法框架。本发明模型的网络参数如表1所示。
表1模型网络参数表
作为上述方案的进一步改进,本发明采用多元学习率策略来动态调整学习率,避免梯度在训练过程中消失,模型的初始学习率设置为2×10-4,每迭代4000次学习率乘以0.1,共迭代105次,每次输入语义分割模型进行训练的的图像数量设置为16。
下面对本实施例进一步详细说明:
conv2d:标准卷积运算(convolution);
pwise:逐点卷积运算(pointwiseconvolution);
dwise:深度卷积运算(deepthwiseconvolution);
dsconv:深度可分离卷积运算(deepseparableconvolution);
artconv:空洞卷积运算(atrousconvolution),可以系统地聚合多尺度的上下文信息,而不丢失分辨率,使得卷积层在不降低空间维度的情况下能够增大卷积核的感受野,起到对网络分割效果的提升和改善;
aspp:空间金字塔池化层(atrousspatialpyramidpooling);
avgpooling:平均池化(averagepooling);
upsample:上采样过程,主要作用是把特征图恢复到原图大小;
bottleneck:瓶颈倒残差块(bottleneckinvertedresidualblock);
softmax:主要用于多分类问题中,将多分类输出数值转化为相对的概率;
transconv:转置卷积运算(transposedconvolution),卷积操作的逆过程,通常用在自编码器的解码部分,用于重构原始图像信息。
通过步骤(5)可以得到以下结论:
从图3(a)可以看出,本发明训练集的全局准确率能达到96%,测试集的全局准确率能达到95%;从图3(b)可以看出,训练集的损失率能降低到0.1%,测试集的损失能降低到1%。从表2可以看出,本发明提出的模型的全局准确率、平均准确率指标均优于其它四种语义分割算法,均交并比与fcn-16s相同,但优于其他三种语义分割算法。
表2不同模型在相同数据集下的测试结果
此外,本发明还测试了每种类别的全局准确率。从表3的数据中看出,每个类别得到的分类准确率相差不大,但在细小的道路和水体的分割上,本发明的模型能够达到94%和95%的准确率,远远高于其他四种模型的准确率。
表3不同类别的全局准确率
与现有技术相比,本发明的优点是:
本发明提供了一种基于下采样的特征融合遥感图像语义分割方法,能够提高遥感图像的分割精度,同时降低网络的复杂程度且节省训练耗时。
上述实施例对本发明的具体描述,只用于对本发明进行进一步说明,不能理解为对本发明保护范围的限定,本领域的技术工程师根据上述发明的内容对本发明做出一些非本质的改进和调整均落入本发明的保护范围之内。
1.一种基于下采样的特征融合遥感图像语义分割方法,其特征在于:包括以下步骤:
(1)将彩色遥感图像分成训练图像集和测试图像集两部分,将训练图像集中的遥感图像和其对应的标签图以相同的方式切割成256×256像素的小图像,即训练小图像和训练小标签图像;
(2)对训练小图像和训练小标签图像分别进行如下操作,且操作后的图像形成一个新的数据集:
a、将训练小图像和训练小标签图像分别旋转90度、180度和270度;
b、将训练小图像和训练小标签图像分别做镜像操作;
c、将训练小图像做模糊操作;
d、将训练小图像做亮度、对比度、饱和度的色彩调整;
e、将训练小图像做添加噪声操作;
(3)搭建语义分割模型:语义分割模型由下采样模块、高级语义特征提取模块、特征融合模块和分类器模块组成,分别搭建下采样模块、高级语义特征提取模块、特征融合模块和分类器模块;
(4)首先通过预训练对搭建好的语义分割模型的节点参数进行预先配置,然后训练小图像进入下采样模块进行高分辨率的低级语义特征提取得到低级语义特征图像,低级语义特征图像分成两条支路,一路进入高级语义特征提取模块进行特征提取得到高级语义特征图像,高级语义特征图像与另一路下采样模块直接提取的低级语义特征图像一起进入特征融合模块进行融合得到融合特征图像,分类器模块将融合特征图像和对应的训练标签小图像进行交叉熵运算,得到训练小图像每个像素的预测概率值,根据得到的预测概率值对融合特征图进行分类,最后通过随机梯度下降的方式来更新语义分割模型中的节点参数;
(5)将测试图像集中的遥感图像和其对应的标签图按照与步骤(1)相同的方式切割成256×256像素的小图像,即测试小图像和测试小标签图像,将测试小图像及对应的测试小标签图像输入到按照步骤(4)训练得到的语义分割模型中,测试模型分类的准确率。
2.根据权利要求1所述的一种基于下采样的特征融合遥感图像语义分割方法,其特征在于:步骤(3)还包括以下子步骤:
(2.1)下采样模块由一个3×3的标准卷积和两个3×3的深度可分离卷积组成,标准卷积和两个深度可分离卷积的卷积步长都为2,输入下采样模块的训练小图像或者测试小图像大小为256×256×3,经过一个标准卷积后的输出特征图大小为128×128×32,经过第一个深度可分离卷积后的输出特征图大小为64×64×48,经过第二个深度可分离卷积后输出大小为32×32×64的低级语义特征图;
(2.2)高级语义特征提取模块由一个mobilenetv2、一个空间金字塔池化层、一个平均池化层以及两个4倍上采样组成,空间金字塔池化层由一个逐点卷积及空洞率为2,4,6的三个空洞卷积并行组成;mobilenetv2由三组瓶颈倒残差块组成;下采样模块输出的低级语义特征图输入到mobilenetv2,得到大小为8×8×128的特征图,然后,一路分别通过空间金字塔池化层和平均池化层分别得到大小为8×8×128的多尺度特征图及大小为8×8×128的全局特征图,二者处理后输出的特征图与另一路mobilenetv2直接输出的特征图分别通过4倍上采样恢复到大小为32×32×128后,进行融合,最后得到大小为32×32×128的高级语义特征图;
(2.3)特征融合模块由一个3×3深度卷积以及两个3×3标准卷积组成,它们的步长都为1,该模块通过一个标准卷积及一个深度卷积级联来处理从高级语义特征提取模块得到的高级语义特征图,得到32×32×128的输出特征图;另外,通过另一个标准卷积处理下采样模块输出的低级语义特征,得到32×32×128的输出特征图,然后,将两路特征图融合,得到大小为32×32×128的融合特征图;
(2.4)分类器模块由两个3×3的深度可分离卷积、一个3×3的标准卷积、一个大小为8×8,步长为8的转置卷积以及softmax函数级联组成,两个深度可分离卷积和标准卷积的卷积步长都为1,特征融合模块输出的融合特征图经过两个级联的深度可分离卷积,它们的输出特征图大小都为32×32×128,再经过标准卷积后的输出特征图大小为32×32×32,然后,利用转置卷积将特征图恢复成大小为256×256×3后,使用softmax函数对得到的特征图的像素点进行分类,得到最终分割结果。
技术总结