技术领域:
本发明属于图像显著性物体检测领域,涉及一种rgb-d图像中的显著性物体检测方法,具体为基于图像语义和细节的rgb-d显著性物体检测方法。
背景技术:
:
以前基于的显著性目标检测方法rgb-d可以分为三类,早期融合(或输入融合),后期融合(或结果融合)和中间融合(或特征融合)。
在早期融合方案中,通常将rgb特征和深度特征直接结合在一起,然后经过一系列处理最终获得显著性图的过程。论文“rgb-dsalientobjectdetection:abenchmarkandalgorithms”将rgb-d图像用作输入并融合从低级对比,中级区域分组和高级先验。为了解决由高对比度产生的误报结果问题,论文“localbackgroundenclosureforrgb-dsalientobjectdetection”使用本地背景外壳检测明显的物体。论文“depth-awaresalientobjectdetectionandsegmentationviamultiscalediscriminativesaliencyfusionandbootstraplearning”采用不同的方法级别功能并训练随机森林回归器进行融合判别显著性图。论文“rgbdsalientobjectdetectionviadeepfusion”尝试使用rgb-d图像中的传统手工特征作为输入,然后将这些特征利用cnn网络和拉普拉斯传播算法生成显著性图。
在后期融合中,rgb特征和深度特征首先经过不同的流程,然后将处理后的特征融合在一起联合最终显著性预测。论文“depthenhancedsaliencydetectionmethod”提出深度增强显著性检测方法通过考虑颜色和深度以使其更扩展到复杂的背景。论文“stereoconfidencemetricsusingthecostsofsurroundingpixels”提出了一种结合区域显著性检测方法深度对比,深度加权颜色对比区域并提取四个特征,包括颜色,亮度,离散余弦变换系数的纹理和深度用于特征对比计算和最终融合。
第三类通常基于cnn方法。通常,对rgb特征和深度特征进行预处理单独获得中间特征,然后融合,并为最终显著性图进行进一步的处理。论文“progressivelycomplementarity-awarefusionnetworkforrgb-dsalientobjectdetection”提出互补性意识,通过逐步合并和融合实现融合网络补充跨模型和跨级别功能深层次的监督。论文“cnns-basedrgb-dsaliencydetectionviacross-viewtransferandmultiviewfusion”首先使用rgbcnn显著性网络参数通过附加的隐藏结构监视来训练深度输入数据进行跨视图传输。然后,他们提出了具有新的全连接的多视图融合方法图层融合rgb和深度功能。不同于传统的两流方法,论文“three-streamattention-awarenetworkforrgb-dsalientobjectdetection”通过介绍一个三流架构自下而上的流来连接和融合rgb功能和深度功能。他们还介绍了交叉模型基于注意机制的级别块以减少融合不确定的最佳性能。论文“contrastpriorandfluidpyramidintegrationforrgbdsalientobjectdetection”首先通过对比设计基于cnn的网络在增强深度图像之前。为了更好的兼容性rgb特征和深度特征,流体金字塔集成引入了体系结构以融合这些层次结构特征。
关于rgb特征和深度特征融合,包括早期特征拼接的融合,中期特征补充的监督以及后期特征相匹配的融合研究都取得了相应的进展,然而由于早期rgb的丰富特征在早期融合的过程中会掩盖疏的深度特征,使得在早期特征融合的过程深度信息的权重占比相当特征小甚至在特征网络加深的情况下,其对结构的影响越来越小,而在后期的特征融合过程中,由于直接在末端进行特征融合,缺乏了特征网络中间时刻的特征监督,而在中间特征融合方案中缺乏有效的注意力机制进行引导,使得在网络的末端造成的特征混乱严重影响着显著性特征的效果表达。
技术实现要素:
:
为了解决现有图像处理显著性特征的效果表达不佳的问题,本发明提出如下技术方案:一种基于图像语义和细节的rgb-d显著性物体检测器,包括特征融合互补网络,特征融合互补网络的架构主要由rgb特征流提取器、深度特征流提取器、高级语义融合模块、轮廓细节融合模块组成。
进一步的,rgb特征流提取器:由训练集rgb图像得到不同尺度的具有丰富语义特征的矩阵f1i,f2i,f3i,f4i。
进一步的,深度特征流提取器:由深度图像训练集得到不同尺度的具有物体轮廓细节的矩阵f1d,f2d,f3d,f4d。
进一步的,高级语义融合模块:将rgb特征提取器获取的语义特征f4i和深度特征流提取器获得的轮廓特征f4d分别进行1×1卷积、relu激活,然后进行矩阵相加,然后进行relu激活,得到特征融合矩阵v;将特征融合矩阵v进行两个1×1卷积得到融合矩阵n;对融合矩阵n进行3×3卷积得到混合增强矩阵m;对混合增强矩阵m进行3×3卷积得到混合增强矩阵h,将特征矩阵n,m,h进行concat特征堆叠操作,将堆叠后的多维特征矩阵进行1×1卷积,得到高级语义融合模块的最终输出特征o1。
进一步的,轮廓细节融合模块:将高级语义融合模块的最终输出特征o1进行上采样;将f4i,f4d分别进行上采样、1×1卷积、relu激活,矩阵对应相加,relu激活运算得到混合矩阵f4;将f3i,f3d分别进行1×1卷积、relu激活,矩阵对应相加,relu激活运算得到混合矩阵f3;将f4进行1×1卷积运算后和上采样后的特征o1,进行矩阵对应相加,1×1卷积运算得到混合矩阵o;将f3进行1×1卷积并和混合矩阵o进行矩阵对应相加,得到轮廓细节融合模块的最终输出特征o2。
进一步的,循环卷积增强模块:将轮廓细节融合模块的最终输出特征o2进行上采样、3×3卷积得到特征o3,特征o3再经过上采样,3×3卷积得到特征o4,然后将特征o1,o2,o3,o4分别进行3×3卷积,特征o1的卷积结果和f4i、特征o2的卷积结果和f3i、特征o3的卷积结果和f2i、特征o4的卷积结果和f1i共同作为循环卷积块的输入,循环卷积块的输出进行concat特征堆叠操作,将堆叠后的多维矩阵进行1×1卷积,最终得到特征融合互补网络的输出s。
进一步的,rgb特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,训练集rgb图像经过主干网络后,得到不同尺度的具有丰富语义特征的矩阵f1i,f2i,f3i,f4i。
进一步的,深度特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,主干网络的第一个卷积层通道数为1,深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵f1d,f2d,f3d,f4d。
有益效果:本发明提出了一种简单有效的rgb-d显著性目标检测方法。为了有效利用rgb-d图像中包含的高级语义和轮廓细节,本发明主要采用语义和细节互补融合机制来促进rgb特征和深度特征的有效融合。与以前的方法相比,本发明使用sfm通过非线性加权求和来捕获rgb特征和深度特征的高级相互依存的语义关系。同时,为了最小化特征融合时的噪声,本发明还使用dfm集成了多维轮廓细节特征,以补充sfm提取的特征并增强了细节表达能力。
附图说明
图1是基于rgb-d图像的显著性检测网络结构。
图2是语义融合模型。
图3是细节融合模型。
图4是语义和细节效果对比图。
图5是不同方法对于图像处理的效果图。
具体实施方式
本发明通过充分利用跨模型和多级功能,目标是从rgb和深度图像中学习有效的模型,以生成像素级显著性图。图1显示了本发明的主要架构,该架构具有编码器/解码器结构。给定rgb图像i和深度图像d,本发明使用两个编码器流rgb流和深度流来提取多尺度卷积特征。本发明将vgg-16用作编码器的主干,因为它的效率高,并且在图像分类任务中有很好的结果。原始的vgg-16具有五个卷积块和三个完全连接的层。为了提高计算效率,本发明仅使用第一至第四卷积块。提取的特征然后将显著性图分别馈入sfm和dfm。由于深度数据擅长捕获空间结构和3d布局,因此3d布局经常出现在神经网络的后面。因此,本发明仅在后面阶段使用最后两个卷积块中的特征。具体地,从多尺度特征中计算出四个融合特征图
语义融合模块:依靠图像本身的先验知识无法清晰地提取显著性特征,复杂场景中的高层语义关系可以帮助我们获得更多的丰富的显著性特征。图像的深度特征描述了显著性物体和相机镜头之间的距离关系,这也是高层的关系。rgb图像的高级关系涉及前景和背景,全局和局部,低层和高层之间的关系。为了提取更丰富的rgb和更深层的语义特征,我们设计一个语义融合模块(sfm)。
图2所示为了获取更多丰富的rgb和深度语义特征,本发明设计的sfm模块,如图2所示,首先本发明用小型感受野从
n=(conv1×1@512(conv1×1@512(v)))
获得了非线性表示v和n,这里conv1×1@512表示一个卷积其拥有512个1×1大小的卷积核,
细节融合模型:主干网络的不同阶段,rgb图像和深度图像能够提供不同的描述显著性物体的细节,来自语义融合模型的高级别关系特征并不能很好的刻画显著性物体的详细轮廓,为此,如图3所示,本发明设计了细节融合模型,进而突出显著性物体细节,又进一步的对高级语义信息进行补充,首先,本发明使用多个1×1卷积增强不同阶段产生的特征矩阵,通过公式
可以得到融合增强特征矩阵o,这里up表示上采样运算,然后本发明使用1×1卷积对多维度特征进行降维,最后,本发明将f3和o,通过公式
在一种方案中,本发明具体为基于图像语义和细节的rgb-d显著性物体检测器。构建特征融合互补网络,融合模型中包含语义融合和细节融合两个机制,通过高级语义和轮廓细节两模型的可持续动态互补交叉指导得到所述高效的显著性物体检测器。其实现了利用rgb-d图像的高级语义和显著性物体的轮廓细节进行显著性物体检测,显著提高了rgb-d图像中显著性物体的检测精度。具体的说,本发明构建了一种基于图像语义和细节的rgb-d显著性物体检测器,其是一特征融合互补网络,特征融合互补网络结构分为rgb特征流提取器、深度特征流提取器、高级语义融合、轮廓细节融合和循环卷积增强五个模块。
其中rgb特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,训练集rgb图像经过主干网络后,得到不同尺度的具有丰富语义特征的矩阵f1i,f2i,f3i,f4i。深度特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,并对vgg-16网络的第一个卷积层通道数进行修改,由原来的3修改为1,深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵f1d,f2d,f3d,f4d。
高级语义融合模块首先将rgb特征提取器获取的语义特征f4i和深度特征流提取器获得的轮廓特征f4d分别通过分别通过一个1×1卷积和relu激活函数,然后进行矩阵相加和relu激活运算得到特征融合矩阵v,然后将特征融合矩阵v分别经过两个1×1卷积得到融合矩阵n,然后对融合矩阵n进行一个3×3卷积运算得到混合增强矩阵m,然后对混合增强矩阵m,再次经过一个3×3卷积运算得到混合增强矩阵h,最后将你不同阶段获得的特征矩阵n,m,h进行concat特征堆叠操作,将堆叠后的多维特征矩阵经过一个1×1卷积,从而得到高级语义融合模块的最终输出o1。
轮廓细节融合模块将高级语义融合模块的最终输出o1先进行上采样,使得特征矩阵的通道数由512变为256,然后f4i,f4d分别进行上采样、1×1卷积、relu激活,矩阵对应相加,relu激活运算得到混合矩阵f4,f3i,f3d分别进行1×1卷积、relu激活,矩阵对应相加,relu激活运算得到混合矩阵f3,然后将f4进行1×1卷积运算后和上采样后的o1,进行矩阵对应相加,1×1卷积运算得到混合矩阵o、最后将f3进行1×1卷积并和混合矩阵o进行矩阵对应相加,得到轮廓细节融合模块的最终输出o2.
循环卷积增强模块首先将轮廓细节融合模块的最终输出o2进行上采样,3×3卷积得到特征o3,再次经过上采样,3×3卷积得到特征o4,然后将o1,o2,o3,o4分别经过一个3×3卷积,其结果将分别和f4i,f3i,f2i,f1i一起作为循环卷积块的输入,循环卷积(rcl)块的输出进行concat特征堆叠操作,将堆叠后的多维矩阵最后经过一个1×1卷积进行降维,最终得到特征融合互补网络的输出s.
在一种方案中,特征融合互补网络采用已训练好的vgg-16网络前1-4卷积块,在提取深度流时修改其通道数为1。
在一种方案中,特征融合互补网络batch大小取值为2;学习率设置为0.00001-0.0000001。
为了验证我们提出的方法是高效的,我们将在当前七个比较流行的数据集上进行测试,分别包nlpr,stere,nju2000,lfsd,des,ssd和sip。如表格所示,sfm和dfm的性能优于当前先进的方法的实验结果,在接下来的小部分中,我们介绍我们实验的评价指标和一些实现细节,然后我们进行了一系列的消融测试,最后我们的实验效果图将在七种不同的数据集上进行测试。
表1是不同方法在多个数据集:stere,nju2000,lfsd,des,ssd,sip,nlpr上的性能比较。↑和↓分别表示越大越小越好。黑色加粗表示佳效果
图5示出了不同方法对于图像处理的效果图,图4示出了语义和细节效果对比图,可以发现,本发明的检测器通过设计基于高级语义的融合模型(sfm)和基于轮廓细节的融合模型(dfm),两个融合模型的相互互补进一步的促进了网络提取显著性特征的能力,相比当前现有的方法,不仅仅有效促进了深度特征对显著性特征的影响,而且,高级语义信息被轮廓细节特征进行补充,同时显著性物体的特征也在自上而下的特征融中凸显越来越明显。
以上所述,仅为本发明创造较佳的具体实施方式,但本发明创造的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明创造披露的技术范围内,根据本发明创造的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明创造的保护范围之内。
1.一种基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,包括特征融合互补网络,特征融合互补网络的架构主要由rgb特征流提取器、深度特征流提取器、高级语义融合模块、轮廓细节融合模块组成。
2.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,rgb特征流提取器:由训练集rgb图像得到不同尺度的具有丰富语义特征的矩阵f1i,
3.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,深度特征流提取器:由深度图像训练集得到不同尺度的具有物体轮廓细节的矩阵f1d,
4.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,高级语义融合模块:将rgb特征提取器获取的语义特征
5.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,轮廓细节融合模块:将高级语义融合模块的最终输出特征o1进行上采样;将
6.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,循环卷积增强模块:将轮廓细节融合模块的最终输出特征o2进行上采样、3×3卷积得到特征o3,特征o3再经过上采样,3×3卷积得到特征o4,然后将特征o1,o2,o3,o4分别进行3×3卷积,特征o1的卷积结果和
7.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,rgb特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,训练集rgb图像经过主干网络后,得到不同尺度的具有丰富语义特征的矩阵f1i,
8.如权利要求1所述的基于图像语义和细节的rgb-d显著性物体检测器,其特征在于,深度特征流提取器以vgg-16网络的前1-4卷积块为为主干网络,主干网络的第一个卷积层通道数为1,深度图像训练集经过主干网络后,得到不同尺度的具有物体轮廓细节的矩阵f1d,