本发明属于计算机视觉领域,特别是利用深度卷积神经网络通过多尺度的方法来融合rgb图像和深度图像中所包含的特征信息。
背景技术:
显著性检测旨在区分场景中视觉上最鲜明的目标或区域,在视觉跟踪、图像分割和目标检测等领域有着广泛的应用。同时,伴随着深度学习技术的飞速发展,卷积神经网络已经成为处理显著性检测任务的主流方法。但是,现有的诸多基于深度学习的显著性检测方法大都是针对二维图像显著性检测任务,即仅仅依靠rgb图像而忽略了相应的深度信息,这极大地限制了显著性检测的精度与效率,特别是当在rgb图像中显著性对象与背景区域难以区分时,深度信息就显得尤为重要。另外,随着软硬件技术的发展,深度信息采集设备的出现使得深度图像的获取更加便利,如kinect等,这也为深度信息的利用提供了可能。因此,如何充分利用深度信息进行显著性检测成为了当下的研究热点之一。
目前,针对rgbd图像显著性检测的研究工作已经取得了一定的成果,但仍存在较大的进步空间。总体来说,阻碍rgbd图像显著性检测任务进一步发展的因素主要有两方面:一是虽然kinect和光场相机等设备的出现极大的方便了深度信息的获取,但是仍不可避免地引入了大量的噪声,在一定程度上干扰了深度信息的有效表达,同时可用的已有深度图像数据集极其有限,缺少像rgb图像数据集imagenet这样的大规模数据集,很难拟合具有复杂结构的网络模型;二是如何有效地融合rgb信息和深度信息这两种不同模态的信息是具有挑战性的,rgb图像中包含了大量的颜色和纹理等语义信息,而深度图像中包含了丰富的边缘和形状等几何信息,二者互为补充,有利于更加准确地突出显著性区域。
技术实现要素:
针对现有技术中存在的不足,本发明提供一种基于多尺度特征融合的rgbd显著性检测方法。本发明方法可以有效地实现对于rgbd图像的显著性检测工作。
一种基于多尺度特征融合的rgbd显著性检测方法,步骤如下:
步骤(1)、构建显著性检测模型。
显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块。
步骤(2)、通过hha算法处理rgb图像i的原始深度图像,获得深度图像d。
步骤(3)、将rgb图像i及其深度图像d输入显著性检测模型中,通过双流特征提取模块中的rgb图像特征提取分支和深度图像特征提取分支分别提取多级rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4}。
步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征。同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征。
步骤(5)、显著性边界细化模块通过来自于rgb图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束,达到细化边界的目的;同时利用深度融合模块的输出特征进行全局约束,达到全局优化的目的。
本发明有益效果如下:
本发明充分利用了rgb图像和相应深度图像中所蕴含的互补信息,通过多尺度特征融合的方式实现了准确预测rgbd图像中显著性区域的目标。本发明方法通过多尺度特征池化模块和多尺度特征聚合模块从不同的角度提取每个级别的深层次特征。此外,深度融合模块对不同的特征表示进行了融合并逐级上采样,从而实现了端到端的显著性预测。本发明方法将边缘信息引入到了显著性检测中,可以充分有效地利用rgb图像信息和深度图像信息来预测显著性区域。
附图说明
图1为基于多尺度特征融合的rgbd显著性检测方法的框架图;
图2为多尺度特征池化模块示意图;
图3为多尺度特征聚合模块示意图。
具体实施方式
以下结合附图对本发明方法进行进一步描述。
如图1所示,本发明的显著性检测方法,步骤如下:
步骤(1)、构建显著性检测模型。
显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块。
步骤(2)、通过hha算法处理rgb图像i的原始深度图像,获得深度图像d。
步骤(3)、将rgb图像i及其深度图像d输入显著性检测模型中,通过双流特征提取模块中的rgb图像特征提取分支和深度图像特征提取分支分别提取多级rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4}。
步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征。同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征。
对于得到的多级rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4},按元素相加后得到初步融合特征{idi,i=2,3,4}。特别地,将融合特征id4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块。
如图2所示,多尺度特征池化模块包括四个子分支,用以获得输入特征数据的上下文信息,其中第一子分支采用了全局均值池化层,得到1×1的特征表示;第二子分支和第三个分支均采用自适应均值池化层,分别得到3×3和5×5的特征表示;第四子分支采用直接跳连的方式将输入特征连接到输出端。第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变。对于上述通过卷积学习得到的特征表示,进一步分别上采样到输入特征的大小,采取双线性插值的上采样策略。最后,通过通道级联的方式将四个子分支的特征进行组合,得到融合了多尺度池化的特征表示{mpj,j=2×,4×,8×}。
如图3所示,多尺度特征聚合模块包括四个子分支,其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层,分别将相应的特征下采样到原尺寸的1/8、1/4、1/2,接着利用3×3的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变;第四子分支采用直接跳连的方式将输入特征连接到输出端。为得到与输入特征尺寸大小相同的特征表示,进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样,并连同第四子分支的跳连特征进行按元素相加的操作,在保持通道数不变的前提下实现多尺度特征的聚合。为降低上采样操作和按元素相加操作带来的混叠效应,采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理,最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示{mai,i=1,2,3,4}。
深度融合模块用于对来自于特征提取分支的特征{idi,i=2,3,4}、多尺度特征池化模块的特征{mpj,j=2×,4×,8×}和多尺度特征聚合模块的特征{mai,i=1,2,3,4}进行融合,定义如下:
其中,up(·)表示双线性插值上采样操作,c(·)表示卷积核为3×3的卷积操作。
步骤(5)、显著性边界细化模块通过来自于rgb图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束,达到细化边界的目的;同时利用深度融合模块的输出特征进行全局约束,达到全局优化的目的。
显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束,强化对边缘特征的学习,采用第二个卷积块的输出特征,即i2和d2,整个模块可以表示为如下的形式:
edge=c(i2 d2),(2)
其中,c(·)表示卷积核为1×1、步长为1的卷积操作。采用hed方法提取相关rbgd数据集的边缘信息作为标准的边缘图像。在执行边缘约束时,以平衡交叉熵损失函数作为目标函数进行优化,有效地缓解样本不平衡的问题。
通过resnet50预训练模型初始化rgb图像特征提取分支和深度图像特征提取分支的权重参数,其他部分的权重则使用“msra”方法初始化。在模型训练阶段,以交叉熵损失函数作为目标函数进行优化,使用adam优化算法,动量设为0.9,权重衰减率设为0.0001,基本学习率设为5×10-5,批大小设为1。对于训练数据集,使用镜面反射和旋转技术实现数据的增广。
显著性检测模型的输入是rgb图像i及其深度图像d。需要注意的是,这里的深度图像d区别于原始深度图像,指的是经过hha算法处理之后的深度图像。rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4}分别通过rgb图像特征提取分支和深度图像特征提取分支获得。对于得到的多级rgb图像特征和深度图像特征,按元素相加后得到初步融合特征{idi,i=2,3,4}。特别地,将融合特征id4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块。
多尺度特征池化模块通过多尺度的池化操作可以更好地获取全局上下文信息,从而有效地区分背景区域中的显著性目标。同时,多尺度特征池化模块摆脱了输入数据尺寸大小的约束,可以生成固定大小的特征表示,这样大大增强了网络结构的灵活性和普适性。多尺度特征池化模块包括四个子分支,用以获得输入特征数据的上下文信息,其中第一子分支采用了全局均值池化层,得到1×1的特征表示;第二子分支和第三个分支均采用自适应均值池化层,分别得到3×3和5×5的特征表示;第四子分支采用直接跳连的方式将输入特征连接到输出端。第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变。对于上述通过卷积学习得到的特征表示,进一步分别上采样到输入特征的大小,采取双线性插值的上采样策略。最后,通过通道级联的方式将四个子分支的特征进行组合,得到融合了多尺度池化的特征表示,可以更好地表达特征数据中所包含的全局上下文信息,从而更加有利于进行显著性区域的预测。
多尺度特征聚合模块中的“多尺度”具有两层含义:一是该模块处理的特征数据是具有多尺度属性的;二是该模块内部处理特征数据的方式是多尺度的。由于多尺度特征聚合模块处理的部分特征数据间接来自于多尺度特征池化模块,因此其具有多尺度属性。与多尺度特征池化模块类似,多尺度特征聚合模块包括四个子分支,其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层,分别将相应的特征下采样到原尺寸的1/8、1/4、1/2,接着利用3×3的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变。;第四子分支采用直接跳连的方式将输入特征连接到输出端。为得到与输入特征尺寸大小相同的特征表示,进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样,并连同第四子分支的跳连特征进行按元素相加的操作,在保持通道数不变的前提下实现多尺度特征的聚合。为降低上采样操作和按元素相加操作带来的混叠效应,采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理,最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示。
为了能够充分地融合rgb图像特征和深度图像特征以及较好地保留全局信息,本方法还引入了深度融合模块。深度融合模块用于对来自于特征提取分支的特征{idi,i=2,3,4}、多尺度特征池化模块的特征{mpj,j=2×,4×,8×}和多尺度特征聚合模块的特征{mai,i=1,2,3,4}进行融合,定义如下:
其中,up(·)表示双线性插值上采样操作,c(·)表示卷积核为3×3的卷积操作。需要注意的是,此处的卷积操作同样具有降低上采样所带来的混叠效应的作用。
为了能够准确地定位显著性区域,获得边界清晰的显著性图,本方法引入了显著性边界细化模块。显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束,强化对边缘特征的学习,采用第二个卷积块的输出特征,即i2和d2,整个模块可以表示为如下的形式:
edge=c(i2 d2),(2)
其中,c(·)表示卷积核为1×1、步长为1的卷积操作。同样,该卷积层具有降低按元素相加操作所带来的混叠效应的作用。鉴于目前已有的rgbd数据集中大多没有提供标定好的边缘图像,本方法采用hed方法提取相关rbgd数据集的边缘信息作为标准的边缘图像。在执行边缘约束时,以平衡交叉熵损失函数作为目标函数进行优化,有效地缓解样本不平衡的问题。最后,在边缘约束的协同下,利用交叉熵损失函数进行全局优化,以实现显著性图的预测工作。
1.一种基于多尺度特征融合的rgbd显著性检测方法,其特征在于,步骤如下:
步骤(1)、构建显著性检测模型;
显著性检测模型包括双流特征提取模块、多尺度特征池化模块、多尺度特征聚合模块、深度融合模块和显著性边界细化模块;
步骤(2)、通过hha算法处理rgb图像i的原始深度图像,获得深度图像d;
步骤(3)、将rgb图像i及其深度图像d输入显著性检测模型中,通过双流特征提取模块中的rgb图像特征提取分支和深度图像特征提取分支分别提取多级rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4};
步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征;同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征;
步骤(5)、显著性边界细化模块通过来自于rgb图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束,达到细化边界的目的;同时利用深度融合模块的输出特征进行全局约束,达到全局优化的目的。
2.根据权利要求1所述的一种基于多尺度特征融合的rgbd显著性检测方法,其特征在于,步骤(4)、通过多尺度特征池化模块和多尺度特征聚合模块进一步提取深层次特征;同时利用深度融合模块逐级融合来自于特征提取分支、多尺度特征池化模块和多尺度特征聚合模块的特征;
对于得到的多级rgb图像特征{ii,i=1,2,3,4}和深度图像特征{di,i=1,2,3,4},按元素相加后得到初步融合特征{idi,i=2,3,4};特别地,将融合特征id4通过一个包含三个卷积层的卷积块后送入多尺度特征池化模块;
如图2所示,多尺度特征池化模块包括四个子分支,用以获得输入特征数据的上下文信息,其中第一子分支采用了全局均值池化层,得到1×1的特征表示;第二子分支和第三个分支均采用自适应均值池化层,分别得到3×3和5×5的特征表示;第四子分支采用直接跳连的方式将输入特征连接到输出端;第一、第二和第三子分支利用1×1的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变;对于上述通过卷积学习得到的特征表示,进一步分别上采样到输入特征的大小,采取双线性插值的上采样策略;最后,通过通道级联的方式将四个子分支的特征进行组合,得到融合了多尺度池化的特征表示{mpj,k=2×,4×,8×};
如图3所示,多尺度特征聚合模块包括四个子分支,其中第一子分支、第二子分支和第三子分支采用使用了常规的均值池化层,分别将相应的特征下采样到原尺寸的1/8、1/4、1/2,接着利用3×3的卷积层进一步强化特征表达,同时保持特征尺寸和通道数不变;第四子分支采用直接跳连的方式将输入特征连接到输出端;为得到与输入特征尺寸大小相同的特征表示,进一步使用双线性插值法分别将第一子分支、第二子分支和第三子分支获得的不同尺度的特征进行8倍、4倍、2倍的上采样,并连同第四子分支的跳连特征进行按元素相加的操作,在保持通道数不变的前提下实现多尺度特征的聚合;为降低上采样操作和按元素相加操作带来的混叠效应,采用一个卷积核为3×3、步长为1、填充为1的卷积层来进行处理,最终得到尺寸大小和通道数均与输入特征保持一致的多尺度聚合的特征表示{mai,i=1,2,3,4};
深度融合模块用于对来自于特征提取分支的特征{idi,i=2,3,4}、多尺度特征池化模块的特征{mpj,j=2×,4×,8×}和多尺度特征聚合模块的特征{mai,i=1,2,3,4}进行融合,定义如下:
其中,up(·)表示双线性插值上采样操作,c(·)表示卷积核为3×3的卷积操作。
3.根据权利要求2所述的一种基于多尺度特征融合的rgbd显著性检测方法,其特征在于,步骤(5)、显著性边界细化模块通过来自于rgb图像特征提取分支和深度图像特征提取分支的浅层特征进行边界约束,达到细化边界的目的;同时利用深度融合模块的输出特征进行全局约束,达到全局优化的目的;
显著性边界细化模块将特征提取分支中包含丰富边缘信息的特征用于进行边缘约束,强化对边缘特征的学习,采用第二个卷积块的输出特征,即i2和d2,整个模块可以表示为如下的形式:
edge=c(i2 d2),(2)
其中,c(·)表示卷积核为1×1、步长为1的卷积操作;采用hed方法提取相关rbgd数据集的边缘信息作为标准的边缘图像;在执行边缘约束时,以平衡交叉熵损失函数作为目标函数进行优化,有效地缓解样本不平衡的问题。
4.根据权利要求3所述的一种基于多尺度特征融合的rgbd显著性检测方法,其特征在于,通过resnet50预训练模型初始化rgb图像特征提取分支和深度图像特征提取分支的权重参数,其他部分的权重则使用“msra”方法初始化;在模型训练阶段,以交叉熵损失函数作为目标函数进行优化,使用adam优化算法,动量设为0.9,权重衰减率设为0.0001,基本学习率设为5×10-5,批大小设为1;对于训练数据集,使用镜面反射和旋转技术实现数据的增广。
技术总结