本发明涉及图像处理技术相关领域,尤其涉及一种利用空间信息提升语义分割精度的高效方法。
背景技术:
随着3d传感器技术的发展,3d空间信息很容易获取。因此利用空间信息来提升语义分割精度变得越来越重要。将rgb信息与空间信息结合,能够更好的对复杂的场景进行语义感知。这种技术促进了很多领域的发展,比如slam,机器人和自动驾驶。因此如何利用空间信息成为了重要的研究方向。jonathanlong,davideigen等人提出了一种利用空间信息的方法。他们将空间信息作为网络的额外输入来提取特征,并与rgb图片提取的特征融合,来达到利用空间信息的目的。seong-jinpark提出了一种多尺度融合rgb图片与空间信息的方法。x.hu提出了一种基于注意力机制的融合rgb图片与空间信息的方法。s.gupta等人提出了一种将深度信息编码为hha信息(水平视差,对地高度,表面法向量的角度)的方法,同时利用hha信息来提升网络的性能。x.qi提出了使用3dknn方法来结合空间信息,但这种基于3d的方法耗时较大。
这些方法都显著的提升了语义分割的精度,达到了很好的效果。但同时这些方法都存在着一些问题:
1.将空间信息作为网络的额外输入,旨在使用双流网络来分别处理图像信息和空间信息,极大的增加了网络的参数量和推理时间,使其实际应用变得困难。
2.这些网络使用的卷积操作无法很好的适应输入复杂的空间变换,限制了语义分割的精度,如何高效的利用空间信息成为是否实际应用的关键。
技术实现要素:
本发明的目的在于提供一种利用空间信息提升语义分割精度的高效方法,以解决上述背景技术中提出的将空间信息作为网络的额外输入,旨在使用双流网络来分别处理图像信息和空间信息,极大的增加了网络的参数量和推理时间,使其实际应用变得困难,如何高效的利用空间信息的问题。
为了实现以上目的,本发明采用的技术方案为:一种利用空间信息提升语义分割精度的高效方法,步骤如下;
s10、信息输入;s20、调整。
进一步的,所述s10、信息输入:用户将rgb图像和对应的空间信息输入基于空间信息引导卷积的网络。
进一步的,所述s20、调整:空间信息引导卷积利用输入的空间信息,自适应的改变卷积核的分布和权重,从而达到高效利用几何信息的目的。
本发明的有益效果为:
提出的空间信息引导卷积能够使用少量的参数和计算量来高效的利用空间信息,提升网络的空间感知能力和语义分割精度。同时以空间信息引导卷积为基础提出的空间信息引导卷积神经网络能够在实时推理速度的情况下达到nyudv2数据集上的最优效果。
附图说明
图1为本发明空间信息引导卷积结构图;
图2为本发明空间信息引导卷积为基础提出的空间信息引导卷积神经网络;
图3为本发明与其它方法的速度和参数量对比图;
图4为本发明应用到rgbd语义分割任务时的效果示意图;
图5为本发明流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,本发明提供一种技术方案:一种利用空间信息提升语义分割精度的高效方法,步骤如下;
s10、信息输入;s20、调整。
优选的,所述s10、信息输入:用户将rgb图像和对应的空间信息输入基于空间信息引导卷积的网络。
优选的,所述s20、调整:空间信息引导卷积利用输入的空间信息,自适应的改变卷积核的分布和权重,从而达到高效利用几何信息的目的。
实施例1
图1为空间信息引导卷积结构图,表示的步骤为:
1.首先,输入的空间信息经过空间投影映射到高维度的空间,其过程可表示为:
其中s表示原始的空间信息,s′表示升维后的空间信息。s∈r3×h×w,s′∈r64×h×w.其中该过程旨在将输入空间信息与其特征图相匹配。
2.接着,偏移发生器将升维后的空间信息转化成卷积核的偏移量,其过程可表示为:
δd=η(s′)(2)
η通过两层卷积核大小为3的卷积神经网络来实现。δd∈rkh*kw×h′×w′×2,其中kh,kw为生成偏移的卷积核大小,h′,w′为卷积后的特征图大小。
3.根据生成的卷积核偏移量和其对应的空间信息,权重生成器生成与之对应的权重,可表示为:
wd(p)=σ(f(sd(p)))·w(3)
其中:
sd(p)=s′(p di δdi(p))|i=1,2,...,kh*
kw}(4)
wd(p)∈rkh*kw表示在位置p生成的权重。f由一个单层卷积实现。
4.最后的卷积总过程可以表示为:
其中
图2为以空间信息引导卷积为基础提出的空间信息引导卷积神经网络架构。本发明的网络架构得益于空间信息引导卷积,能够高效的利用空间信息。我们的网络架构以resnet101为主干网络,将部分卷积替换成空间引导卷积来高效利用空间信息,达到提升语义分割精度的目的。
表1为我们的方法和其它方法在nyudv2数据集上的结果对比,可以看出,我们的方法在性能上和参数量上都有着明显的优势。这都归功于提出的空间信息引导卷积,能够高效的利用空间信息。同时对比基线方法,我们的空间信息引导卷积网络(scnet)仅仅增加少量参数就能够大幅度提升其性能表现。
图3为我们的方法与其他方法的参数量和速度对比,其中圆的半径越大表示其方法的参数量越多。测速的输入图片大小为425×560.gpu为nvidia1080ti。可以看出我们的空间信息引导卷积网络(scnet)在少量参数量且达到实时的情况下性能达到了最优。
图4为我们的方法应用到rgbd语义分割任务时在nyudv2数据集上的效果示意图。可以看到我们的方法(scnet)在nyudv2数据集上取得了很好的结果。对比于基线方法,我们提出的空间引导卷积大大的提升了网络的性能。具体来说,对于第一行的图片,浴缸和墙壁具有相似的纹理,仅凭rgb信息很难区分。通过结合空间信息引导卷积,这两部分可以被区分的很好。第二行的椅子具有复杂的空间变换,我们的方法(scnet)可以区分的更好,同时预测结果更好的保持了其空间结构,如第三行所示。对于一些反光的物体,如第四行的桌子,我们的网络通过结合空间信息也可以很好的判别出来。对于第四行的低对比度区域,得益于空间信息引导卷积,我们的方法对比于基线方法,能够更好的识别其类别。
表1
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
1.一种利用空间信息提升语义分割精度的高效方法,其特征在于:步骤如下;
s10、信息输入;s20、调整。
2.根据权利要求1所述的一种利用空间信息提升语义分割精度的高效方法方法,其特征在于:所述s10、信息输入:用户将rgb图像和对应的空间信息输入基于空间信息引导卷积的网络。
3.根据权利要求1所述的一种利用空间信息提升语义分割精度的高效方法,其特征在于:所述s20、调整:空间信息引导卷积利用输入的空间信息,自适应的改变卷积核的分布和权重,从而达到高效利用几何信息的目的。
技术总结