本发明属于图像识别领域,具体涉及一种基于两阶段信息融合的图像识别方法。
背景技术:
卷积神经网络(cnn)是计算机视觉任务的解决方案的核心。自2012年imagenet大赛cnn取得了令人印象深刻的破纪录成绩以来,cnn已经被学术界和工业界从不同的角度进行了广泛的研究,取得了良好的回报。这些研究成果极大地推动了cnn算法的性能。
除了上述研究思路外,最近出现的一个研究趋势是明确地建立特征响应的空间或通道相关性模型,以增强cnn的表示能力。其中,“挤压激励”(se)网络通过引入所谓的se块,在各种深度架构上显示出显著的改进。se模块重新定义通道权重来进行噪声过滤。具体来说,在每个se块中,首先执行挤压操作(即全局平均池化),以将输入特征的全局空间信息聚合到信道特征中,然后执行激励模块(即多层感知器)从压缩描述符中产生特定的通道激活,以重新加权每个通道。
尽管取得了显著的成果,但se模块的一个局限性在于执行全局平均池化的挤压操作。然而,被全局平均池化掩盖的局部信息对于识别不同通道的重要性是至关重要的。如果没有局部信息作为必要的提示,激励模块可能会为一些背景上激活的噪声通道产生高权重。
技术实现要素:
发明目的:本发明提出一种基于两阶段信息融合的图像识别方法,通过两阶段信息融合后,产生正确的通道描述符,来生成正确的通道权重,以此来降低通道的噪声数。
发明内容:本发明所述的一种基于两阶段信息融合的图像识别方法,包括以下步骤:
(1)输入图片,通过卷积神经网络对输入图像提取特征;
(2)对步骤(1)获得的卷积特征进行信息融合,获得通道描述符;
(3)将通道描述符输入到多层感知机,将输出作为通道权重;
(4)将步骤(1)产生的特征和步骤(3)产生的通道权重进行相乘进行通道修正;
(5)将通道修正后的结果再次输入到分类网络中,输出获得图片的类别。
进一步地,所述步骤(1)包括以下步骤:
(11)将图片裁剪到224大小再输入到卷积网络resnet中;
(12)提取resnet每一个残差模块输出的卷积特征。
进一步地,所述步骤(2)包括以下步骤:
(21)在基于spp的两阶段信息融合方法中,将卷积特征进行roi池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1;
(22)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(23)将(22)得到的三个1x1维度的卷积特征相加得到通道描述符。
进一步地,步骤(2)所述的描述符通过分辨率引导池化获取,具体为在基于rgp的两阶段信息融合方法中,将卷积特征进行非重复的池化。
进一步地,所述步骤(4)通过一个全连接层将每个通道的信息融合。
有益效果:与现有技术相比,本发明的有益效果:提出了新的两阶段信息融合方法,利用了更多的信息线索,帮助激励模块返回更精确的信道权重;通过两阶段信息融合后,产生正确的通道描述符,来生成正确的通道权重,以此来降低通道的噪声数。
附图说明
图1为基于spp的两阶段信息融合方法流程示意图;
图2为基于rgp的两阶段信息融合方法流程示意图;
图3为se的缺点图;
图4为基于spp的两阶段信息融合方法具体实施方式图;
图5为基于rgp的两阶段信息融合方法具体实施方式图;
图6为基于spp的两阶段信息融合方法效果图;
图7为基于rgp的两阶段信息融合方法效果图。
具体实施方式
下面结合附图对本发明作进一步详细说明。
本发明提出了一种简单而有效的两阶段信息融合方法,图1和图2给出了两阶段信息融合方法流程示意图。包括“描述符提取”,旨在获得一组不同的深度描述符,这些描述符协同地表示输入的全局和局部信息。以及“信息融合”,即将获得的丰富的描述符融合到一个能够返回准确信息的c维通道描述符中。“描述符提取”将丰富的信息融入到通道描述符,这些深度描述符可以协同地表达特征的全局和局部信息。为此,引入了两种不同的策略:1)空间金字塔池化(spp),它可以对输入进行多尺度表示,并在所有阶段生成固定数量的描述符;2)分辨率引导池化,可以生成阶段感知的描述符。此分辨率导向池化是通过使用最后阶段(conv5)的全局平均池化实现的,并使用此gap窗口(即7×7)作为固定窗口,对所有早期阶段执行非重叠平均池化。这两种方法都可以生成一组深度描述符,其中包含的信息比gap生成的更丰富。然而,se块中的激励模块只具有c维的通道特性,不能直接利用所获得的通道描述符集,如图3所示。为了解决这些问题,我们引入了“信息融合”阶段,将提取的描述符聚合成一个c维通道特征,我们提出了基于通道数分组的全连接层,如图4、图5所示,在获得一组描述符之后,我们首先执行一个通道重塑操作,然后使用一个小的全连接层,将每个通道的信息融合成一维。具体包括以下步骤:
步骤一:输入图片,通过卷积神经网络(cnn)对输入图像提取特征。采用resnet即可;具体如下:
(1)将图片裁剪到224大小再输入到卷积网络resnet中。
(2)提取resnet每一个残差模块输出的卷积特征。
步骤二:对步骤一产生的特征进行信息融合,获得通道描述符;具体如下:
(1)在基于spp的两阶段信息融合方法中,将卷积特征进行roi池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1。
也可以基于rgp的两阶段信息融合方法中,将卷积特征进行非重复池化,即利用窗口大小为7,步长为7的池化层进行池化。
(2)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(3)将(2)得到的三个1x1维度的卷积特征相加得到通道描述符。
步骤三:将通道描述符输入到多层感知机,将输出作为通道权重。
步骤四:将步骤一产生的特征和步骤三产生的通道权重进行相乘进行通道修正;
步骤五:将通道修正后的结果输入到分类网络中,输出获得图片的类别。
将我们的方法用于imagenet分类实验,对比的对象有原始模型、原始模型的se版本,获得表1结果,以此证实我们的方法的优越性。
表1imagenet图像分类实验
为了证实我们的信息融合方法可以产生正确的通道描述符,我们还进行了可视化实验,如图6和图7所示。图6是基于spp的两阶段信息融合方法效果图,可以看到对于噪声通道和有用通道,原始的se模块的挤压操作无法产生正确的gap挤压值,但是我们提出的方法可以产生正确的spp信息融合响应值,这帮助了后续的激励操作产生了正确的激励响应(通道权重)。在图7中,我们提出的基于rgp的两阶段信息融合方法的有效性也得到了证实,比如通道号为452的噪声通道和通道号为864的有用通道,在原始se模型的挤压操作下,其gap挤压值都是0.019,很难区分其是否是噪声通道,但是在我们的rgp挤压下,可以正确区分它们,并且产生正确的通道权重。
1.一种基于两阶段信息融合的图像分类方法,其特征在于,包括以下步骤:
(1)输入图片,通过卷积神经网络对输入图像提取特征;
(2)对步骤(1)获得的卷积特征进行信息融合,获得通道描述符;
(3)将通道描述符输入到多层感知机,将输出作为通道权重;
(4)将步骤(1)产生的特征和步骤(3)产生的通道权重进行相乘进行通道修正;
(5)将通道修正后的结果再次输入到分类网络中,输出获得图片的类别。
2.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(1)包括以下步骤:
(11)将图片裁剪到224大小再输入到卷积网络resnet中;
(12)提取resnet每一个残差模块输出的卷积特征。
3.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(2)包括以下步骤:
(21)在基于spp的两阶段信息融合方法中,将卷积特征进行roi池化得到三种分辨率的卷积特征,分别是4x4,2x2,1x1;
(22)利用按通道数分组的全连接层将(a)得到的三种分辨率的卷积特征都降到1x1维度;
(23)将(22)得到的三个1x1维度的卷积特征相加得到通道描述符。
4.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,步骤(2)所述的描述符通过分辨率引导池化获取,具体为在基于rgp的两阶段信息融合方法中,将卷积特征进行非重复的池化。
5.根据权利要求1所述的一种基于两阶段信息融合的图像分类方法,其特征在于,所述步骤(4)通过一个全连接层将每个通道的信息融合。
技术总结