1.本发明属于图像处理技术领域,具体涉及一种基于深度学习的单模板匹配的方法。
背景技术:2.模板匹配是根据已知的较小的模板图像,在另一张较大的图像中定位出与之相似的图像块。模板匹配作为计算机视觉的核心任务,是后续高级图像处理的关键,如目标识别、图像拼接、视觉定位等,并且在医学图像处理、卫星图像处理等领域中有着重要的作用。
3.经过数年研究,目前已有多种传统的模板匹配算法,但是这些算法大部分都是基于人工设计的特征提取器搭建的,存在着对光照、目标形变、图像背景噪声敏感等缺陷,无法适用于恶劣图像的模板匹配。
4.目前,传统的模板方法不再占据主导地位,基于深度学习的图像匹配方法逐步兴起,这类图像匹配不再依据研究者的观察和专业知识,而是依靠数据的训练,匹配精确度更高。神经网络的主干网络从大量的数据中自动学习特征提取,相比于人工设计的特征提取器,能够提取到更加丰富、更加抽象、更加有效的特征。将神经网络的特征提取与传统方法的特征融合、特征比对进行结合,能够有效提高单模板的效果。
技术实现要素:5.为了克服现有技术中存在的不足,提供一种基于深度学习的单模板匹配的方法,该方法使用深度学习中的主干网络提取图像特征,然后,对不同尺度的图像特征做特征融合,最后,计算细节得分与语义得分,获取图像中的目标位置,从而提高了模板匹配的精度与鲁棒性。
6.为实现上述目的,本发明提供了一种基于深度学习的单模板匹配的方法,包括步骤如下:
7.1)输入包含目标的图像r,输入目标的模板图像t;
8.2)将图像r送入预训练好的骨干网络b中,截取下采样n倍的输出rn,截取下采样2n倍的输出r
2n
,对图像t做同样的处理,获得tn与t
2n
;
9.3)将r
2n
以双线性插值的方式进行2倍上采样得到对t
2n
做同样的处理,得到
10.4)将与rn通过通道维度加权拼接,得到融合后的特征对tn与做同样的处理,得到
11.5)对的通道维度做归一化,得到对做同样的处理,得到
12.6)以作为卷积核对进行步长为1的same卷积,得到细节得分图sd;
13.7)计算中每一个像素与的相似度,得到语义得分图sc;
14.8)将sd与sc通过加权相加,得到融合后的得分图s;
15.9)取得分图s中像素值最大的坐标p,并对坐标p进行下采样倍数补偿,补偿后的坐
标即模板图像t在图像r中的位置;
16.所述步骤2)中截取下采样n倍的输出rn,截取下采样2n倍的输出r
2n
。rn的尺寸为[1,c,h,w],r
2n
的尺寸为[1,2c,h/2,w/2]。c表示通道数量,h表示高度,w表示宽度。
[0017]
所述步骤4)中将与rn通过通道维度加权拼接,得到融合后的特征的具体方法为:
[0018][0019]
其中,的尺寸为[1,2c,h,w],cont(
·
)表示通道维度拼接操作,的尺寸为[1,3c,h,w]。α逼近于1,包含更多的语义信息。α逼近于0,包含更多的细节信息。
[0020]
所述步骤5)对的通道维度做归一化的具体方法为:通道维度的均值为其尺寸为[1,1,h,w]。通道维度的标准差为其尺寸为[1,1,h,w]。归一化的特征可以表示为:可以表示为:尺寸为[1,3c,h,w]。
[0021]
所述步骤7)中计算中每一个像素与的相似度的具体方法为:的尺寸为[1,3c,h,w],那么可以看做向量集合x={x1,
…
,xm,
…
,x
hw
},xn的尺寸为[1,3c]。同样的,可以看做向量集合y={y1,
…
,ym,
…
,y
hw
},yn的尺寸为[1,3c]。分别计算y中每一个向量ym与x中每一个向量xm的内积,得到内积矩阵t,t的尺寸为[hw,hw]。取出t中每一行中元素的最大值,得到语义得分图sc,sc的尺寸为[1,1,h,w]。
[0022]
所述步骤8)中sd与sc通过加权相加,得到得分图s的具体方法为:
[0023]
s=αsc+(1-α)sd,0≤α≤1
[0024]
其中,得分图s的尺寸为[1,1,h,w]。α逼近于1,s包含更多的语义信息。α逼近于0,s包含更多的细节信息。
[0025]
所述步骤9)中对坐标p进行下采样倍数补偿的具体方法为:p的原始坐标为(p,q),补偿后的坐标为(np,nq)。
[0026]
本发明通过神经网络的骨干网络提取图像的特征,接着,将不同层的特征进行融合,然后,根据融合后的特征计算得到细节特征图与语义得分图,兼顾细节与语义,从而提高了模板匹配的精度与鲁棒性。
[0027]
本发明与现有技术相比,具有以下优点:
[0028]
1、本发明利用神经网络的骨干网络进行特征提取,相比于人工设计的特征提取器,能够提取到更加丰富、更加抽象、更加有效的特征。
[0029]
2、本发明对骨干网络不同层次的特征图进行融合,使得特征同时包含了丰富的细节与语义特征。
[0030]
3、本发明将细节得分图与语义得分图分开计算,细节得分图降低了模板定位的位置误差,语义得分图能够提高对光照、目标形变、图像背景噪声的鲁棒性。
附图说明
[0031]
图1为本发明的整体的算法流程图;
[0032]
图2为本发明的具体实例图。
具体实施方式
[0033]
下面结合附图和具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本技术所附权利要求所限定的范围。
[0034]
实施例:
[0035]
如图1所示,本发明提供一种基于深度学习的单模板匹配的方法,包括如下步骤:
[0036]
1)输入包含目标的图像r,输入目标的模板图像t;
[0037]
2)将图像r送入pytorch官方预训练好的vgg16网络中,截取第16层的输出r8,截取第23层的输出r
16
。对图像t做同样的处理,获得t8与t
16
;其中,r8的尺寸为[1,256,h,w],r
16
的尺寸为[1,512,h/2,w/2];
[0038]
3)将r
16
以双线性插值的方式进行2倍上采样得到对t
16
做同样的处理,得到
[0039]
4)将与r8通过通道维度加权拼接,得到融合后的特征对t8与做同样的处理,得到其中,α=0.5,cont(
·
)表示通道维度拼接操作,尺寸为[1,768,h,w];
[0040]
5)对的通道维度做归一化,得到对做同样的处理,得到其中,通道维度的均值为其尺寸为[1,1,h,w]。通道维度的标准差为其尺寸为[1,1,h,w]。归一化的特征可以表示为:可以表示为:尺寸为[1,768,h,w];
[0041]
6)以作为卷积核对进行步长为1的same卷积,得到细节得分图sd;
[0042]
7)计算中每一个像素与的相似度,得到语义得分图sc;其中,的尺寸为[1,768,h,w],那么可以看做向量集合x={x1,
…
,xm,
…
,x
hw
},xn的尺寸为[1,768]。同样的,可以看做向量集合y={y1,
…
,ym,
…
,y
hw
},yn的尺寸为[1,768]。分别计算y中每一个向量ym与x中每一个向量xm的内积,得到内积矩阵t,t的尺寸为[hw,hw]。取出t中每一行中元素的最大值,得到语义得分图sc,sc的尺寸为[1,1,h,w];
[0043]
8)将sd与sc通过加权相加,得到融合后的得分图s;其中,s=αsc+(1-α)sd,α=0.5;
[0044]
9)取得分图s中像素值最大的坐标p,并对坐标p进行下采样倍数补偿,补偿后的坐标即模板图像t在图像r中的位置;其中,p的原始坐标为(p,q),补偿后的坐标为(8p,8q)。
[0045]
将本发明的基于深度学习的单模板匹配的方法应用到实际场景中,如图2所示,图2(a)黑色虚线框内部分表示的是模板图像t1,图2(b)是定位图像r1,图2(b)中的黑色虚线框表示模板图像t1在定位图像r1中的位置。图2(c)黑色虚线框内部分表示的是模板图像t2,图2(d)是定位图像r2,图2(d)中的黑色虚线框表示模板图像t2在定位图像r2中的位置。图2(e)黑色虚线框内部分表示的是模板图像t3,图2(f)是定位图像r3,图2(f)中的黑色虚线框表示模板图像t3在定位图像r3中的位置。
[0046]
最后应说明的是:以上实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
技术特征:1.一种基于深度学习的单模板匹配的方法,其特征在于,包括如下步骤:1)输入包含目标的图像r,输入目标的模板图像t;2)将图像r送入预训练好的骨干网络b中,截取下采样n倍的输出r
n
,截取下采样2n倍的输出r
2n
,对图像t做同样的处理,获得t
n
与t
2n
;3)将r
2n
以双线性插值的方式进行2倍上采样得到对t
2n
做同样的处理,得到4)将与r
n
通过通道维度加权拼接,得到融合后的特征对t
n
与做同样的处理,得到5)对的通道维度做归一化,得到对做同样的处理,得到6)以作为卷积核对进行步长为1的same卷积,得到细节得分图s
d
;7)计算中每一个像素与的相似度,得到语义得分图s
c
;8)将s
d
与s
c
通过加权相加,得到融合后的得分图s;9)取得分图s中像素值最大的坐标p,并对坐标p进行下采样倍数补偿,补偿后的坐标即模板图像t在图像r中的位置。2.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤2)中截取下采样n倍的输出r
n
,截取下采样2n倍的输出r
2n
,r
n
的尺寸为[1,c,h,w],r
2n
的尺寸为[1,2c,h/2,w/2],c表示通道数量,h表示高度,w表示宽度。3.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤4)中将与r
n
通过通道维度加权拼接,得到融合后的特征的具体方法为:其中,的尺寸为[1,2c,h,w],cont(
·
)表示通道维度拼接操作,的尺寸为[1,3c,h,w],α逼近于1,包含更多的语义信息,α逼近于0,包含更多的细节信息。4.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤5)对的通道维度做归一化的具体方法为:通道维度的均值为其尺寸为[1,1,h,w],通道维度的标准差为其尺寸为[1,1,h,w];归一化的特征可以表示为:可以表示为:可以表示为:尺寸为[1,3c,h,w]。5.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤7)中计算中每一个像素与的相似度的具体方法为:的尺寸为[1,3c,h,w],那么可以看做向量集合x={x1,
…
,x
m
,
…
,x
hw
},x
n
的尺寸为[1,3c];同样的,可以看做向量集合y={y1,
…
,y
m
,
…
,y
hw
},y
n
的尺寸为[1,3c];分别计算y中每一个向量y
m
与x中每一个向量x
m
的内积,得到内积矩阵t,t的尺寸为[hw,hw];取出t中每一行中元素的最大值,得到
语义得分图s
c
,s
c
的尺寸为[1,1,h,w]。6.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤8)中s
d
与s
c
通过加权相加,得到得分图s的具体方法为:s=αs
c
+(1-α)s
d
,0≤α≤1其中,得分图s的尺寸为[1,1,h,w],α逼近于1,s包含更多的语义信息,α逼近于0,s包含更多的细节信息。7.根据权利要求1所述的基于深度学习的单模板匹配的方法,其特征在于:所述步骤9)中对坐标p进行下采样倍数补偿的具体方法为:p的原始坐标为(p,q),补偿后的坐标为(np,nq)。
技术总结本发明公开了一种基于深度学习的单模板匹配的方法,该方法应用于在过曝、高噪声等恶劣图像中定位出目标;首先,使用深度学习中的骨干网络提取图像特征;接着,对不同尺度的图像特征做特征融合;然后,分别计算细节得分与语义得分;最后,通过特征比对获取图像中的目标位置。本发明使用深度学习中的骨干网络对图像做特征提取,比人工特征更加丰富;另外加入了特征融合模块,使得特征同时具有语义和细节信息,达到更好的定位和抑噪效果;此外,分别计算了细节得分与语义得分,细节得分增强了匹配的精度,语义得分增强了匹配的鲁棒性。语义得分增强了匹配的鲁棒性。语义得分增强了匹配的鲁棒性。
技术研发人员:王顺 张睿 季松林
受保护的技术使用者:江苏骠马智能工业设计研究有限公司
技术研发日:2022.10.27
技术公布日:2022/12/16