一种提高实时目标检测系统中均值平均精度的方法与流程

专利2022-06-29  119


本发明属于目标检测与数字图像处理技术领域,涉及到一种提高实时目标检测系统中均值平均精度的方法。



背景技术:

深度学习发展迅速,目标检测成了当下研究的热门方向,应用前景非常广阔,而实时目标检测常常用于生产生活的关键领域,这使得对实时目标检测的精度提出了更高的要求。

通常目标检测是给定一个图像,找到其中的目标,找到它们的位置,并且对目标进行分类。目标检测模型通常是在一组固定的类上进行训练的,所以模型只能定位和分类图像中的那些类。此外,目标的位置通常是边界矩阵的形式。所以,目标检测需要涉及图像中目标的位置信息和对目标进行分类。

使用固定的时候遇到了两个问题,第一个是固定框的宽高维度往往是精选的先验框,虽说在训练过程中网络也会学习调整框的宽高维度,最终得到准确的物体标注框。但是,如果一开始就选择了更好的、更有代表性的先验框维度,那么网络就更容易学到准确的预测位置。

使用固定框时发现的第二个问题就是:模型不稳定,尤其是在早期迭代的时候。大部分的不稳定现象出现在预测框的坐标上了。无论在什么位置进行预测,任何固定框可以在图像中任意一点结束。模型随机初始化后,需要花很长一段时间才能稳定预测敏感的物体位置。

因此,当下对于传统的实时目标检测系统在先验证框维度选取不足,以及预测框稳定性差,导致均值平均精度较低,这就使得实时目标检测系统结果不精确,影响识别效果。



技术实现要素:

本发明克服现有技术存在的不足,提供一种提高实时目标检测系统中均值平均精度的方法,采用回归模型,经过一次网络传播,得到整幅图像的目标,目的是提高均值平均精度使得检测准确率和速率得到提升。

本发明是通过如下技术方案实现的。

一种提高实时目标检测系统中均值平均精度的方法,其特征在于,具体包括以下步骤:

1)网络在每一个卷积层后添加批量归一化,批量归一化有助于规范化模型,使用批量归一化代替丢弃法防止过拟合。

2)使用可视化数据库对分类网络进行训练,使训练后的分类网络适应高分辨率的输入。

3)去除全连层,将整个网络变成一个全卷积网络;所述的全卷积网络可以对各尺寸输入进行检测。为了使网络能够接受多种尺寸的输入图像,该网络除去了传统网络结构中的全连层,因为全连接层必须要求输入输出固定长度特征向量。将整个网络变成一个全卷积网络,能够对多种尺寸输入进行检测。同时,全卷积网络相对于全连接层能够更好的保留目标的空间位置信息。

基于darknet-改进。传统darknet虽然精度足够好,但是模型比较大,网络传输起来比较费时间,因此,本发明提出了一个自己的模型darknet-改进。而传输网络也正式以darknet-改进作为先验训练模型训练起来的。

4)采用固定框来预测物体标注框:去除一个池层来提高卷积层输出分辨率,然后修改网络输入尺寸使特征图只有一个中心。

5)使用k-means聚类方法类训练物体标注框。

6)使用预测相对于网格的坐标位置进行直接位置预测。所述使用了预测相对于网格的坐标位置的办法,把真值限制在了0到1之间,利用logistic回归函数来进行这一限制。

7)添加一个转移层,把所述转移层的浅层特征图连接到深层特征图,形成细粒度特征。这个转移层也就是把高低两种分辨率的特征图做了一次连结,连接方式是叠加特征到不同的通道而不是空间位置;

8)对所述网络进行多尺度训练,预测不同尺寸的图片。希望网络具有不同尺寸图片的鲁棒性,因此在训练的时候也考虑了这一点。不同于固定输入网络的图片尺寸的方法,在几次迭代后就会微调网络。

进一步的,步骤2中使用imagenet预训练过的模型分类器来提取特征:对分类网络(自定义的darknet)进行微调,分辨率改成448*448,在imagenet数据集上训练10轮,训练后的网络就可以适应高分辨率的输入了。然后,对检测网络部分(也就是后半部分)也进行微调。

更进一步的,所述步骤4中,去除了一个池层后,修改网络输入尺寸:由448×448改为416,使特征图只有一个中心。物品(特别是大的物品)更有可能出现在图像中心。

进一步的,步骤5中采用评判标准是iou得分,即框之间的交集除以并集,最终的距离函数为:

d=(box,centroid)=1-iou(box,centroid)

进一步的,所述步骤6中(x,y)是预测框的坐标,在区域建议网络中,预测(x,y)以及,ty使用的是如下公式:

x=(tx*ωa)-xa

y=(ty*ha)-ya

当预测tx=1,就会把框向右边移动与固定框宽度相等的距离,预测tx=-1,把框向左边移动与固定框宽度相等的距离。

本发明相对于现有技术所产生的有益效果为。

本发明采用回归模型,只进行一次网络传播,便可以得到整幅图像的目标,速度显著加快。提高了中均值平均精度使得检测准确率得到了极大的提升;使用预测相对于网格单元的坐标位置的办法进行直接位置预测,定位预测值被归一化后,参数就更容易得到学习,模型就更稳定。本发明使用维度集群和直接位置预测这两项固定框改进方法,均值平均精度获得了显著的提升。

附图说明

图1为本发明所述提高实时目标检测系统中均值平均精度方法的流程图。

图2为本发明所述直接位置预测的示意图。

具体实施方式

为了使本发明所要解决的技术问题、技术方案及有益效果更加清楚明白,结合实施例和附图,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。下面结合实施例和附图详细说明本发明的技术方案,但保护范围不被此限制。

如图1所示,是一种提高实时目标检测系统中均值平均精度的方法的流程图,具体包括以下步骤:

1)网络在每一个卷积层后添加批量归一化,批量归一化有助于规范化模型,可以在舍弃丢弃法优化后仍然不会过拟合。

2)对分类网络(自定义的darknet)进行微调,分辨率改成448*448,在imagenet数据集上训练10轮,训练后的网络就可以适应高分辨率的输入了。然后,对检测网络部分(也就是后半部分)也进行微调。

3)为了使网络能够接受多种尺寸的输入图像,该网络除去了传统网络结构中的全连层,因为全连接层必须要求输入输出固定长度特征向量。将整个网络变成一个全卷积网络,能够对多种尺寸输入进行检测。同时,全卷积网络相对于全连接层能够更好的保留目标的空间位置信息。

4)基于darknet-改进。传统darknet虽然精度足够好,但是模型比较大,网络传输起来比较费时间,因此,本发明提出了一个自己的模型darknet-改进。而传输网络也正式以darknet-改进作为先验训练模型训练起来的。

5)去除了传统网络的全连接层,采用固定框来预测边界框。首先,去除了一个池层来提高卷积层输出分辨率。然后,修改网络输入尺寸:由448×448改为416,使特征图只有一个中心。物品(特别是大的物品)更有可能出现在图像中心。网络的卷积层下采样率为32,因此输入尺寸变为416,输出尺寸为13×13。采用固定框,提升了精确。

加入了固定框后,可以预料到的结果是召回率上升,准确率下降。假设每个格预测9个建议框,那么总共会预测13*13*9=1521个框,而之前的网络仅仅预测7*7*2=98个框。具体数据为:没有固定框,模型召回率为81%,中均值平均精度为69.5%;加入固定框,模型召回率为88%,均值平均精度为69.2%。这样看来,准确率只有小幅度的下降,而召回率则提升了7%,说明可以通过进一步的工作来加强准确率,的确有改进空间。

6)使用了k-means聚类方法类训练边界框,可以自动找到更好的框宽高维度。传统的k-means聚类方法使用的是欧氏距离函数,也就意味着较大的框会比较小的框产生更多的错误,聚类结果可能会偏离。为此,本发明采用的评判标准是iou得分(也就是框之间的交集除以并集),这样的话,错误就和框的尺度无关了,最终的距离函数为:

d=(box,centroid)=1-iou(box,centroid)

7)在使用固定框时发现的问题就是:模型不稳定,尤其是在早期迭代的时候。大部分的不稳定现象出现在预测框的(x,y)坐标上了。在区域建议网络中,预测(x,y)以及,ty使用的是如下公式

x=(tx*ωa)-xa

y=(ty*ha)-ya

这个公式的理解为:当预测tx=1,就会把框向右边移动一定距离(具体为固定框的宽度),预测tx=-1,就会把框向左边移动相同的距离。

这个公式没有任何限制,使得无论在什么位置进行预测,任何固定框可以在图像中任意一点结束。模型随机初始化后,需要花很长一段时间才能稳定预测敏感的物体位置。

在此,没有采用预测直接的补偿的方法,而使用了预测相对于网格的坐标位置的办法,把真值限制在了0到1之间,利用logistic回归函数来进行这一限制。

8)添加一个转移层,这一层要把浅层特征图(分辨率为26*26,是底层分辨率4倍)连接到深层特征图。这个转移层也就是把高低两种分辨率的特征图做了一次连结,连接方式是叠加特征到不同的通道而不是空间位置,可以拥有更好的细粒度特征。

9)为了使网络适应具有不同尺寸图片的鲁棒性,因此在训练的时候也考虑了这一点。不同于固定输入网络的图片尺寸的方法,在几次迭代后就会微调网络。接着按照输入尺寸调整网络进行训练。

步骤1所述使用批量归一化代替丢弃法防过拟合,通过这一方法,中均值平均精度获得了显著的提升。

所述步骤2为:使用imagenet预训练过的模型分类器来提取特征,这样通过提升输入的分辨率,中均值平均精度获得了显著的提升。

步骤3:去除全连层,将整个网络变成一个全卷积网络,能够对多种尺寸输入进行检测。同时,全卷积网络相对于全连接层能够更好的保留目标的空间位置信息。

步骤4所述提出了一个全卷积网络模型。

步骤5所述去除了网络的全连接层,采用固定框来预测边界框,提升了精确度。

步骤6利用使用了k-means聚类方法类训练边界框,可以自动找到更好的框宽高维度。

步骤7使用预测相对于网格的坐标位置的办法,把真值限制在了0到1之间,利用logistic回归函数来进行这一限制。

步骤8添加一个转移层,这一层要把浅层特征图(分辨率为26*26,是底层分辨率4倍)连接到深层特征图。

最后因为网络只用到了卷积层和池化层,那么就可以进行动态调整,这种机制使得网络可以更好地预测不同尺寸的图片,意味着同一个网络可以进行不同分辨率的检测任务,在小尺寸图片上网络运行更快,在速度和精度上达到了平衡。

如图1所示,本发明提供了一种提高实时目标检测系统中均值平均精度的方法,主要包括以下几个模块:批量归一化、高分辨率分类器、全卷积网络、新的基础卷积网络、锚框、维度聚类、直接位置预测、细粒度特征、多尺度训练。

如图2所示,本发明提高实时目标检测系统中均值平均精度的方法的直接位置预测具体过程为:神经网络在特征图(13*13)的每个网格上预测5个物体标注框(聚类得出的值),同时每一个物体标注框预测5个坐标值,分别为tx,ty,tw,th,t0。如果这个网格距离图像左上角的边距为(cx,cy)以及该网格对应的框维度(物体标注框预测)的长和宽分别为(pw,ph),那么预测值可以表示为:

bx=σ(tx) cx

by=σ(ty) cy

pr(object)*iou(b,object)=σ(t0)

定位预测值被归一化后,参数就更容易得到学习,模型就更稳定。这里使用维度聚类和直接位置预测这两项锚框改进方法,均值平均精度获得了5%的提升。

区别于现有技术,本发明提供了一种提高实时目标检测系统中均值平均精度的方法,采用回归模型,只进行一次网络传播,便可以得到整幅图像的目标,速度快了许多。使用了更多的技巧,提高了中均值平均精度使得检测准确率得到了极大的提升。

以上内容是结合具体的优选实施方式对本发明所做的进一步详细说明,不能认定本发明的具体实施方式仅限于此,对于本发明所属技术领域的普通技术人员来说,在不脱离本发明的前提下,还可以做出若干简单的推演或替换,都应当视为属于本发明由所提交的权利要求书确定专利保护范围。


技术特征:

1.一种提高实时目标检测系统中均值平均精度的方法,其特征在于,具体包括以下步骤:

1)网络在每一个卷积层后添加批量归一化,使用批量归一化代替丢弃法防止过拟合;

2)使用可视化数据库对分类网络进行训练,使训练后的分类网络适应高分辨率的输入;

3)去除全连层,将整个网络变成一个全卷积网络;所述的全卷积网络可以对各尺寸输入进行检测;

4)采用固定框来预测物体标注框:去除一个池层来提高卷积层输出分辨率,然后修改网络输入尺寸使特征图只有一个中心;

5)使用k-means聚类方法类训练物体标注框;

6)使用预测相对于网格的坐标位置进行直接位置预测;

7)添加一个转移层,把所述转移层的浅层特征图连接到深层特征图,形成细粒度特征;

8)对所述网络进行多尺度训练,预测不同尺寸的图片。

2.根据权利要求1所述的一种提高实时目标检测系统中均值平均精度的方法,其特征在于,步骤2中使用imagenet预训练过的模型分类器来提取特征:分辨率为448*448,在imagenet数据集上训练10轮,训练后的网络用以适应高分辨率的输入。

3.根据权利要求2所述的一种提高实时目标检测系统中均值平均精度的方法,其特征在于,所述步骤4中,去除了一个池层后,修改网络输入尺寸:由448×448改为416,使特征图只有一个中心。

4.根据权利要求1所述的一种提高实时目标检测系统中均值平均精度的方法,其特征在于,步骤5中采用评判标准是iou得分,即框之间的交集除以并集,最终的距离函数为:

5.根据权利要求1所述的一种提高实时目标检测系统中均值平均精度的方法,其特征在于,所述步骤6中(x,y)是预测框的坐标,在区域建议网络中,预测(x,y)以及,ty使用的是如下公式

x=(tx*ωa)-xa

y=(ty*ha)-ya

当预测tx=1,就会把框向右边移动与固定框宽度相等的距离,预测tx=-1,把框向左边移动与固定框宽度相等的距离。

技术总结
本发明公开了一种提高实时目标检测系统中均值平均精度的方法,属于目标检测与图像处理的领域;首先批量归一化代替丢弃法,接着用模型分类器提取特征,然后去除全连层,将整个网络变成一个全卷积网络;使用人工选择的边界框进行预测;本发明使用K‑means聚类方法类训练物体标注框,可以自动找到更好的框宽高维度,使用预测相对于网格单元的坐标位置的办法进行直接位置预测,定位预测值被归一化后,参数更容易得到学习,模型更稳定;本发明使用维度集群和直接位置预测这两项固定框改进方法,均值平均精度获得了显著的提升。

技术研发人员:陈德鹏;贾华宇;李战峰;马珺
受保护的技术使用者:太原理工大学
技术研发日:2020.01.20
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16474.html

最新回复(0)