本申请涉及计算机技术领域,特别是涉及一种目标检测模型的训练方法、装置、计算机可读存储介质和计算机设备。
背景技术:
目标检测也叫目标提取,是计算机视觉领域的图像分割技术,目标检测不仅能从图像中分割出目标,也就是定位出目标位置,还能识别目标的类别。
在训练目标检测模型的位置回归网络时,通常是采用滑窗法遍历图像中的区域,然后对这些区域进行筛选、排查后作为目标检测的候选矩形区域,然而,发明人意识到,这些候选矩形区域通常都是水平的矩形区域,这样的候选区域可以较为准确、有效地定位图像中水平放置、正正规规放置的目标,但是当图像中存在旋转目标或者是外形不太规则的目标时,根据这些候选区域确定的目标检测框就不够准确,比如,当一个长条形物体(如:铅笔)与水平方线成一定角度在图像中呈现时,若采用水平矩形框进行标注,定位的目标检测框中背景面积可能远大于目标自身的面积,从而会导致目标定位不够准确,目标识别率较低。
技术实现要素:
基于此,有必要针对现有的目标检测模型对图像中的旋转目标或不规则形状目标进行定位的方式存在不够准确、识别率较低的技术问题,提供一种目标检测模型的训练方法、装置、计算机可读存储介质和计算机设备。
一种目标检测模型的训练方法,包括:
获取样本图像及标注信息,所述标注信息包括所述样本图像中目标的真实位置信息和真实类别信息,所述真实位置信息包括所述目标所对应的矩形包围框的旋转角度;
通过初始模型的特征提取网络,获得所述样本图像的特征图;
通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定所述特征图中的初始检测框;
通过初始模型的回归网络,对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,并根据所述标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数;
通过初始模型的分类网络,根据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率;
根据所述标注信息中的真实类别信息与所述预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
一种目标检测模型的训练装置,所述装置包括:
获取样本图像及标注信息,所述标注信息包括所述样本图像中目标的真实位置信息和真实类别信息,所述真实位置信息包括所述目标所对应的矩形包围框的旋转角度;
通过初始模型的特征提取网络,获得所述样本图像的特征图;
通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定所述特征图中的初始检测框;
通过初始模型的回归网络,对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,并根据所述标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数;
通过初始模型的分类网络,根据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率;
根据所述标注信息中的真实类别信息与所述预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
在一个实施例中,所述获取样本图像包括:获取原始样本图像;判断所述原始样本图像的宽高比是否为1;若是,则将所述原始样本图像等比例缩放至预设尺寸,获得样本图像;若否,则将所述原始样本图像等比例缩放后补充图像像素,获得预设尺寸的样本图像。
在一个实施例中,所述获取样本图像包括:获取原始样本图像;对所述原始样本图像按照预设角度进行旋转处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度及所述预设角度获得所述样本图像的真实标注信息;或者,对所述原始样本图像进行垂直镜像处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度获得所述样本图像的真实标注信息;或者,对所述原始样本图像进行水平镜像处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度获得所述样本图像的真实标注信息。
在一个实施例中,确定所述目标宽高比的步骤包括:获取样本图像及各所述样本图像中目标所对应的矩形包围框的宽高信息;根据所述宽高信息统计各所述矩形包围框的宽高比;对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
在一个实施例中,所述对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,包括:根据所述回归网络当前的网络参数,计算各所述初始检测框的位置偏移量;根据所述初始检测框及所述位置偏移量,获得预测检测框的位置信息;所述位置信息包括所述预测检测框的几何中心点的坐标、所述预测检测框的宽高及所述预测检测框的旋转角度。
在一个实施例中,所述方法还包括:根据所述预测检测框的位置信息,确定所述预测检测框;根据所述真实位置信息,确定所述样本图像中目标所对应的矩形包围框;计算所述预测检测框与所述矩形包围框之间的交并比;计算所述预测检测框与所述矩形包围框之间的旋转角度差异;当所述交并比大于第一阈值且所述旋转角度差异小于第二阈值时,则将所述样本图像标记为正样本图像;当所述交并比小于第三阈值或所述旋转角度差异大于第二阈值时,则将所述样本图像标记为负样本图像。
在一个实施例中,所述据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率,包括:按照各所述预测检测框的位置信息,确定特征图上的目标检测区域;将各所述目标检测区域调整至相同的预设尺度后,获得各所述目标检测区域对应的特征向量;根据所述特征向量确定所述目标检测区域对应各预设类别的预测概率。
一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行上述目标检测模型的训练方法的步骤。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行上述目标检测模型的训练方法的步骤
上述目标检测模型的训练方法、装置、计算机可读存储介质和计算机设备,一方面,在训练目标检测模型时,样本图像的标注信息包括真实位置信息和真实类别信息,真实位置信息包括旋转角度,这样训练得到的目标检测模型可以具备识别图像中目标的旋转角度的能力,定位的目标检测框就更为准确。另一方面,训练目标检测模型的过程中,对区域生成网络中用于生成初始检测框的旋转角度、尺度及目标宽高比进行初始化,丰富了初始检测框的生成方式,使得训练得到的目标检测模型更为稳定,并且由于初始检测框还根据预设的旋转角度确定,使得生成的初始检测框也更接近真实的目标检测框。这样,通过回归网络调整初始检测框的位置后获得预测检测框,并根据预测检测框获得特征图上的目标检测区域,根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数,通过分类网络预测目标检测区域的类别概率之后,就可以根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数,得到能够对图像中的旋转目标进行目标检测且目标定位更准确的目标检测模型。
附图说明
图1为一个实施例中目标检测模型的训练方法的应用环境图;
图2为一个实施例中目标检测模型的训练方法的流程示意图;
图3为一个实施例中对样本图像进行标注的示意图;
图4为一个实施例中对样本图像进行标注的流程示意图;
图5为一个实施例中对原始样本图像进行增强处理获得样本图像的示意图;
图6为一个实施例中从特征图上确定的初始检测框的示意图;
图7为一个具体的实施例中目标检测模型的训练方法的流程示意图;
图8为一个实施例中目标检测模型的训练装置的结构框图;
图9为一个实施例中计算机设备的结构框图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
图1为一个实施例中目标检测模型的训练方法的应用环境图。参照图1,该目标检测模型的训练方法应用于目标检测模型的训练系统。该目标检测模型的训练系统可以包括终端11和服务器120。终端11和服务器120可以通过网络连接,终端110具体可以是台式终端或移动终端,移动终端具体可以手机、平板电脑、笔记本电脑等中的至少一种。服务器120可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
具体地,终端110可以获取样本图像,并将样本图像传递至服务器120。服务器120获得该样本图像后,采用样本图像对初始模型进行训练,获得用于对图像进行目标检测的目标检测模型。
在一个实施例中,服务器120可以获取样本图像及标注信息,标注信息包括样本图像中目标的真实位置信息和真实类别信息,真实位置信息包括目标所对应的矩形包围框的旋转角度;通过初始模型的特征提取网络,获得样本图像的特征图;通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定特征图中的初始检测框;通过初始模型的回归网络,对各初始检测框的位置进行调整,获得预测检测框的位置信息,并根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数;通过初始模型的分类网络,根据各预测检测框的位置信息所确定的目标检测区域预测目标对应各预设类别的预测概率;根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
在一个实施例中,如图2所示,提供了一种目标检测模型的训练方法。以该方法应用于计算机设备(如上述图1中的终端110或服务器120)为例进行说明。该方法可以包括如下步骤s202至s212。
s202,获取样本图像及标注信息,标注信息包括样本图像中目标的真实位置信息和真实类别信息,真实位置信息包括目标所对应的矩形包围框的旋转角度。
其中,样本图像是用于对初始模型进行训练的图像,经过样本图像的训练获得的模型具备对图像进行目标检测的能力。目标检测不仅需要从图像中分割出目标,也就是定位出目标位置,还能识别目标的类别。样本图像中的目标的类别信息可以是多个预设分类类别中的一个或多个分类类别,预设分类类别可以根据实际应用需要事先设定,比如可以是人脸、车辆、动物、车辆等。样本图像中目标的位置信息可以用包围该目标的矩形包围框的位置信息来表示,比如该矩形包围框的几何中心点的x坐标、y坐标、矩形包围框的宽w和矩形包围框的高h,在矩形包围框绕该几何中心点旋转后,矩形包围框的几何中心点不会改变。此外,在本申请所提供的实施例中,样本图像的位置信息还包括目标所对应的矩形包围框的旋转角度θ,也就是,样本图像的标注信息可以用包含x、y、w、h及θ的这样一组数据来表示。其中,旋转角度θ可以是该矩形包围框相对于将该矩形包围框水平放置时的偏移角度,比如,可以是该矩形包围框的长边与该样本图像x轴正方向的夹角,还可以是该矩形包围框的长边与该样本图像y轴正方向的夹角,当然也可以是该矩形包围框的短边与该样本图像x轴正方向的夹角或者是该矩形包围框的短边与该样本图像y轴正方向的夹角。旋转角度的取值可以是0度至360度之间的任意值。可以理解的是,由于样本图像的标注信息包括样本图像的旋转角度,那么采用该标注的样本图像进行训练获得的模型也同样具备识别出图像中目标的旋转角度的能力,从而可以根据该旋转角度更为准确的定位出图像中的目标。
如图3所示,为一个实施例中对样本图像进行标注的示意图。参照图3,样本图像中的目标为铅笔,其中,图3左边为传统技术中对样本图像中的目标进行标注的示意图,图中的矩形包围框是水平矩形框,水平矩形框中包括大量的背景信息,背景信息甚至大于目标信息,会导致识别率下降,且目标定位不够精确。图3右边为本申请实施例对样本图像中的目标进行标注的示意图,图中的矩形包围框是具有旋转角度的矩形框,该矩形包围框更为准确的示意了目标在图像中的位置。
初始模型可以是机器学习模型,机器学习模型可以通过样本图像进行学习,从而具备对图像进行识别的能力。在本申请所提供的实施例中,计算机设备可通过样本图像学习到对图像进行目标检测的能力。在一个实施例中,计算机设备可事先设置机器学习模型的模型结构,得到初始模型,再通过样本图像训练初始模型,得到机器学习模型的模型参数。在需要对图像进行目标检测时,计算机设备可以获取事先训练得到的模型参数,再将该模型参数导入初始模型,获得具备对图像进行目标检测的能力的目标检测模型。
在一个实施例中,在对样本图像进行标注之前,可以先对训练样本进行扩充,获取样本图像包括:获取原始样本图像;判断原始样本图像的宽高比是否为1;若是,则将原始样本图像等比例缩放至预设尺寸,获得样本图像;若否,则将原始样本图像等比例缩放后补充图像像素,获得预设尺寸的样本图像。
由于特征提取网络的输入图像需要具备相同的尺寸,整个网络的输入、输出都是固定的大小,因此需要先对样本图像进行预处理。具体地,先判断原始样本图像的宽高是否相同,若是,则将原始样本图片的宽高等比例缩放到预设尺寸,预设尺寸例如可以是s*s。若原始样本图像的宽高不相同,则当宽大于高时,则先将原始样本图像的宽缩放至预设尺寸s,然后根据原始样本图像的宽高比将样本图像的高缩放至s’,接着对原始样本图像的上边区域或下边区域补充像素后使得原始样本图像的高为s,这样就获得了尺寸为s*s的样本图像;当高大于宽时,则先将原始样本图像的高缩放至预设尺寸s,然后根据原始样本图像的宽高比将原始样本图像的宽缩放至s’,接着对原始样本图像的左边区域或右边区域补充像素后使得原始样本图像的宽为s,这样就获得了尺寸为s*s的样本图像。其中,等比例缩放是为确保样本图像中目标不产生形变,同时为了满足样本图像的尺寸一致,不够长或宽的图片,用像素补充图片长或宽。
如图4所示,为一个实施例中对样本图像进行标注的流程示意图。参照图4,包括以下步骤:
s402,获取原始样本图像;
s404,判断原始样本图像的宽高比是否为1;若是,则执行步骤s406;若否,则执行步骤s408;
s406,将原始样本图片的宽高等比例缩放到预设尺寸s*s;
s408,判断原始样本图像的宽是否大于高;若是,则执行步骤s410a;若否,则执行步骤s410b;
s410a,将原始样本图像的宽缩放至预设尺寸s,然后根据原始样本图像的宽高比将样本图像的高缩放至s’;
s412a,对原始样本图像的上边区域或下边区域补充像素后使得原始样本图像的高为s,获得s*s的样本图像;
s410b,将原始样本图像的高缩放至预设尺寸s,然后根据原始样本图像的宽高比将原始样本图像的宽缩放至s’;
s412b,对原始样本图像的左边区域或右边区域补充像素后使得原始样本图像的宽为s,获得s*s的样本图像;
s414,对调整后的样本图像进行标注。
在一个实施例中,上述方法还包括对样本图像中标注的矩形包围框的宽高比进行统计获得目标宽高比的步骤:获取样本图像及各样本图像中目标所对应的矩形包围框的宽高信息;根据宽高信息统计各矩形包围框的宽高比;对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
具体地,在对样本图像中进行标注之后,计算机设备可以获取样本图像中标注的矩形包围框的宽高信息,统计宽高比,并采用聚类算法对统计的宽高比进行聚类,聚类的类别数量可以根据需要设置,比如可以采用k-means算法进行3聚类,得到3个宽高比例值,则获得的目标宽高比包括w1:h1,w2:h2,w3:h3。比如可以是1:2、1:3、1:4。
需要说明的是,计算机设备获得的目标宽高比,用于在步骤s206中从样本图像的特征图中确定初始检测框,目标宽高比的种类越多,确定的初试检测框的数量也就更多。
在一个实施例中,上述方法还包括对样本图像进行增强的步骤,即,对获取样本图像包括:获取原始样本图像;对原始样本图像按照预设角度进行旋转处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度及预设角度获得样本图像的真实标注信息;或者,对原始样本图像进行垂直镜像处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度获得样本图像的真实标注信息;或者,对原始样本图像进行水平镜像处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度获得样本图像的真实标注信息。
具体地,计算机设备可以对原始样本图像按照预设角度进行旋转,预设角度例如可以是30°、60°等,计算机设备还可以对原始样本图像进行垂直镜像或水平镜像处理,还可以对按照预设旋转角度处理后的样本图像进一步进行垂直镜像或水平镜像处理,获得新的样本图像。处理后的样本图像的相应标注信息中的旋转角度需要进行相应的修改,这样,获得的新的样本图像可以加入训练样库中用于训练初始模型。
如图5所示,为一个实施例中对原始样本图像进行增强处理获得样本图像的示意图。参照图5,可以通过对原始样本图像进行旋转处理、镜像处理以及对旋转处理后的图片进一步镜像处理而获得增强后的样本图像的示意图。
在本实施例中,通过对样本图像进行图像增强处理,可以提高样本图像的丰富度,采用这些样本图像训练初始模型能够获得更为准确、稳定性更强的目标检测模型。
s204,通过初始模型的特征提取网络,获得样本图像的特征图。
其中,特征图可以用于反映样本图像的特性。根据样本图像的特性可以对样本图像中的目标进行定位,以及对样本图像所属的类别进行分类。初始模型包括特征提取网络、区域生成网络、回归网络和分类网络,计算机设备在训练初始模型的过程中,可以将样本图像输入至初始模型的特征提取网络,通过特征提取网络提取样本图像的图像特征,获得特征图。特征提取网络中的网络参数可以是事先训练好确定的,在训练的过程中保持特征提取网络的参数不变。特征提取网络比如可以是卷积神经网络。另外,初始模型可以基于fasterrcnn的网络架构来搭建。
s206,通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定特征图中的初始检测框。
其中,区域生成网络用从特征图中提取出具有旋转角度的初始检测框。具体地,对于特征图上的每个属于前景的位置点,按照预设的旋转角度、尺度及目标宽高比生成对应的初始检测框。可以理解的是,若预设的旋转角度包括m种,预设的尺度包括n种,目标宽高比包括k种,这样组合下来,对于每个位置点可以生成m*n*k个初始检测框。
例如,预设的旋转角度angle包括8个旋转角度,分别为{0,45°,90°,135°,180°,225°,270°,315°}。预设的尺度scale包括3种尺度,分别为{128*128,256*256,512*512}。目标宽高比是前文通过对样本图像中标注的矩形包围框的宽高比进行统计确定的,通过分析样本图像中目标的真实宽高比获取目标宽高比,使得根据目标宽高比所确定的初始检测框的宽高更贴切目标真实宽高,可加快检测网络收纳,提高准确率。例如目标宽高比ratio可以有3种,分别为{w1:h1,w2:h2,w3:h3},这样,对于每个位置点,可以生成8*3*3=72个不同的初始检测框。
如图6所示,为一个实施例中从特征图上确定的初始检测框的示意图。参照图6,特征图的尺寸为s*s,针对特征图上的某个位置点(x0,y0),区域生成网络会提取出72个初始检测框,图6仅示出了6个初始检测框,这6个初始检测框对应的旋转角度、尺度和宽高比分别为:
0°、128*128、1;
45°、128*128、1;
90°、128*128、1;
45°、256*128、2;
90°、256*256、1;
45°、256*512、1/2。
在一个实施例中,对于输入的对样本图像,在区域生成网络中通过分类函数获得属于前景的像素点,从而确定特征图上属于前景的像素点所对应的位置点,对确定的每个位置点生成初始检测框。
s208,通过初始模型的回归网络,对各初始检测框的位置进行调整,获得预测检测框的位置信息,并根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数。
其中,回归网络用于根据当前的网络参数对生成的初始检测框的位置进行调整,获得调整后的预测检测框的位置信息。预测检测框的位置信息同样也包括预测检测框的几何中心点的坐标、预测检测框的宽高及旋转角度。初始检测框通常无法准确定位样本图像中的目标,通过回归网络中的当前网络参数,对初始检测框的位置信息进行调整,获得的预测检测框更接近目标检测框。
在一个实施例中,对各初始检测框的位置进行调整,获得预测检测框的位置信息,包括:根据回归网络当前的网络参数,计算各初始检测框的位置偏移量;根据初始检测框及位置偏移量,获得预测检测框的位置信息;位置信息包括预测检测框的几何中心点的坐标、预测检测框的宽高及预测检测框的旋转角度。
在上面的例子中,若对于每个前景位置点,区域生成网络可以生成72个初始检测框,那么回归网络在对初始检测框的位置进行调整后获的预测检测框的位置信息中包括几何中心点的坐标,还包括预测检测框的宽和高,以及旋转角度,分别为x、y、w、h和θ,那么回归网络对于特征图上的每个点会存在72*5=360个输出值。
在一个实施例中,上述目标检测模型的训练方法还包括:根据预测检测框的位置信息,确定预测检测框;根据真实位置信息,确定样本图像中目标所对应的矩形包围框;计算预测检测框与矩形包围框之间的交并比;计算预测检测框与矩形包围框之间的旋转角度差异;当交并比大于第一阈值且旋转角度差异小于第二阈值时,则将样本图像标记为正样本图像;当交并比小于第三阈值或旋转角度差异大于第二阈值时,则将样本图像标记为负样本图像。
交并比指的是预测检测框与真实的矩形包围框重叠面积与合并面积之比,重叠面积可以用预测检测框与真实的矩形包围框重叠区域所包括的位置点的数量来表示,同样地,合并面积可以用预测检测框与真实的矩形包围框合并后区域所包括的位置点的数量来表示。前面提到回归网络会输出预测检测框的位置信息,位置信息包括预测检测框的旋转角度,因此可以确定回归网络输出的预测检测框的旋转角度与真实的矩形包围框的旋转角度之间的差异。交并比以及旋转角度的差异可以在一定程度上反应预测检测框的准确性,交并比越大说明两者的重叠程度越高,旋转角度的差异越小说明两者的位置也更接近。若预测检测框与真实的矩形包围框之间的交并比大于第一阈值且预测检测框的与真实的矩形包围框在旋转角度上的差异小于第二阈值,则说明预测检测框与真实的矩形包围框较为接近,可以将该样本图像标记为正样本图像。当交并比小于第三阈值或旋转角度之间的差异大于第二阈值时,则将样本图像标记为负样本图像。其中,第一阈值可以是0.7,第二阈值可以是22.5°,第三阈值可以是0.3。若预测检测框与真实的矩形包围框在交并比或旋转角度之间的差异满足其它情况,则该样本图像既不属于正样本图像也不属于负样本图像,不用于训练。
在本实施例中,由于前景位置点的数量较多,那么根据每个前景位置点所确定的初始检测框的数量就会更多,回归获得的预测检测框的数量也就更多,为了减少训练过程的数据量,可以按照上述方法对样本图像进行筛选,仅采用筛选后的样本图像对模型进行训练。
在一个实施例中,在获得预测检测框之后,计算机设备为了减少训练过程的计算量,还可以按照预测检测框的重叠程度对所有的预测检测框进行筛选。计算机设备还可以剔除超出图像边界的预测检测框。
进一步地,计算机设备在获得预测检测框的位置信息后,也就获得了样本图像中目标的位置信息,计算机设备可以根据标注信息中目标的真实位置信息与预测检测框的位置信息之间的差异调整回归网络的网络参数。
s210,通过初始模型的分类网络,根据各预测检测框的位置信息所确定的目标检测区域预测目标对应各预设类别的预测概率。
具体地,分类网络的输入包括特征图及确定的预测检测框的位置信息,计算机设备可以根据预测检测框的位置信息从特征图上确定目标检测区域,基于目标检测区域预测样本图像的类别。
在一个实施例中,根据各预测检测框的位置信息所确定的目标检测区域预测目标对应各预设类别的预测概率,包括:按照各预测检测框的位置信息,确定特征图上的目标检测区域;将各目标检测区域调整至相同的预设尺度后,获得各目标检测区域对应的特征向量;根据特征向量确定目标检测区域对应各预设类别的预测概率。
具体地,计算机设备可以按照各预测检测框的位置信息,从特征图上切割出尺寸大小不一致的目标检测区域,并通过roipooling(regionofinterestspooling,候选区域池化)将各目标检测区域调整至相同的预设尺度后,获得各目标检测区域对应的特征向量,并通过全连接层与归一化层确定每个目标检测区域属于各预设类别的概率向量,从而得到对应各预设类别的预测概率。
s212,根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
最后,确定样本图像中预测检测框所对应的预设类别的类别概率后,可以根据该类别概率以及样本图像中目标的真实类别信息构建分类网络的损失函数,并根据该损失函数最小化时的调整方向调整分类网络的网络参数。对于所有的样本图像,计算机设备都可以对当前的模型执行上述步骤s202至步骤s212,直至获得能够对图像进行目标检测的目标检测模型。
上述目标检测模型的训练方法,一方面,在训练目标检测模型时,样本图像的标注信息包括真实位置信息和真实类别信息,真实位置信息包括旋转角度,这样训练得到的目标检测模型可以具备识别图像中目标的旋转角度的能力,定位的目标检测框就更为准确。另一方面,训练目标检测模型的过程中,对区域生成网络中用于生成初始检测框的旋转角度、尺度及目标宽高比进行初始化,丰富了初始检测框的生成方式,使得训练得到的目标检测模型更为稳定,并且由于初始检测框还根据预设的旋转角度确定,使得生成的初始检测框也更接近真实的目标检测框。这样,通过回归网络调整初始检测框的位置后获得预测检测框,并根据预测检测框获得特征图上的目标检测区域,根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数,通过分类网络预测目标检测区域的类别概率之后,就可以根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数,得到能够对图像中的旋转目标进行目标检测且目标定位更准确的目标检测模型。
在一个具体的实施例中,如图7所示,上述目标检测模型的训练方法包括以下步骤:
s702,获取原始样本图像。
s704,获取原始样本图像及各原始样本图像中目标所对应的矩形包围框的宽高信息。
s706,根据宽高信息统计各矩形包围框的宽高比。
s708,对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
s710,判断原始样本图像的宽高比是否为1;若是,则将原始样本图像等比例缩放至预设尺寸,获得样本图像;若否,则将原始样本图像等比例缩放后补充图像像素,获得预设尺寸的样本图像。
s712,对样本图像按照预设角度进行旋转处理,获得新增样本图像。
s714,对样本图像进行垂直镜像处理,获得新增样本图像。
s716,对样本图像进行水平镜像处理,获得新增样本图像。
s718,根据样本图像中矩形包围框的旋转角度获得新增样本图像的真实标注信息。
s720,通过初始模型的特征提取网络,获得样本图像的特征图。
s722,通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定特征图中的初始检测框。
s724,通过初始模型的回归网络,根据回归网络当前的网络参数,计算各初始检测框的位置偏移量;根据初始检测框及位置偏移量,获得预测检测框的位置信息;位置信息包括预测检测框的几何中心点的坐标、预测检测框的宽高及预测检测框的旋转角度。
s726,根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数。
s728,根据预测检测框的位置信息,确定预测检测框。
s730,根据真实位置信息,确定样本图像中目标所对应的矩形包围框。
s732,计算预测检测框与矩形包围框之间的交并比、旋转角度差异。
s734,当交并比大于第一阈值且旋转角度差异小于第二阈值时,则将样本图像标记为正样本图像。
s736,当交并比小于第三阈值或旋转角度差异大于第二阈值时,则将样本图像标记为负样本图像。
s738,通过初始模型的分类网络,按照各预测检测框的位置信息,确定特征图上的目标检测区域。
s740,将各目标检测区域调整至相同的预设尺度后,获得各目标检测区域对应的特征向量。
s742,根据特征向量确定目标检测区域对应各预设类别的预测概率。
s744,根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
图7为一个实施例中目标检测模型的训练方法的流程示意图。应该理解的是,虽然图7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图7中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图8所示,提供了一种目标检测模型的训练装置800,该装置包括样本图像获取模块802、特征图获取模块804、初始检测框生成模块806、位置回归模块808和分类模块810,其中:
样本图像获取模块802,用于获取样本图像及标注信息,标注信息包括样本图像中目标的真实位置信息和真实类别信息。
特征图获取模块804,用于通过初始模型的特征提取网络,获得样本图像的特征图。
初始检测框生成模块806,用于通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定特征图中的初始检测框。
位置回归模块808,用于通过初始模型的回归网络,对各初始检测框的位置进行调整,获得预测检测框的位置信息,并根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数。
分类模块810,用于通过初始模型的分类网络,根据各预测检测框的位置信息所确定的目标检测区域预测目标对应各预设类别的预测概率;根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
在一个实施例中,样本图像获取模块802还用于获取原始样本图像;判断原始样本图像的宽高比是否为1;若是,则将原始样本图像等比例缩放至预设尺寸,获得样本图像;若否,则将原始样本图像等比例缩放后补充图像像素,获得预设尺寸的样本图像。
在一个实施例中,样本图像获取模块802还用于获取原始样本图像;对原始样本图像按照预设角度进行旋转处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度及预设角度获得样本图像的真实标注信息;或者,对原始样本图像进行垂直镜像处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度获得样本图像的真实标注信息;或者,对原始样本图像进行水平镜像处理,获得样本图像,并根据原始样本图像中矩形包围框的旋转角度获得样本图像的真实标注信息。
在一个实施例中,上述装置还包括样本图像预处理模块,用于获取样本图像及各样本图像中目标所对应的矩形包围框的宽高信息;根据宽高信息统计各矩形包围框的宽高比;对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
在一个实施例中,上述装置还包括统计模块,用于获取样本图像及各样本图像中目标所对应的矩形包围框的宽高信息;根据宽高信息统计各矩形包围框的宽高比;对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
在一个实施例中,上述装置还包括筛选模块,用于根据预测检测框的位置信息,确定预测检测框;根据真实位置信息,确定样本图像中目标所对应的矩形包围框;计算预测检测框与矩形包围框之间的交并比;计算预测检测框与矩形包围框之间的旋转角度差异;当交并比大于第一阈值且旋转角度差异小于第二阈值时,则将样本图像标记为正样本图像;当交并比小于第三阈值或旋转角度差异大于第二阈值时,则将样本图像标记为负样本图像。
在一个实施例中,分类模块还用于按照各预测检测框的位置信息,确定特征图上的目标检测区域;将各目标检测区域调整至相同的预设尺度后,获得各目标检测区域对应的特征向量;根据特征向量确定目标检测区域对应各预设类别的预测概率。
上述目标检测模型的训练装置800,一方面,在训练目标检测模型时,样本图像的标注信息包括真实位置信息和真实类别信息,真实位置信息包括旋转角度,这样训练得到的目标检测模型可以具备识别图像中目标的旋转角度的能力,定位的目标检测框就更为准确。另一方面,训练目标检测模型的过程中,对区域生成网络中用于生成初始检测框的旋转角度、尺度及目标宽高比进行初始化,丰富了初始检测框的生成方式,使得训练得到的目标检测模型更为稳定,并且由于初始检测框还根据预设的旋转角度确定,使得生成的初始检测框也更接近真实的目标检测框。这样,通过回归网络调整初始检测框的位置后获得预测检测框,并根据预测检测框获得特征图上的目标检测区域,根据标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数,通过分类网络预测目标检测区域的类别概率之后,就可以根据标注信息中的真实类别信息与预测概率调整分类网络的网络参数,得到能够对图像中的旋转目标进行目标检测且目标定位更准确的目标检测模型。
图9示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是图1中的计算机设备。如图9所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现目标检测模型的训练方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行目标检测模型的训练方法。
本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,本申请提供的目标检测模型的训练装置可以实现为一种计算机程序的形式,计算机程序可在如图9所示的计算机设备上运行。计算机设备的存储器中可存储组成该目标检测模型的训练装置的各个程序模块,比如,图8所示的样本图像获取模块802、特征图获取模块804、初始检测框生成模块806、位置回归模块808和分类模块810。各个程序模块构成的计算机程序使得处理器执行本说明书中描述的本申请各个实施例的目标检测模型的训练方法中的步骤。
例如,图9所示的计算机设备可以通过如图8所示的目标检测模型的训练装置中的样本图像获取模块802执行步骤s202。计算机设备可通过特征图获取模块804执行步骤s204。计算机设备可通过初始检测框生成模块806执行步骤s206。计算机设备可通过位置回归模块808执行步骤s208。计算机设备可通过分类模块810执行步骤s210和s212。``
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述目标检测模型的训练方法的步骤。此处目标检测模型的训练方法的步骤可以是上述各个实施例的目标检测模型的训练方法中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,计算机程序被处理器执行时,使得处理器执行上述目标检测模型的训练方法的步骤。此处目标检测模型的训练方法的步骤可以是上述各个实施例的目标检测模型的训练方法中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
1.一种目标检测模型的训练方法,包括:
获取样本图像及标注信息,所述标注信息包括所述样本图像中目标的真实位置信息和真实类别信息,所述真实位置信息包括所述目标所对应的矩形包围框的旋转角度;
通过初始模型的特征提取网络,获得所述样本图像的特征图;
通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定所述特征图中的初始检测框;
通过初始模型的回归网络,对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,并根据所述标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数;
通过初始模型的分类网络,根据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率;
根据所述标注信息中的真实类别信息与所述预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
2.根据权利要求1所述的方法,其特征在于,所述获取样本图像包括:
获取原始样本图像;
判断所述原始样本图像的宽高比是否为1;若是,则将所述原始样本图像等比例缩放至预设尺寸,获得样本图像;若否,则将所述原始样本图像等比例缩放后补充图像像素,获得预设尺寸的样本图像。
3.根据权利要求1所述的方法,其特征在于,所述获取样本图像包括:
获取原始样本图像;
对所述原始样本图像按照预设角度进行旋转处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度及所述预设角度获得所述样本图像的真实标注信息;或者,
对所述原始样本图像进行垂直镜像处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度获得所述样本图像的真实标注信息;或者,
对所述原始样本图像进行水平镜像处理,获得样本图像,并根据所述原始样本图像中矩形包围框的旋转角度获得所述样本图像的真实标注信息。
4.根据权利要求1所述的方法,其特征在于,确定所述目标宽高比的步骤包括:
获取样本图像及各所述样本图像中目标所对应的矩形包围框的宽高信息;
根据所述宽高信息统计各所述矩形包围框的宽高比;
对统计的宽高比进行聚类,获取聚类结果中的目标宽高比。
5.根据权利要求1所述的方法,其特征在于,所述对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,包括:
根据所述回归网络当前的网络参数,计算各所述初始检测框的位置偏移量;
根据所述初始检测框及所述位置偏移量,获得预测检测框的位置信息;所述位置信息包括所述预测检测框的几何中心点的坐标、所述预测检测框的宽高及所述预测检测框的旋转角度。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
根据所述预测检测框的位置信息,确定所述预测检测框;
根据所述真实位置信息,确定所述样本图像中目标所对应的矩形包围框;
计算所述预测检测框与所述矩形包围框之间的交并比;
计算所述预测检测框与所述矩形包围框之间的旋转角度差异;
当所述交并比大于第一阈值且所述旋转角度差异小于第二阈值时,则将所述样本图像标记为正样本图像;
当所述交并比小于第三阈值或所述旋转角度差异大于第二阈值时,则将所述样本图像标记为负样本图像。
7.根据权利要求1所述的方法,其特征在于,所述根据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率,包括:
按照各所述预测检测框的位置信息,确定特征图上的目标检测区域;
将各所述目标检测区域调整至相同的预设尺度后,获得各所述目标检测区域对应的特征向量;
根据所述特征向量确定所述目标检测区域对应各预设类别的预测概率。
8.一种目标检测模型的训练装置,其特征在于,所述装置包括:
样本图像获取模块,用于获取样本图像及标注信息,所述标注信息包括所述样本图像中目标的真实位置信息和真实类别信息;
特征图获取模块,用于通过初始模型的特征提取网络,获得所述样本图像的特征图;
初始检测框生成模块,用于通过初始模型的区域生成网络,按照预设的旋转角度、尺度及目标宽高比确定所述特征图中的初始检测框;
位置回归模块,用于通过初始模型的回归网络,对各所述初始检测框的位置进行调整,获得预测检测框的位置信息,并根据所述标注信息中的真实位置信息与预测检测框的位置信息调整回归网络的网络参数;
分类模块,用于通过初始模型的分类网络,根据各所述预测检测框的位置信息所确定的目标检测区域预测所述目标对应各预设类别的预测概率;根据所述标注信息中的真实类别信息与所述预测概率调整分类网络的网络参数后,获得用于对图像进行目标检测的目标检测模型。
9.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
10.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项所述方法的步骤。
技术总结