目标识别模型的训练方法和目标识别方法及相关装置与流程

专利2023-03-29  6



1.本技术涉及图像识别技术领域,特别是涉及一种目标识别模型的训练方法和目标识别方法及相关装置。


背景技术:

2.随着深度学习技术的快速发展,深度学习模型已经在越来越多领域得到广泛应用。在深度学习模型的训练过程中,鲁棒性是评价模型性能的重要指标之一。
3.目前,在对图像进行目标识别所采用的目标识别模型,在其训练过程中,通常采用基于softmax损失进行多分类的训练方式。然而,进行多分类的损失计算过程中,容易受到其他类别噪声的影响,有鉴于此,如何提高目标识别模型的鲁棒性成为亟待解决的问题。


技术实现要素:

4.本技术主要解决的技术问题是提供一种目标识别模型的训练方法和目标识别方法及相关装置,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
5.为了解决上述技术问题,本技术第一方面提供了一种目标识别模型的训练方法,包括:基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别,再基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;此外,基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失,在此基础上,基于第一损失,调整目标识别模型的网络参数。
6.为了解决上述技术问题,本技术第二方面提供了一种目标识别方法,包括:获取待识别图像和目标图像,基于目标识别模型分别提取待识别图像的待识别图像特征和目标图像的目标图像特征,且目标识别模型基于上述第一方面中的目标识别模型训练得到,再基于待识别图像特征和目标图像特征进行分析,确定待识别图像和目标图像是否为相同类别。
7.为了解决上述技术问题,本技术第三方面提供了一种目标识别模型的训练装置,包括提取模块、度量模块、确定模块和调整模块;其中,提取模块用于基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别;度量模块用于基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;确定模块用于基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失;调整模块用于基于第一损失,调整目标识别模型的网络参数。
8.为了解决上述技术问题,本技术第四方面提供了一种目标识别装置,包括获取模块、提取模块和确定模块;其中,获取模块用于获取待识别图像和目标图像;提取模块用于
基于目标识别模型分别提取待识别图像的待识别图像特征和目标图像的目标图像特征,且目标识别模型基于上述第三方面中的目标识别模型训练得到;确定模块用于基于待识别图像特征和目标图像特征进行分析,确定待识别图像和目标图像是否为相同类别。
9.为了解决上述技术问题,本技术第五方面提供了一种电子设备,包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行程序指令以实现上述第一方面中的目标识别模型的训练方法,或实现上述第二方面中的目标识别方法。
10.为了解决上述技术问题,本技术第六方面提供了一种计算机可读存储介质,存储有能够被处理器运行的程序指令,程序指令用于实现上述第一方面中的目标识别模型的训练方法,或实现上述第二方面中的目标识别方法。
11.上述方案,基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别,再基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;此外,基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失,在此基础上,基于第一损失,调整目标识别模型的网络参数,一方面通过目标识别模型的分类网络度量样本图像与各种样本类别的特征相似度和特征距离,得到样本图像与各种样本类别之间的差异,有助于提高获取到差异值的准确性,另一方面由于基于样本图像所属的样本类别、样本图像特征与各种样本类别的特征相似度和特征距离,尽可能地减少噪声影响,进一步提高模型训练过程中的有效性。故此,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
附图说明
12.图1是本技术目标识别模型的训练方法一实施例的流程示意图;
13.图2是参考特征和样本图像特征映射到三维球面一实施例的示意图;
14.图3是参考特征的相似特征范围一实施例的示意图;
15.图4是本技术目标识别模型的训练方法另一实施例的流程示意图;
16.图5是本技术目标识别方法一实施例的流程示意图;
17.图6是本技术目标识别模型的训练装置一实施例的框架示意图;
18.图7是本技术目标识别装置一实施例的框架示意图;
19.图8是本技术电子设备一实施例的框架示意图;
20.图9是本技术计算机可读存储介质一实施例的框架示意图。
具体实施方式
21.下面结合说明书附图,对本技术实施例的方案进行详细说明。
22.以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本技术。
23.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对
象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
24.请参阅图1,图1是本技术目标识别模型的训练方法一实施例的流程示意图。具体而言,可以包括如下步骤:
25.步骤s11:基于目标识别模型的特征提取网络,提取样本图像的样本图像特征。
26.本公开实施例中,样本图像标注有样本图像所属的样本类别,示例性地,若为动物样本图像,样本图像标注有具体的动物类别,例如:狮子、袋鼠等;若为人脸样本图像,样本图像标注有人脸所属人物的表征,例如:张三、0001等。样本图像可以根据实际情况进行选择,在此不做具体限定。
27.在一个实施场景中,特征提取网络可以是resnet系列网络,也可以是mobilenet系列网络,特征提取网络可以根据实际情况进行选择,在此不做具体限定。
28.步骤s12:基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离。
29.在一个实施场景中,在基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离之前,可以先基于预训练的目标识别模型,初始化分类网络。示例性地,人脸识别模型在经过分类训练之后,附带会产生分类网络,虽然该分类网络往往只适用于当前人脸识别模型,但可以将该分类网络用于目标识别模型的预训练中,由此初始化分类网络。当然,目标识别网络与已训练的人脸识别网络的网络结构可以相同,也可以不同,可以根据实际情况进行选择,在此不做具体限定。目标识别网络也可以是参数量更小的网络结构,进而可以使目标识别网络得以压缩,且目标识别模型每次迭代过程都会基于第一损失函数回传的梯度进行更新,进而达到快速收敛的目的。需要说明的是,分类网络的初始化可以影响目标识别模型的训练,同时还影响特征提取网络的表征能力。上述方式,通过初始化分类网络可以使分类网络在实际应用过程中有更好的泛化性能和更快的收敛速度,进而提高目标识别模型的训练速率,进一步提高目标识别模型的识别效果。
30.本公开实施例中,分类网络包含各种样本类别的参考特征,具体地,分类网络用矩阵表示,各种样本类别的参考特征就可以通过矩阵的每一列进行表征。需要说明的是,在调整网络参数过程中,参考特征也基于网络参数的调整进行更新。
31.在一个实施场景中,度量样本图像特征分别与各种样本类别的特征相似度,即是将样本图像特征经过分类网络得到与各种样本类别的特征相似度,具体而言,就是先将样本图像特征与分类网络的表征进行矩阵相乘,可以用如下公式表示:
32.xiw
t
+b=ti33.其中,xi表示第i张样本图像经过特征提取网络进行特征提取,得到的样本图像特征,w表示分类网络,且w∈r
kxd
,k表示样本图像的类别数,d表示样本图像特征的维度,b是k维的偏置向量,ti是k维的全连接层的输出,具体表示该图像在各个类别上的输出[t1,t2...tk]。
[0034]
在一个具体实施场景中,样本图像特征分别与各种样本类别的特征相似度可以通过全连接层的输出直接表示,当然,为了进一步比较不同样本类别之间的差异,还可以在全连接层之后添加sigmoid激活函数,sigmoid函数是一个s型函数,也称为s型生长曲线,由于其单增及反函数单增等性质,在接收到全连接的输出之后,可以将变量映射到[0,1]之间,
sigmoid函数可以表示为:
[0035][0036]
其中,ti表示全连接层的输出,pi表示sigmoid激活函数的输出,且pi值域在[0,1]之间。样本图像特征分别与各种样本类别的特征相似度的计算方式可以根据实际情况进行选择,在此不做具体限定。进一步地,在得到sigmoid激活函数的输出,可以表示为[p1,p2...pk],即表征样本图像特征分别与各种样本类别的特征相似度。
[0037]
在一个具体实施场景中,样本图像的类别可以根据目标识别模型的应用场景进行确定,示例性地,在进行人脸识别时,可以根据性别分类,样本图像的类别为男性、女性,则样本图像的类别数为2;也可以根据年龄分类,样本图像的类别为婴幼儿、少年、青年、中年和老年,则样本图像的类别数为5;还可以根据样本图像中包含的人脸数量进行确定,若样本图像中包括不同人脸数目为n,对应的样本图像的类别为0、1......n,则样本图像的类别数为n。样本图像的类别可以根据实际情况进行选择,在此不做具体限定。
[0038]
在一个实施场景中,度量样本图像特征分别与各种样本类别的特征距离,可以先获取各种样本类别的参考特征,各种样本类别的参考特征可以基于分类网络进行确定,再基于余弦距离进行计算,可以表示为:
[0039]
cos(θj)=xiw
jt
[0040]
其中,xi表示第i张样本图像经过特征提取网络进行特征提取,得到的样本图像特征,w表示分类网络,wj表示样本类别为第j类的参考特征。需要说明的是,其中xi与wj均做了归一化处理。最终得到计算结果[cos(θ1),cos(θ2)...cos(θ3)],即表征样本图像特征分别与各种样本类别的特征距离。
[0041]
在另一个实施场景中,为了进一步提高样本图像特征分别与各种样本类别的特征距离的准确度,需要说明的是,通过欧式距离计算特征之间的特征距离,可以使得输入样本特征与所属类别的特征之间的距离更加紧密。具体地,先获取样本图像特征分别与各种样本类别的参考特征之间的欧氏距离,可以表示为:
[0042]
l2=||x
i-wj||2[0043]
其中,xi表示第i张样本图像经过特征提取网络进行特征提取,得到的样本图像特征,wj表示样本类别为第j类的参考特征,l2表示样本图像特征分别与各种样本类别的参考特征之间的欧氏距离。需要说明的是,其中xi与wj均做了归一化处理。此外,由于目标识别模型的训练初期,数值具有随机性,向量中的离群点会导致l2距离较大,因此可以基于各种样本类别分别对应的欧氏距离进行数值映射,得到各种样本类别分别对应的特征距离,数值映射公式可以表示为:
[0044]
sj=log(1+||x
i-wj||2)
[0045]
其中,xi表示第i张样本图像经过特征提取网络进行特征提取,得到的样本图像特征,wj表示样本类别为第j类的参考特征,||x
i-wj||2表示x
i-wj的范数。需要说明的是,xi与wj均做了归一化处理,sj值域范围在[0,+∞]之间。最终得到数值映射结果[s1,s2...sk],即表征样本图像特征分别与各种样本类别的特征距离。上述方式,通过获取样本图像特征分别与各种样本类别的参考特征之间的欧氏距离,可以减少目标识别模型在训练初期数值随机性产生的误差,再基于样本类别对应的欧氏距离进行映射,有助于提高特征距离结果的准
确性,进而在提高目标识别模型训练效果的基础上,提高模型的鲁棒性。
[0046]
步骤s13:基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失。
[0047]
在一个实施场景中,第一损失是通过二元分类损失函数计算得到。需要说明的是,在目标识别网络进行训练过程中,使用softmax进行多分类的损失计算,容易受到其他类别噪声的影响,且计算过程中成本较高。在大规模数据集上并行训练时,由于参考特征会分配到不同的gpu显卡上,梯度计算和损失计算需要其他类比的计算结果,进而会造成卡间通信开销大,延长并行训练的时间。相较于多分类softmax损失函数,使用二元分类损失函数在计算损失时,不需要获得其他卡上的分类输出,有助于减少卡间通信,进一步降低通信成本。
[0048]
在一个实施场景中,第一损失可以包含各样本类别分别对应的子损失,各样本图像所属的样本类别对应的子损失可以基于相同的度量方式得到,基于相同的度量方式得到子损失可以减轻第一损失计算过程中的复杂度,进而提高计算速率。
[0049]
在另一个实施场景中,为了进一步提高第一损失的准确性,可以使第一损失包含各样本类别分别对应的子损失,且样本图像所属的样本类别对应的子损失、样本图像无关的样本类别对应的子损失分别基于不同方式度量得到。此外,样本类别对应的子损失可以由样本类别的第二损失和样本类别的损失权重相乘得到。上述方式,通过同方式度量得到样本图像所属的样本类别对应的子损失、样本图像无关的样本类别对应的子损失,进而提高第一损失的准确性,进一步提高模型的鲁棒性。
[0050]
在一个具体的实施场景中,样本图像所属的样本类别的第二损失、样本图像无关的样本类别的第二损失,可以基于相同方式度量得到,基于相同度量方式可以降低第二损失的计算量。此外,为了提高第二损失的准确性,可以使样本图像所属的样本类别的第二损失、样本图像无关的样本类别的第二损失,基于不同方式度量得到,由此使第二损失的准确性更高,进而提高目标识别模型训练效果。
[0051]
在一个具体的实施场景中,样本图像所属的样本类别的损失权重、样本图像无关的样本类别的损失权重,基于不同方式度量得到,在此过程中,可以基于类别数度量得到样本图像所属的样本类别的损失权重,进而得到样本图像无关的样本类别的损失权重;当然,也可以先得到样本图像无关的样本类别的损失权重,在此基础上,再得到样本图像所属的样本类别的损失权重。损失权重的获取方式可以根据实际情况进行选择,在此不做具体限定。
[0052]
在一个实施场景中,可以基于样本图像特征与各样本类别的特征相似度,直接得到各种样本类别的第二损失,示例性地,特征相似度为激活函数的输出。在目标识别模型进行训练的过程中,可以将训练目标表示为二分类问题,因此可以对全连接层的输出构建k个二元分类,表示方式如下:
[0053]
l=-[y
·
log(pi)+(1-y)
·
log(1-pi)]
[0054]
其中,pi表示各样本类别的特征相似度,即表示该样本类别的sigmoid激活函数的输出,log(pi)表示样本图像所属的样本类别对应的子损失,y是指示函数,样本图像所属的样本类别与当前样本类别相同,对应的样本类别为1,样本图像所属的样本类别与当前样本类别不同,对应的样本类别为0,log(1-pi)表示样本图像无关的样本类别对应的子损失。具
体地,样本图像所属的样本类别与当前样本类别相同,y=1,则样本图像所属的样本类别对应的子损失表示为:
[0055][0056]
其中,lj表示样本类别为第j类的样本图像所属的样本类别对应的子损失,log(pi)表示样本图像所属的样本类别对应的子损失,by是偏置向量。此外,样本图像所属的样本类别与当前样本类别不同,y=0,则样本图像无关的样本类别对应的子损失表示为:
[0057][0058]
其中,li表示样本类别为第i类的样本图像所属的样本类别对应的子损失,log(pi)表示样本图像所属的样本类别对应的子损失,bi是偏置向量。此外,由于在k个样本类别中,样本图像所属的样本类别与当前样本类别相同仅有一次,而样本图像所属的样本类别与当前样本类别不同有k-1次,k个类别的子损失相加得到的第二损失可以表示为:
[0059]
ls=log(1+exp(-w
jt
x-by))+∑
i≠y log(1+exp(w
it
x+bi))
[0060]
其中,ls表示k个类别的第二损失,log(1+exp(-w
jt
x-by))表示样本图像所属的样本类别对应第二损失,∑
i≠y log(1+exp(w
it
x+bi))表示样本图像无关的k-1个样本类别的第二损失之和,log(1+exp(w
it
x+bi))表示是样本图像无关的第i个样本类别的第二损失。由于在目标识别过程中,会将分类网络进行归一化到超球面上,并将偏置项置0,最终第二损失表示如下:
[0061]
ls=log(1+exp(-cos(θy)))+∑
i≠y log(1+exp(cos(θi)))
[0062]
其中cos(θi)表示参考特征与样本图像特征xi之间余弦值。log(1+exp(-cos(θy)))是样本图像所属样本类别的第二损失,∑
i≠y log(1+exp(cos(θi)))是样本图像无关的k-1个样本类别的第二损失之和,log(1+exp(cos(θi)))是样本图像无关的第i个样本类别的第二损失。由此,得到各种样本类别的第二损失。
[0063]
需要说明的是,由于目标识别不同于普通的分类任务,目标识别过程中不同类别之间存在很多相似的样本图像,因此相似的样本图在训练过程中会造成极大的干扰。请参阅图2,图2是参考特征和样本图像特征映射到三维球面一实施例的示意图,在一个球体上,x1和x2两个样本图像特征与参考特征w之间的余弦值确定时,相似特征向量是不确定的,相似特征向量的范围可以绕球体一周。具体地,请参阅图3,图3是参考特征的相似特征范围一实施例的示意图,如图3所示,在三维的球面上,假设固定参考特征w,则与参考特征w相同余弦距离的两个样本图像特征的相似度变化范围依然很大,为此可以加入特征距离,进而在一定条件时,相似特征向量变化范围在预设误差之内。
[0064]
在另一个实施场景中,可以基于样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到各种样本类别的第二损失,示例性地,特征相似度为激活函数的输出,特征距离是基于各种样本类别分别对应的欧氏距离进行数值映射,进而得到各种样本类别分别对应的特征距离,可以将训练目标表示为二分类问题,因此可以对全连接层的输出构建k个二元分类,表示方式如下:
[0065]
l=-[y
·
log(pi)+(1-y)
·
log(1-pi)]
[0066]
其中,pi表示各样本类别的特征相似度,即表示该样本类别的sigmoid激活函数的输出,log(pi)表示样本图像所属的样本类别对应的子损失,y是指示函数,样本图像所属的
样本类别与当前样本类别相同,对应的样本类别为1,样本图像所属的样本类别与当前样本类别不同,对应的样本类别为0,log(1-pi)表示样本图像无关的样本类别对应的子损失。具体地,样本图像所属的样本类别与当前样本类别相同,y=1,则样本图像所属的样本类别对应的子损失表示为:
[0067][0068]
其中,log(1+exp(-w
jt
x-b))是样本图像所属的样本类别对应的子损失。由于在k个样本类别中,样本图像所属的样本类别与当前样本类别相同仅有一次,在添加特征距离,并将分类网络进行归一化到超球面上,并将偏置项置0,最终表示如下:
[0069]
l1=log(1+exp(-cos(θy)+sy))
[0070]
其中,cos(θy)表示参考特征与样本图像特征xi之间余弦值,sy表示样本图像所属的样本类别与当前样本类别之间的特征距离,log(1+exp(-cos(θy)+sy))是样本图像所属样本类别的第二损失。在样本图像所属的样本类别与当前样本类别不同,y=0,则样本图像无关的样本类别对应的子损失表示为:
[0071][0072]
其中,log(1+exp(w
it
x+bi))表示样本图像无关的样本类别对应的子损失。由于在k个样本类别中,样本图像所属的样本类别与当前样本类别不同有k-1次,在添加特征距离,并将分类网络进行归一化到超球面上,并将偏置项置0,最终表示如下:
[0073]
l2=log(1+exp(cos(θi)-si))
[0074]
其中,cos(θi)表示参考特征与样本图像特征xi之间余弦值,si表示样本图像所属的样本类别与当前样本类别之间的特征距离,log(1+exp(cos(θi)-si))是样本图像无关的第i个样本类别的第二损失。则k个类别的子损失相加,并将分类网络进行归一化到超球面上,最终得到第二损失表示如下:
[0075]
ls=log(1+exp(-cos(θy)+sy))+∑
i≠y log(1+exp(cos(θi)-si))
[0076]
其中,ls表示样本图像所属的样本类别对应的子损失和样本图像无关的样本类别对应的子损失之和,即l1和l2之和。log(1+exp(-cos(θy)+sy))是样本图像所属样本类别的第二损失,∑
i≠y log(1+exp(cos(θi)-si))是样本图像无关的k-1个样本类别的第二损失之和,log(1+exp(cos(θi)-si))是样本图像无关的第i个样本类别的第二损失。需要说明的是,在目标识别模型进行训练的过程中,基于不同类别以及不同样本图像特征计算出不同的特征距离,分类层中特征向量也在不带更新,且参考特征和样本图像特征在每次迭代后都会进行参数更新,因此,特征距离也是随着训练周期动态更新的。
[0077]
在一个实施场景中,在得到各种样本类别的第二损失之后,可以基于第二损失与样本图像所属的样本类别,得到第一损失。可以基于样本图像所属的样本类别,得到各种样本类别对应的损失权重,且样本图像所属的样本类别的损失权重,与各种样本类别的总数量正相关,样本图像无关的样本类别的损失权重,与各种样本类别的总数量负相关;基于所述各种样本类别对应的损失权重,分别对所述各种样本类别的第二损失进行加权,得到所述第一损失,第一损失表示如下:
[0078]
l=αlog(1+exp(-cos(θy)+sy))
[0079]
+(1-α)∑
i≠y log(1+exp(cos(θi)-si))
[0080]
其中,k是样本类别数。α是样本图像所属样本类别的损失权重,log(1+exp(-cos(θy)+sy))是样本图像所属样本类别的第二损失,1-α是样本图像无关的样本类别的损失权重,∑
i≠y log(1+exp(cos(θi)-si))是样本图像无关的k-1个样本类别的第二损失之和,log(1+exp(cos(θi)-si))是样本图像无关的第i个样本类别的第二损失。需要说明的是,对于样本图像所属的样本类别,第二损失与特征相似度正相关,第二损失与特征距离正相关;和/或,对于样本图像无关的样本类别,第二损失与特征相似度负相关,第二损失与特征距离负相关。上述方式,通过分别对各种样本类别的第二损失进行加权,有助于均衡正负样本,进而均衡损失函数中的梯度。
[0081]
步骤s14:基于第一损失,调整目标识别模型的网络参数。
[0082]
在一个实施场景中,在第一损失的反馈下,不断学习和更新目标识别模型的网络参数,进而提高目标识别模型的鲁棒性。参数调整的具体过程,可以参阅诸如梯度下降等优化方式的技术细节,在此不再赘述。
[0083]
请参阅图4,图4是本技术目标识别模型的训练方法另一实施例的流程示意图,如图4所示,可以基于预训练的目标识别模型,初始化分类网络,进而使分类网络在实际应用过程中有更好的泛化性能和更快的收敛速度。样本图像经过特征提取网络进行特征提取,得到样本图像特征,然后经过分类网络,得到第一损失,再基于第一损失,调整目标识别模型的网络参数,有助于提高模型训练过程中的有效性,进而提高模型的鲁棒性。上述方式,通过对二元分类损失进行特征距离的分配,进而使目标识别模型在难易样本、分布不均的样本中也可表现的很好。
[0084]
上述方案,基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别,再基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;此外,基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失,在此基础上,基于第一损失,调整目标识别模型的网络参数,一方面通过目标识别模型的分类网络度量样本图像与各种样本类别的特征相似度和特征距离,得到样本图像与各种样本类别之间的差异,有助于提高获取到差异值的准确性,另一方面由于基于样本图像所属的样本类别、样本图像特征与各种样本类别的特征相似度和特征距离,尽可能地减少噪声影响,进一步提高模型训练过程中的有效性。故此,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
[0085]
请参阅图5,图5是本技术目标识别方法一实施例的流程示意图。
[0086]
具体而言,可以包括如下步骤:
[0087]
步骤s51:获取待识别图像和目标图像。
[0088]
在一个实施场景中,待识别图像和目标图像所属的样本类别相同,示例性地,待识别图像为动物图像时,目标图像也为动物图像;待识别图像为人脸图像时,目标图像也为人脸图像。待识别图像可以根据实际情况进行确定,目标图像根据待识别图像进行确定,在此不做具体限定。
[0089]
步骤s52:基于目标识别模型分别提取待识别图像的待识别图像特征和目标图像
的目标图像特征;且目标识别模型基于前述任一实施例的目标识别模型训练得到。
[0090]
在一个实施场景中,基于目标识别模型的特征提取网络,分别提取得到待识别图像特征和目标图像特征。需要说明的是,目标识别模型基于前述任一公开实施例的目标识别模型训练得到。
[0091]
步骤s53:基于待识别图像特征和目标图像特征进行分析,确定待识别图像和目标图像是否为相同类别。
[0092]
在一个实施场景中,可以获取待识别图像特征和目标图像特征之间的特征距离,特征距离可以通过计算余弦距离得到,还可以通过计算欧式距离得到,特征距离的计算方式可以根据实际情况进行选择,在此不做具体限定。在得到特征距离之后,可以判断特征距离是否小于预设阈值,若判断结果为特征距离小于预设阈值时,确定待识别图像和目标图像为相同类别,否则,确定待识别图像和目标图像为不同类别。预设阈值可以基于样本图像计算得到,示例性地,可以计算样本类别相同时两张样本图像的样本图像特征之间的距离,将计算结果确定为预设阈值;也可以计算样本类别相同时多张样本图像的样本图像特征之间的距离,将计算结果取得平均值确定为预设阈值。预设阈值的确定方式可以根据实际情况进行选择,在此不做具体限定。
[0093]
上述方案,通过获取待识别图像和目标图像,再基于目标识别模型分别提取待识别图像的待识别图像特征和目标图像的目标图像特征;在此基础上,基于待识别图像特征和目标图像特征进行分析,确定待识别图像和目标图像是否为相同类别,通过进行训练后的目标识别模型对待识别图像和目标图像进行处理,有助于提高识别效果,再对识别得到的待识别图像特征和目标图像特征进行分析,最终确定识别结果,进一步提高目标识别方法的准确率、准确性以及模型的训练效率。
[0094]
请参阅图6,图6是本技术目标识别模型训练装置一实施例的框架示意图。目标识别模型训练装置60包括提取模块61、度量模块62、确定模块63和调整模块64。其中,提取模块61用于基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别;度量模块62用于基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;确定模块63用于基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失;调整模块64用于基于第一损失,调整目标识别模型的网络参数。
[0095]
上述方案,一方面通过目标识别模型的分类网络度量样本图像与各种样本类别的特征相似度和特征距离,得到样本图像与各种样本类别之间的差异,有助于提高获取到差异值的准确性,另一方面由于基于样本图像所属的样本类别、样本图像特征与各种样本类别的特征相似度和特征距离,尽可能地减少噪声影响,进一步提高模型训练过程中的有效性。故此,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
[0096]
在一些公开实施例中,第一损失包含各样本类别分别对应的子损失,且样本图像所属的样本类别对应的子损失、样本图像无关的样本类别对应的子损失分别基于不同方式度量得到。
[0097]
因此,通过同方式度量得到样本图像所属的样本类别对应的子损失、样本图像无
关的样本类别对应的子损失,进而提高第一损失的准确性,进一步提高模型的鲁棒性。
[0098]
在一些公开实施例中,调整模块64包括计算子模块,计算子模块用于基于样本图像特征与各样本类别的特征相似度和特征距离,得到各种样本类别的第二损失;调整模块64还包括确定子模块,确定子模块用于基于第二损失与样本图像所属的样本类别,得到第一损失。
[0099]
因此,通过各类样本类别的第二损失,确定第一损失,有助于提高第一损失的准确性。
[0100]
在一些公开实施例中,对于样本图像所属的样本类别,第二损失与特征相似度正相关,第二损失与特征距离正相关;或者,对于样本图像无关的样本类别,第二损失与特征相似度负相关,第二损失与特征距离负相关。
[0101]
在一些公开实施例中,确定子模块包括计算单元,计算单元用于基于样本图像所属的样本类别,得到各种样本类别对应的损失权重;且样本图像所属的样本类别的损失权重,与各种样本类别的总数量正相关,样本图像无关的样本类别的损失权重,与各种样本类别的总数量负相关。确定子模块还包括确定单元,确定单元用于基于各种样本类别对应的损失权重,分别对各种样本类别的第二损失进行加权,得到第一损失。
[0102]
因此,通过分别对各种样本类别的第二损失进行加权,有助于均衡正负样本,进而均衡损失函数中的梯度。
[0103]
在一些公开实施例中,度量模块62包括获取子模块,获取子模块用于获取样本图像特征分别与各种样本类别的参考特征之间的欧氏距离;度量模块62还包括映射子模块,映射子模块用于基于各种样本类别分别对应的欧氏距离进行数值映射,得到各种样本类别分别对应的特征距离。
[0104]
因此,通过获取样本图像特征分别与各种样本类别的参考特征之间的欧氏距离,可以减少目标识别模型在训练初期数值随机性产生的误差,再基于样本类别对应的欧氏距离进行映射,有助于提高特征距离结果的准确性,进而在提高目标识别模型训练效果的基础上,提高模型的鲁棒性。
[0105]
在一些公开实施例中,目标识别模型训练装置60还包括预训练模块,预训练模块用于基于预训练的目标识别模型,初始化分类网络。
[0106]
因此,通过初始化分类网络可以使分类网络在实际应用过程中有更好的泛化性能和更快的收敛速度,进而提高目标识别模型的训练速率,进一步提高目标识别模型的识别效果。
[0107]
请参阅图7,图7是本技术目标识别装置一实施例的框架示意图。目标识别装置70包括获取模块71、提取模块72和确定模块73。其中,获取模块71用于获取待识别图像和目标图像;提取模块72用于基于目标识别模型分别提取待识别图像的待识别图像特征和目标图像的目标图像特征,且目标识别模型基于上述任一公开实施例的目标识别模型训练得到;确定模块73用于基于待识别图像特征和目标图像特征进行分析,确定待识别图像和目标图像是否为相同类别。
[0108]
上述方案,通过进行训练后的目标识别模型对待识别图像和目标图像进行处理,有助于提高识别效果,再对识别得到的待识别图像特征和目标图像特征进行分析,最终确定识别结果,进一步提高目标识别方法的准确率、准确性以及模型的训练效率。
[0109]
请参阅图8,图8是本技术电子设备一实施例的框架示意图。电子设备80包括相互耦接的存储器81和处理器82,存储器81中存储有程序指令,处理器82用于执行程序指令以实现上述任一目标识别模型训练方法实施例中的步骤,或实现上述任一目标识别方法实施例中的步骤。具体地,电子设备80可以包括但不限于:台式计算机、笔记本电脑、服务器、手机、平板电脑等等,在此不做限定。
[0110]
具体而言,处理器82用于控制其自身以及存储器81以实现上述任一目标识别模型训练方法实施例中的步骤,或实现上述任一目标识别方法实施例中的步骤。处理器82还可以称为cpu(central processing unit,中央处理单元)。处理器82可能是一种集成电路芯片,具有信号的处理能力。处理器82还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器82可以由集成电路芯片共同实现。
[0111]
上述方案,一方面通过目标识别模型的分类网络度量样本图像与各种样本类别的特征相似度和特征距离,得到样本图像与各种样本类别之间的差异,有助于提高获取到差异值的准确性,另一方面由于基于样本图像所属的样本类别、样本图像特征与各种样本类别的特征相似度和特征距离,尽可能地减少噪声影响,进一步提高模型训练过程中的有效性。故此,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
[0112]
请参阅图9,图9是本技术计算机可读存储介质一实施例的框架示意图。计算机可读存储介质90存储有能够被处理器运行的程序指令91,程序指令91用于实现上述任一目标识别模型训练方法实施例中的步骤,或实现上述任一目标识别方法实施例中的步骤。
[0113]
上述方案,一方面通过目标识别模型的分类网络度量样本图像与各种样本类别的特征相似度和特征距离,得到样本图像与各种样本类别之间的差异,有助于提高获取到差异值的准确性,另一方面由于基于样本图像所属的样本类别、样本图像特征与各种样本类别的特征相似度和特征距离,尽可能地减少噪声影响,进一步提高模型训练过程中的有效性。故此,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。
[0114]
在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。
[0115]
上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。
[0116]
在本技术所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。
[0117]
作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0118]
另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0119]
集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0120]
若本技术技术方案涉及个人信息,应用本技术技术方案的产品在处理个人信息前,已明确告知个人信息处理规则,并取得个人自主同意。若本技术技术方案涉及敏感个人信息,应用本技术技术方案的产品在处理敏感个人信息前,已取得个人单独同意,并且同时满足“明示同意”的要求。例如,在摄像头等个人信息采集装置处,设置明确显著的标识告知已进入个人信息采集范围,将会对个人信息进行采集,若个人自愿进入采集范围即视为同意对其个人信息进行采集;或者在个人信息处理的装置上,利用明显的标识/信息告知个人信息处理规则的情况下,通过弹窗信息或请个人自行上传其个人信息等方式获得个人授权;其中,个人信息处理规则可包括个人信息处理者、个人信息处理目的、处理方式以及处理的个人信息种类等信息。

技术特征:
1.一种目标识别模型的训练方法,其特征在于,包括:基于目标识别模型的特征提取网络,提取样本图像的样本图像特征;其中,所述样本图像标注有所述样本图像所属的样本类别;基于所述目标识别模型的分类网络,度量所述样本图像特征分别与各种样本类别的特征相似度,并度量所述样本图像特征分别与所述各种样本类别的特征距离;其中,所述分类网络包含所述各种样本类别的参考特征;基于所述样本图像所属的样本类别和二元损失函数,对所述样本图像特征与所述各种样本类别的特征相似度和特征距离进行损失度量,得到第一损失;基于所述第一损失,调整所述目标识别模型的网络参数。2.根据权利要求1所述的方法,其特征在于,所述第一损失包含所述各种样本类别分别对应的子损失,且所述样本图像所属的样本类别对应的子损失、所述样本图像无关的样本类别对应的子损失分别基于不同方式度量得到。3.根据权利要求1或2所述的方法,其特征在于,所述基于所述样本图像所属的样本类别和二元损失函数,对所述样本图像特征与所述各种样本类别的特征相似度和特征距离进行损失度量,得到第一损失,包括:基于所述样本图像特征与所述各样本类别的特征相似度和特征距离,得到所述各种样本类别的第二损失;基于所述第二损失与所述样本图像所属的样本类别,得到所述第一损失。4.根据权利要求3所述的方法,其特征在于,对于所述样本图像所属的样本类别,所述第二损失与所述特征相似度正相关,所述第二损失与所述特征距离正相关;和/或,对于所述样本图像无关的样本类别,所述第二损失与所述特征相似度负相关,所述第二损失与所述特征距离负相关。5.根据权利要求3所述的方法,其特征在于,所述基于所述第二损失与所述样本图像所属的样本类别,得到所述第一损失,包括:基于所述样本图像所属的样本类别,得到所述各种样本类别对应的损失权重;其中,所述样本图像所属的样本类别的损失权重,与所述各种样本类别的总数量正相关,所述样本图像无关的样本类别的损失权重,与所述各种样本类别的总数量负相关;基于所述各种样本类别对应的损失权重,分别对所述各种样本类别的第二损失进行加权,得到所述第一损失。6.根据权利要求1所述的方法,其特征在于,所述度量所述样本图像特征分别与所述各种样本类别的特征距离,包括:获取所述样本图像特征分别与所述各种样本类别的参考特征之间的欧氏距离;基于所述各种样本类别分别对应的欧氏距离进行数值映射,得到所述各种样本类别分别对应的特征距离。7.根据权利要求1所述的方法,其特征在于,在所述基于所述目标识别模型的分类网络,度量所述样本图像特征分别与各种样本类别的特征相似度,并度量所述样本图像特征分别与所述各种样本类别的特征距离之前,所述方法还包括:基于预训练的目标识别模型,初始化所述分类网络。8.一种目标识别方法,其特征在于,包括:
获取待识别图像和目标图像;基于目标识别模型分别提取所述待识别图像的待识别图像特征和所述目标图像的目标图像特征;其中,所述目标识别模型基于权利要求1至7任一项所述的目标识别模型训练得到;基于所述待识别图像特征和所述目标图像特征进行分析,确定所述待识别图像和所述目标图像是否为相同类别。9.一种目标识别模型的训练装置,其特征在于,包括:提取模块,用于基于目标识别模型的特征提取网络,提取样本图像的样本图像特征;其中,所述样本图像标注有所述样本图像所属的样本类别;度量模块,用于基于所述目标识别模型的分类网络,度量所述样本图像特征分别与各种样本类别的特征相似度,并度量所述样本图像特征分别与所述各种样本类别的特征距离;其中,所述分类网络包含所述各种样本类别的参考特征;确定模块,用于基于所述样本图像所属的样本类别和二元损失函数,对所述样本图像特征与所述各样本类别的特征相似度和特征距离进行损失度量,得到第一损失;调整模块,用于基于所述第一损失,调整所述目标识别模型的网络参数。10.一种目标识别装置,其特征在于,包括:获取模块,用于获取待识别图像和目标图像;提取模块,用于基于目标识别模型分别提取所述待识别图像的待识别图像特征和所述目标图像的目标图像特征;其中,所述目标识别模型基于权利要求9所述的目标识别模型训练得到;确定模块,用于基于所述待识别图像特征和所述目标图像特征进行分析,确定所述待识别图像和所述目标图像是否为相同类别。11.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,所述存储器中存储有程序指令,所述处理器用于执行所述程序指令以实现权利要求1至7任一项所述的目标识别模型的训练方法,或实现权利要求8所述的目标识别方法。12.一种计算机可读存储介质,其特征在于,存储有能够被处理器运行的程序指令,所述程序指令用于实现权利要求1至7任一项所述的目标识别模型的训练方法,或实现权利要求8所述的目标识别方法。

技术总结
本申请公开了一种目标识别模型的训练方法和目标识别方法及相关装置,其中,目标识别模型的训练方法包括:基于目标识别模型的特征提取网络,提取样本图像的样本图像特征,且样本图像标注有样本图像所属的样本类别,再基于目标识别模型的分类网络,度量样本图像特征分别与各种样本类别的特征相似度,并度量样本图像特征分别与各种样本类别的特征距离,且分类网络包含各种样本类别的参考特征;并基于样本图像所属的样本类别和二元损失函数,对样本图像特征与各样本类别的特征相似度和特征距离进行损失度量,得到第一损失,并基于第一损失,调整目标识别模型的网络参数。上述方案,能够提高目标识别模型的鲁棒性、准确性以及模型的训练效率。训练效率。训练效率。


技术研发人员:王文安 朱树磊 殷俊
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2022.07.18
技术公布日:2022/12/5
转载请注明原文地址: https://bbs.8miu.com/read-315541.html

最新回复(0)