一种基于样例选择的增量目标识别方法与流程

专利2022-06-29  115


本发明属于目标识别
技术领域
,具体涉及一种基于样例选择的增量目标识别方法。
背景技术
:目标识别利用遥感传感器获取的图像信息实现目标种类、型号等属性的判定,在战场侦察、精确打击等军事领域有明确的应用需求。监督学习从已有的标记训练样本训练分类器,对未知样本目标类型进行判断,是目前目标识别领域的主流方法。监督学习的性能和训练样本的完备程度密切相关。随着训练数据的不断获取与丰富,目标样本的数量和类型也逐渐增加。增量式的目标识别方法仅使用新增数据对已有识别模型进行局部快速更新,避免了对已有数据和类别的重复存储和训练。然而,如果完全脱离已有训练样本,将会造成前期训练样本形成的识别能力的损失。解决这一问题的途径之一就是在数据增量过程中筛选部分关键样例,仅使用代表性示例代替全部的数据分布参与增量模型构建,可以保证更新效率与质量。近年来,在机器学习,计算机视觉领域,提出了很多用于增量式目标识别的样例选择的方法,主要分为两个方面:(1)基于已有模型输出的样例选择方法,对一些模型的输出指标进行计算评估可以选择关键样例,如分类概率自信度,决策熵,到分类面距离等;(2)基于数据分布的样例选择方法,建立一定的数据分布挑选规则来挑选样本,如随机选择,利用数据均值扩散选择,利用聚类结构选择等。现有的增量目标识别方法在模型训练过程中,样本数据的优选问题尚未得到足够重视,随着数据规模的逐渐扩大,开展增量目标识别中样例选择方法的研究,能够显著提高数据的有效利用率,实现数据增量过程中有效训练集的快速整合。当数据不断获取时,识别性能降低的根本原因是数据分布的变化。新增数据与之前的数据分布不同,造成更新后的模型拟合更偏向于新数据,已有训练数据对应的识别能力下降。基于模型输出的样例选择过于依赖当下数据分布对应的模型,无法从根本上选择到关键的数据分布。因此本文更关注基于数据分布的样例选择方法。类别增量是增量学习的典型场景,当已有类别训练完备时,新类别的加入会导致模型更偏向于新类的判决,已有类别和全局分类性能大幅下降。提取已有类别的关键分布信息,可以在数据增量过程中保留已有类别样本的识别能力,提升增量训练的计算和数据整合效率,解决大规模训练数据的高效利用问题。因此,研究优秀的类别关键样例提取方法,让目标识别系统在数据类别不断增加的过程中,不仅能够高效添加新的识别性能,也能够有效保护已有识别能力,是增量目标识别技术面向实用化的关键。技术实现要素:本发明的目的,就是针对上述存在的问题及不足,为了克服增量目标识别方法在学习新数据时,已有数据对应的识别性能下降的缺陷,使自动目标识别系统具备对已有训练样本关键分布的提取能力,提供了一种基于样例选择的增量目标识别方法。本发明由以下步骤实现,首先对于已有训练样本集,选择每个类别的边界样例(步骤1-7),在之后的类别逐渐增加过程中,当添加新类别的训练样本训练识别模型时,已有类别只使用选择的边界样例即可(步骤8)。详细步骤包括:步骤1、首先构建每个样本与类内其他样本的空间几何关系,对于一个训练样本xi,通过与类内其他样本距离的计算,得到它的类内最近邻的k个样本{xij,j=1,…,k}。此过程的训练样本x指的是已经完成特征提取的特征空间的训练样本而不是原始图像数据,距离的计算采用欧式距离计算方式。步骤2、为了评估训练样本xi在整个类别分布中的密度梯度方向,计算以xi为起点的最近邻的k个样本的方向向量{vij,j=1,…,k}:vij=xij-xi步骤3、训练样本xi处的梯度方向向量vi为其局部k个近邻样本方向向量的均值。计算方式如下:其中||·||代表向量的2范数。由附图1可以看出,梯度方向向量vi的垂直方向即为训练样本xi处的切平面向量方向,由训练样本xi的k个近邻样本的分布位置即可以判断xi是否为类别边界,若大多数近邻样本分布在切平面一侧即梯度方向向量vi同侧,则xi为类别边界样本。步骤4、计算训练样本xi的每一个近邻样本的方向向量与梯度方向向量vi的内积{θij,j=1,…,k},计算公式如下:θij=vitvij步骤5、如果近邻样本分布在切平面一侧即梯度方向向量vi同侧,则此内积值大于0。因此可以统计出训练样本xi的k个近邻样本分布在梯度方向向量vi同侧的比率li,计算公式如下:其中,i(·)函数的定义是,括号内的判断为正确则值为1,反之为0。步骤6、由上述比率li可以判断训练样本xi是否为边界样本。xi是为边界样本的条件如下:li≥1-γ其中,γ为人工设定的常量参数,取值范围为0~0.2。如,取γ值为0.1时,判断条件为90%的近邻样本都在在切平面一侧即梯度方向向量vi同侧。至此,基于局部几何信息的类别边界初步提取完毕,假设提取到的边界样本集合为{et,t=1,…,n},n为初步挑选的边界样本的数目。增量学习中需要控制已有类别样本的数量,而初步挑选的样本数量是不能直接控制的,而且数量很少,不足以使得边界完整。因此接下来的步骤采用羊群效应对已有边界样例集{et}进行拓展。步骤7、对于每一个边界样本et进行羊群效应的拓展,假设et作为羊头的m个羊群点的集合为{pm,m=1,...,m}。羊群点的选择范围为同类样本中的其他样本,迭代公式如下:其中,||·||代表向量的2范数。迭代规则为:每次选择一个类内的非羊头样本xi加入羊群点集合{pm}中,添加依据为,求羊群集合已有样本和每一个待选择样本{xi,xi≠et}的均值,然后用此均值样本和et计算距离,距离最小的xi为加入羊群,一直迭代到{pm}中包含m个样本。对已有边界样例集{et}中的其他样本重复执行步骤7,则得到的边界样本数量为(n×m)个。然而,(n×m)不是最终的边界样本数量。由于已有边界样例集{et}中的不同样本作为羊头在执行羊群效应时,可能会在他们的羊群中加入相同的训练样本,因此剔除重复的样本得到最终的k个样例的集合。在实际操作时,由于步骤7是一个迭代过程,因此对于羊群数量m并不做人工设定,仅设定最终样例数量k作为迭代终止条件,即,每迭代一次统计最终的样例数量,达到k则停止,没有达到则继续迭代。步骤8、对已有训练样本集的每个类别实施步骤1-7,假设类别数为c,选择出已有训练样本集的样例集,样例数目为(c×k),当新类别训练样本到来时,仅使用(c×k)个已有样例与新样本合并训练分类器,避免了对全部已有训练样本的重复计算和存储,完成已有类别和新类别待识别样本的分类识别。边界样本能够界定类别数据分布范围,其决策信息量远远大于内部样本。本发明根据局部几何分布定义,首先提取了类别的边界样本,然后基于增量学习的需求,引入羊群效应,来控制边界样本的数量并补全可能缺失的类别边界。作为样例选择方法可以有效提取训练样本中的关键数据分布,大幅提升训练的效率,用于类别增量学习可以有效保留已有类别的识别能力。本发明的有益效果为,较现有的增量自动目标识别方法,本发明具有了保留已有类别识别关键数据分布的能力,不仅能够高效添加新的识别性能,也能够有效保护已有识别能力。附图说明图1为本发明边界样本的局部几何定义;图2为mstar目标切片读取图像展示;(a)是bmp2装甲车,(b)是btr70装甲车,(c)是t72坦克;图3为在2维空间类别边界提取的可视化展示;(a)是样本100,边界33,(b)是样本233,边界71,(c)是类别3,样本698,边界215;图4为四种方法针对十类目标识别类别增量学习任务的识别率统计。具体实施方式下面以mstar十类目标图像识别任务为例,模拟实际增量学习应用对本发明做进一步说明。表1实验所用样本为mstar十类目标切片,切片为128×128的raw格式数据,训练样本为俯仰角为17度的目标,测试样本为俯仰角为15度的目标。表1为mstar十类目标分布。目标切片读取图像例见附图2。本发明是为了在类别增量过程中,学习新类别的同时,增量自动目标识别能够有效保留已有类别训练样本的识别能力。边界样本能够界定类别数据分布范围,其决策信息量远远大于内部样本。本文首先在二维的线性判别分析(lda)特征空间可视化了三个类别目标的17度训练数据分布及边界选择结果,如图3所示,随着样本数量增加和类别增加,边界提取效果良好,且提取率一直稳定在三分之一左右。随后本文设置了类别增量实验来验证方法在增量学习中的有效性。将训练样本分为初始类别和新增类别两部分,设置前三类为初始训练类别。后续七类逐个增加,增量学习过程中,新类别使用全部训练样本,已有类别仅使用边界样本。每个类别的提取率均保持在0.33左右,如表2所示。表2类别数345678910样本数698954125315511850214924482747提取数236329404501596688776888提取率0.340.340.320.320.320.320.310.32测试样本为训练类别对应15度的全部目标样本。设置特征为增量非负矩阵分解(inmf),分类器为增量分类器极值机(evm)。对比方法为,随机挑选,基于类别样本均值的羊群效应,基于支持向量机svm分类决策熵的样本挑选。由图4可以看出,提出的边界选择方法在类别增量过程中,分类准确率一直高于其他方法。当前第1页1 2 3 
技术特征:

1.一种基于样例选择的增量目标识别方法,其特征在于,包括以下步骤:

步骤1、对特征空间的一个训练样本xi,通过与类内其他样本距离的计算,得到它的类内最近邻的k个样本{xij,j=1,…,k};

步骤2、计算以xi为起点的最近邻的k个样本的方向向量{vij,j=1,…,k}:

vij=xij-xi

步骤3、计算训练样本xi处的梯度方向向量vi:

其中||·||代表向量的2范数;

步骤4、计算训练样本xi的每一个近邻样本的方向向量与梯度方向向量vi的内积{θij,j=1,…,k}:

θij=vitvij

步骤5、计算训练样本xi的k个近邻样本分布在切平面一侧,即梯度方向向量vi同侧的比率li:

其中,i(·)函数的定义是,括号内的判断为正确则值为1,反之为0;

步骤6、判断训练样本xi是否为边界样本,xi为边界样本的条件如下:

li≥1-γ

其中,γ为人工设定的常量参数,取值范围为0~0.2;

若xi是边界样本,则将其提取到边界样本集合{et,t=1,…,n}中,并进入步骤7,n为边界样本的数目;若xi不是边界样本,则不做选择,返回步骤1处理同类的下一个训练样本;

步骤7、对于每一个边界样本et进行羊群效应的拓展,假设et作为羊头的m个羊群点的集合为{pm,m=1,...,m},羊群点的选择范围为同类样本中的其他样本,迭代公式如下:

其中,||·||代表向量的2范数,迭代规则为:每次选择一个类内的非羊头样本xi加入羊群点集合{pm}中,添加依据为,求羊群集合已有样本和每一个待选择样本{xi,xi≠et}的均值,然后用此均值样本和et计算距离,距离最小的xi加入羊群,设定最终样例数量k作为迭代终止条件,每迭代一次统计最终的样例数量,剔除不同边界样本羊群中的重复样本以后,若总数量达到k则停止,没有达到则继续迭代,最终得到包含k个样例的边界样本集;

步骤8,对已有训练样本集的每个类别实施步骤1-7,假设类别数为c,选择出已有训练样本集的样例集,样例数目为(c×k),当新类别训练样本到来时,仅使用(c×k)个已有样例与新样本合并训练分类器,完成已有类别和新类别待识别样本的分类识别。

技术总结
本发明属于自动目标识别技术领域,具体涉及一种基于样例选择的增量目标识别方法。本发明提出了一种基于局部几何的类边界样本选择方法,并应用于雷达图像自动目标识别的类别增量学习场景中。提出方法能够在数据、类别增量过程中,不仅高效添加新的识别性能,也能够有效保护已有类别的识别能力,提升增量训练的计算和数据整合效率,解决大规模训练数据的高效利用问题。

技术研发人员:曹宗杰;党思航;崔宗勇;皮亦鸣;杨建宇
受保护的技术使用者:电子科技大学
技术研发日:2020.01.17
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-18124.html

最新回复(0)