本发明涉及通信辐射源个体识别领域,提出一种基于改进tsvm的半监督通信辐射源个体识别方法(animprovedtsvmiterativealgorithmbasedontheconfidenceofprediction,cp-tsvm)。
背景技术:
通信辐射源个体识别(specialemitteridentification,sei)是通过对各辐射源蕴含的独有的射频信号指纹进行提取,并且利用这些特征构造分类器从而对目标进行判别。为了充分提取出信号指纹特征,需要大量有标签的训练集,然而在实际场景下,标签的获取往往需要耗费大量的人力物力,导致难以获取到足额的有标签训练样本。如果训练样本不够多,将难以涵盖所有可能的指纹信息,识别性能必然会受到影响。由于无标签的样本获取较为容易,且与有标签的样本具有相同的指纹特征,如何利用这部分样本来提升识别性能,已成为通信辐射源个体识别领域的热点问题之一。半监督机器学习(semi-supervisedlearning,ssl)是一种自动地利用没有标签的样本来提升学习性能的方法,近年来在个体识别领域得到越来越广泛的使用。
半监督支持向量机(semi-supervisedsupportvectormachines,s3vm)是ssl中非常主流的一类分类器,其中最著名的是joachim于1999年提出的直推式支持向量机(transductivesupportvectormachine,tsvm),求解目标为寻找既能将有标记样本分开,又能穿过数据低密度区域的超平面。但是在实际运用中tsvm虽然解决了纯监督式svm应用于半监督场景带来的问题,但由于tsvm的搜索策略是基于局部组合搜索,由标签开关程序引导,因此迭代次数可能会非常多,导致运算复杂度高,训练时间长。
技术实现要素:
本发明要解决的技术问题是,针对tsvm在半监督通信辐射源个体识别中运算复杂度高、模型训练时间长,提供提出一种基于改进tsvm的半监督通信辐射源个体识别方法(cp-tsvm)。在通信辐射源个体识别中,当有标签的训练样本较少时,与经典的tsvm方法相比,在保证识别准确率的同时,还能大幅度减少分类器的运算量。
本发明在传统半监督支持向量机tsvm方法的基础上,利用训练样本中各类分布比例的先验信息,通过预置门限对上一次预测结果进行优化,利用优化后的标签重新训练分类器并再次进行预测,若两次的预测的标签结果一致,或者达到设置的迭代次数,则训练结束。在使用svm对所有样本的预测过程中,不仅能得到每个样本的预测标签值,根据该样本点到超平面的距离,还能得到该样本预测结果的置信度,距离超平面越远的样本属于该类别的可能性就越大,置信度就越高;距离超平面越近的样本误判的可能性就越大,置信度就越低。每经过一次预测,都利用置信度对结果进行重新划分。
本发明的技术方案是:
一种基于改进tsvm的半监督通信辐射源个体识别方法,包括如下步骤:
第①步:提取待识别辐射源个体的双谱特征,对信号进行双谱变换得到二维谱,采用矩形路径积分法将二维谱变为一维谱,每一条积分路径对应一个特征值;
第②步:采用主成分分析法对特征值进行降维处理,兼顾准确率和运算效率,选取合适的主成分维数,得到通信辐射源个体的特征向量;
第③步:使用l个有标签的样本进行有监督的svm训练,得到分类器svm0;
第④步:基于分类器svm0对所有样本进行预测,得到所有样本的标签label0;
第⑤步:将label0的置信度按照降序排列,高于式(1)的部分,标签判定为“ 1”,低于式(2)的部分,标签判定为“-1”,中间的部分若预测值大于0,则标签设为“ 1”,若预测值小于0,则标签设为“-1”,得到新的样本标签label1;
其中,l代表有标签样本的数目,u代表无标签样本的数目,α为两种标签样本的比例,θ为阈值调节因子,θ值的确定依赖于先验知识,若事先知道训练样本和测试样本中各辐射源个体分布比例相近,θ选取为较小值,若分布比例未知或者相差较大,则θ设置为较大值,以增加自主迭代学习的能力;
第⑥步:选取label1中的80%,label0中的20%进行组合得到新的样本标签temp_label1,使用temp_label1对样本空间重新进行训练和预测,得到样本标签temp_label2,对temp_label2按照第⑤步中的方法进行更新,得到标签label2;
第⑦步:如果label2与label1相等,输出label2为预测结果,若不相同,令c2=min{c1,2c2},c1和c2分别为有标签样本和无标签样本的惩罚因子,继续进行迭代,令i=i 1,直到labeli 1与labeli相等,或者达到所设置的最大迭代次数为止,最后一次迭代的标签即为cp-tsvm方法所预测的结果。
相比于现有技术,本发明的有益效果是,提供的基于改进tsvm的半监督通信辐射源个体识别方法,当有标签训练样本数目较少、待识别的无标签样本数目较多时,与经典的tsvm方法相比,在保证识别准确率的同时,还具有更低的运算复杂度。
附图说明
图1是通信辐射源信号双谱特征提取、降维和分类器构造主要步骤流程图;
图2是本发明提供的cp-tsvm方法流程框图;
图3是svm、tsvm和cp-tsvm三种方法下通信辐射源个体识别率随信噪比的变化曲线图;
图4是cp-tsvm和tsvm方法训练时间对比柱状图。
具体实施方式
下面结合图1、图2详细说明本发明提供的基于改进tsvm的半监督通信辐射源个体识别方法,包括如下步骤:
第①步:提取待识别辐射源个体的双谱特征,对信号进行双谱变换得到二维谱,采用矩形路径积分法将二维谱变为一维谱,每一条积分路径对应一个特征值;
第②步:采用主成分分析法对特征值进行降维处理,兼顾准确率和运算效率,选取合适的主成分维数,得到通信辐射源个体的特征向量;
第③步:使用l个有标签的样本进行有监督的svm训练,得到分类器svm0;
第④步:基于分类器svm0对所有样本进行预测,得到所有样本的标签label0;
第⑤步:将label0的置信度按照降序排列,高于式(1)的部分,标签判定为“ 1”,低于式(2)的部分,标签判定为“-1”,中间的部分若预测值大于0,则标签设为“ 1”,若预测值小于0,则标签设为“-1”,得到新的样本标签label1;
其中,l代表有标签样本的数目,u代表无标签样本的数目,α为两种标签样本的比例,θ为阈值调节因子,θ值的确定依赖于先验知识,若事先知道训练样本和测试样本中各辐射源个体分布比例相近,θ选取为较小值,若分布比例未知或者相差较大,则θ设置为较大值,以增加自主迭代学习的能力;
第⑥步:选取label1中的80%,label0中的20%进行组合得到新的样本标签temp_label1,使用temp_label1对样本空间重新进行训练和预测,得到样本标签temp_label2,对temp_label2按照第⑤步中的方法进行更新,得到标签label2;
第⑦步:如果label2与label1相等,输出label2为预测结果,若不相同,令c2=min{c1,2c2},c1和c2分别为有标签样本和无标签样本的惩罚因子,继续进行迭代,令i=i 1,直到labeli 1与labeli相等,或者达到所设置的最大迭代次数为止,最后一次迭代的标签即为cp-tsvm方法所预测的结果。
利用本发明和现有的svm、tsvm方法进行对比,验证cp-tsvm方法在有标签样本数量较小情况下的性能。每个辐射源个体采用20个样本作为有标签的训练样本,1000个样本作为测试样本,对比在不同的信噪比条件下,3种方法的识别正确率。结果如图3所示,横轴表示信噪比,纵轴表示个体识别正确率,可以发现cp-tsvm方法识别效果最好,tsvm其次,svm方法效果最差。两种半监督方法准确率都明显高于纯监督的svm方法,表明在有标签样本较少时,引入半监督机器学习方法确实能提升分类器的识别效果。本发明提供的cp-tsvm方法,在不同的信噪比下,较纯监督的svm方法,平均正确识别率提升约10%,较半监督tsvm方法,平均正确识别率提升约为3%,验证了cp-tsvm方法的有效性。
对比本发明提供的cp-tsvm方法与传统tsvm方法的运算复杂度,统计各信噪比下两种方法的运算时间,结果如图4所示。观察可知cp-tsvm方法在各信噪比下,平均所需要的运算时间约为70s,传统的tsvm方法平均所需时间约为150s,cp-tsvm方法较传统的tsvm方法节约了近一半的运算时间,表明本发明提供的cp-tsvm方法具有更好的运算效率。
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
1.一种基于改进tsvm的半监督通信辐射源个体识别方法,其特征在于,包括以下步骤:
第①步:提取待识别辐射源个体的双谱特征,对信号进行双谱变换得到二维谱,采用矩形路径积分法将二维谱变为一维谱,每一条积分路径对应一个特征值;
第②步:采用主成分分析法对特征值进行降维处理,兼顾准确率和运算效率,选取合适的主成分维数,得到通信辐射源个体的特征向量;
第③步:使用l个有标签的样本进行有监督的svm训练,得到分类器svm0;
第④步:基于分类器svm0对所有样本进行预测,得到所有样本的标签label0;
第⑤步:将label0的置信度按照降序排列,高于式(1)的部分,标签判定为“ 1”,低于式(2)的部分,标签判定为“-1”,中间的部分若预测值大于0,则标签设为“ 1”,若预测值小于0,则标签设为“-1”,得到新的样本标签label1;
其中,l代表有标签样本的数目,u代表无标签样本的数目,α为两种标签样本的比例,θ为阈值调节因子,θ值的确定依赖于先验知识,若事先知道训练样本和测试样本中各辐射源个体分布比例相近,θ选取为较小值,若分布比例未知或者相差较大,则θ设置为较大值,以增加自主迭代学习的能力;
第⑥步:选取label1中的80%,label0中的20%进行组合得到新的样本标签temp_label1,使用temp_label1对样本空间重新进行训练和预测,得到样本标签temp_label2,对temp_label2按照第⑤步中的方法进行更新,得到标签label2;
第⑦步:如果label2与label1相等,输出label2为预测结果,若不相同,令c2=min{c1,2c2},c1和c2分别为有标签样本和无标签样本的惩罚因子,继续进行迭代,令i=i 1,直到labeli 1与labeli相等,或者达到所设置的最大迭代次数为止,最后一次迭代的标签即为cp-tsvm方法所预测的结果。
技术总结