本发明涉及一种预定义训练对象的分类方法,特别是涉及一种结合主动学习的面向对象分类方法。
背景技术:
近年来,面向对象的影像分析技术(object-basedimageanalysis,obia)在vhr(veryhighresolution)影像采样分类领域已经逐渐形成一种新的范例和方法,它将vhr影像中具有相同语义信息的像素组合成为一个个有意义的地理对象,并通过选择最能代表对象类别的特征建立相应的映射,从而实现对于这些地理对象的分类。但由于obia分割技术的限制,使得地理对象往往不能包含只属于一个土地类型的像素,从而出现过分割和欠分割(under-segmentation)现象。这种混合对象的产生直接导致了一系列难以解决的问题,虽然已经有很多专门针对obia分割的研究,并都取得一定的研究成果,特别是多尺度分割算法,已经被广泛的接受并应用,然而混合对象依然没有得到很好的解决,这是obia中的亟需解决难题。同时,到目前为止也始终没有一个指标能够对混合对象的混合程度进行很好的评估,这使得在对混合对象分类时,产生了许多的不确定性。
但即使如此,obia在高分辨率影像信息提取的精度一般更加优于基于像素的方法,并且obia容易与gis技术相结合,为gis分析提供较为完整的土地利用类型图,这也使得obia成为土地覆盖和土地利用分类领域比较流行的方法之一,并受到大量学者的广泛关注。在早先的研究中,大量的分类算法被用于去提高对象的分类精度,尤其监督分类的算法已经被大量的研究并记录在obia框架中,其中包括:randomforest(rf)、k-nearestneighbor(knn)、supportvectormachines(svm)、decisiontree(dt)、naivebayes、neuralnetwork等。尽管这些监督分类的算法在特定的研究或者应用中都展现出良好的性能,但对于任何一个监督分类的算法而言,其分类精度的大幅度波动和训练样本的质量往往难以控制。因此如果能从成千上万个样本中挑选出最能代表像元或者对象的训练样本集,就能帮助分类器找到正确的分类方式,从而提高分类的效果。然而在早先的大量研究中,训练样本采样策略的研究却没有得到很好的重视,特别在obia中,由于分割对象的不确定性,直接导致obia在采样过程中存在很大难度,因此有必要为obia专门设计一种采样策略,从而提高后续监督分类的分类精度和稳定性。
在机器学习中,采样的问题可以通过主动学习技术进行解决。主动学习作为构造有效训练集的方法,其目标是通过迭代抽样,寻找有利于提升分类效果的样本,进而减少分类训练集的大小,并在有限的时间和资源的前提下,提高分类算法的效率。目前,常用的主动学习算法有三种形式:(1)基于委员会的启发式方法;(2)基于边缘的启发式方法;(3)基于后验概率的启发式方法。在基于像素的遥感影像分类领域中,mitraetal.(2004)在ms方法的基础上,提出一种类似于面向对象分类的svmms方法,并将其成功应用到irs-1a遥感卫星的多光谱影像中;rajanetal.(2008)在royandmccallum.(2001)研究的基础上,提出一种使用最大似然分类器的概率方法,并在nasaairbornevisible/infrared成像光谱仪和hyperion影像上表现出优异的性能;tuiaetal.(2009)为了提高主动学习算法的适应性和性能,对ms(schohnandcohn,2000)和query-by-bagging(abeandmamitsuka,1998)方法进行了改进,提出msbyclosestsupportvector(ms-csv)和entropyquery-by-bagging(eqb)方法,并在3个区域的vhr影像上得到了良好的分类精度;tuiaetal.(2011)使用svm和lda作为分类模型,对多种主动学习方法进行了评估,并对主动学习模型的选择提出了系统性的建议。samatetal.(2016)基于ppi(pixelpurityindex)和主动学习,评估了混合像元对主动学习采样方法的影响。这些研究和综述,推动了基于像素的主动学习方法的发展,但是在obia中还没有相关的研究,特别是结合混合对象的主动学习采样策略还没有被注意到。
综上所述,针对obia的采样策略的研究非常匮乏,本发明的研究目的是从采样层次改进面向对象监督分类的表现。首先,利用rf和svm分类器的初始分类结果,计算一种评估分割对象的分类不确定性的指标;其次,根据不同对象的分类不确定性程度的差异,利用主动学习,形成对混合对象和纯净对象有差别的采样策略;最后,训练最终的rf分类模型,对待分类对象进行标签。从而解决由于混合对象和纯净对象的差异造成的分类精度的降低。
技术实现要素:
本发明要解决的技术问题是:克服现有obia分割技术的不足,提供一种结合预定义的训练对象和主动学习的面向对象分类方法,其结合了面向对象影像分类、预定义训练对象和主动学习算法,基于高分遥感影像,提高面向对象分类的效果。
为了解决上述技术问题,本发明提出的技术方案是:基于主动学习的面向对象分类方法,包括以下步骤:
步骤1、利用多尺度分割法对高空间分辨率影像进行分割,获得分割对象;
步骤2、基于步骤1的分割结果,观察实验区域,目视评估实验区土地覆盖情况,对每个土地类型按比例随机采样的样本,并对样本进行土地类型的标签;
步骤3、对步骤2获得的已标签样本进行有放回的重复2n次随机采样,从已标签样本中随机抽取70-90%的样本作为子训练集;
步骤4、利用步骤3获得的2n个子训练集,对n个支持向量机分类器和n个随机森林分类器进行训练,获得2n个分类器,使用这2n个分类器分别对步骤1获得的分割对象进行分类,统计每个分割对象的2n个分类结果;
步骤5、对步骤4获得的每个分割对象的分类结果,计算信息熵值,并反向标准化到[0,1]区间,得到每个分割对象的明确度,将明确度为1的分割对象划分为明确对象,不为1的划分为不确定对象;
步骤6、从明确对象中随机抽取最终所需训练样本数的20%,作为主动学习的训练样本集,将根据明确度从小到大排序的不确定对象作为主动学习的候选样本集;
步骤7、将候选样本集中明确度最大的m个样本进行标签,并添加到主动学习训练样本集中,使用主动学习算法对分类模型进行自学习,m取值范围为5-30;
步骤8、重复执行步骤7,直到主动学习的训练样本数达到所需训练样本数,得到最终训练样本,使用最终训练样本训练分类模型,然后用训练后的分类模型对步骤1得到的分割对象分类,并进行基于面积的精度评估。
本发明的步骤1中使用影像分割技术,利用高空分辨率影像,通过反复的分割尝试并观察分割对象的分布特征,以此确定不同实验区的最佳分割尺度。但由于现有分割算法的限制,多尺度分割后生成的分割对象图层仍包含大量的混合对象,因此在步骤2、3、4和5中,通过预先有目的的采样部分训练样本,以此计算一种评估分割对象不确定性的指标——明确度,从而对分割对象进行预定义的排序。
进一步地,根据明确度,将分割对象划分为明确对象和不确定对象,并评估明确对象和不确定对象的最优组合比率。经过多次实验,得出在分割结果存在大量混合对象的条件下,一定数量的混合对象作为训练样本将有利于分割对象的分类结论,最后结合主动学习技术的优势,确定使用最终训练样本数20%的明确对象学习80%不确定对象的主动学习策略。
可见,本发明以面向对象影像分类为基础,从混合对象对分类的影响的角度出发,利用分类器分类结果的不确定性实现对混合对象混合程度的评估,并引入主动学习技术,经过多个实验区的测试评估,确定最优的主动学习策略,最终得到稳定、优秀的训练样本集。
相比现有技术,本发明充分评估了面向对象影像分类中混合对象对分类的影响,并结合主动学习技术,避免由于欠分割,同一地物被分割成的多个子对象,在分类过程中,被标签为多个地物类型的问题。具体创新点及有益效果如下:
第一,本发明在分割结果存在大量混合对象的条件下,结合多个分类器的分类结果,计算信息熵,以此得到一种新的评估分割对象混合程度的指标——明确度,根据明确度,将所有分割对象划分为明确对象和不确定对象,明确对象和不确定对象能够对分割对象进行预定义的分类,从而降低后续采样的不确定性。
第二,本发明在对分割对象预定义的基础上,评估了混合对象对分类的影响,得出在分割结果存在大量混合对象的条件下,一定数量的混合对象作为训练样本将有利于分割对象分类的结论,即明确对象占最终训练样本的比率小于的50%时,分类效果优秀并稳定,评估结果揭示了优秀训练样本中混合对象的所占比率,从而进一步降低后续采样的不确定性,并提高分类的精度。
第三,本发明在上述结论的基础上,引入主动学习技术,结合主动学习选取信息量最大样本的优势,从而确定了以下主动学习策略:(1)从明确对象中随机抽取最终训练样本数20%的明确对象,作为主动学习的训练样本集(2)将根据明确度从小到大排序的不确定对象,作为主动学习的候选样本集。主动学习策略的确定提高了主动学习的效率,并在预定义对象的基础上进一步提高后续分类精度。
综上,本发明旨在针对obia中的采样问题,提出一种新的针对obia的采样策略,从而提高obia分类的采样效率,并且得到最具代表性的训练样本集。首先,发明评估了混合对象对采样的影响,得出在分割结果存在大量混合对象的条件下,一定数量的混合对象作为训练样本将有利于分割对象的分类结论。其次,引入主动学习技术,并结合其特点,确定了使用最终训练样本数20%的明确对象学习80%不确定对象的主动学习策略,以此,得到一个较为稳定的并且优异的最终训练样本集。
附图说明
下面结合附图对本发明作进一步的说明。
图1为本发明方法流程图。
图2a为实验区1原始影像及其分割尺度为130的分割结果。
图2b为实验区2原始影像及其分割尺度为110的分割结果。
图2c为实验区3原始影像及其分割尺度为90的分割结果。
图3为本实施例中各实验区各土地类型明确对象和不确定对象的个数
图4a为实验区1明确对象和不确定对象组合比率的评估结果。
图4b为实验区2明确对象和不确定对象组合比率的评估结果。
图4c为实验区3明确对象和不确定对象组合比率的评估结果。
图5a为实验区1最终的分类精度曲线。
图5b为实验区2最终的分类精度曲线。
图5c为实验区3最终的分类精度曲线。
图6a为实验区1目视解译图层。
图6b为实验区1随机采样分类效果图。
图6c为实验区1本发明的分类效果图。
图7a为实验区2目视解译图层。
图7b为实验区2随机采样分类效果图。
图7c为实验区2本发明的分类效果图。
图8a为实验区3目视解译图层。
图8b为实验区3随机采样分类效果图。
图8c为实验区3本发明的分类效果图。
具体实施方式
下面根据附图详细说明本发明,本发明的目的和效果将变得更加明显。
如图1所示为本发明基于主动学习的面向对象分类方法的流程图,本实施方法包括以下步骤:
步骤1、利用多尺度分割法对高空间分辨率影像进行分割。本实施例中,使用ecognition对高空间分辨率影像进行反复的分割尝试,并观察分割对象的分布特征,选择对各实验区分割较好的分割尺度进行影像分割。
图2为三个实验区的试验影像及其分割对象图层。本步骤中,利用影像分析软件ecognition进行多尺度分割,分割参数shape为0.1,smoothness为0.5。通过观察不同尺度的分割结果,选择分割效果较好的尺度进行后续分析,三个实验区的分割尺度依次为:130、110、90。容易发现,随着分割尺度的增加,分割对象的面积逐渐增大,生成的分割对象越多。
步骤2、进行有目的的采样,并标签。通过简单的目视解译,评估各实验区中各土地类型占整个实验区的面积比,以此对每个土地类型随机采样一定比例的样本,其中:实验区1中各土地类型的采样比例(与土地类型所占面积比例基本一致)为:耕地(40%)、林地(45%)、农村建筑(5%)、农村道路(2%)、裸地(8%);实验区2中各土地类型的采样比例为:建筑(30%)、林地(20%)、汽车(1%)、草地(49%);实验区3中各土地类型的采样比例为:建筑(40%)、林地(30%)、水体(10%)、汽车(5%)、草地(15%)。各土地类型的采样比例不需要绝对的精确,只需要大致目视评估实验区的土地覆盖情况。
步骤3中,对步骤2获得的已标签样本进行有放回的重复60次采样,每次随机抽取80%的样本作为子训练集。80%是一个变量,可以根据分类情况进行人为的调整,本发明建议其取值在70%至90%之间,采样比例过小将导致分类结果不确定性过大,从而失去评估分割对象混合程度的意义。
步骤4、对步骤3获得的60个子训练集,使用30个svm(支持向量机)和30个rf(随机森林)分类器分别对所有分割对象进行分类,统计每个分割对象的60个分类结果。
使用svm和rf作为分类器是参考了lietal.,2016的研究,其研究结果表明:不同分类器随尺度变化的整体精度值及变化幅度是不一样的,支持向量机(svm)和随机森林(rf)分类器随着分割尺度的增加,分类精度的方差增大,均值减小。该趋势符合混合对象的欠分割现象主要导致面向对象遥感影像分类错误的结论。同时rf和svm相比于其它分类模型能够取得优异的分类效果,并且稳定性高,所以采用svm和rf的分类结果计算明确度。此外,分类器的数量越多,则计算出的明确度将越精确,但过多的分类器将导致分类所需时间过长,因此本实施例使用30个svm和30个rf分类器对子训练集进行分类。
svm分类器采用径向基函数作为核函数,并使用格网搜索的方式,确定径向基函数的惩罚参数c和核参数γ;rf分类器中,设置每个决策树构建时的特征个数n为1个单一的随机分割变量,以及决策树的总个数k为479。
步骤5、对步骤4获得的每个分割对象的分类结果,计算其信息熵值,分割对象j的信息熵计算公式为
步骤6、确定主动学习的策略。图4是三个实验区明确对象和不确定对象组合比率的评估结果,其中折线图的x坐标是训练样本的个数,y坐标是基于面积评估的分类精度,折线图每个节点的训练样本个数分别为20、40、60、80、100、150、200、300。从图上可以看出,当组合比率在0.2(蓝线)至0.4(绿线)之间时,分类效果最佳,即得出分割结果存在大量混合对象的条件下,一定数量的混合对象作为训练样本将有利于分割对象的分类结论。基于这个结论,引入主动学习技术,由于主动学习本身就是来帮助专家选择更好训练样本的技术,既然使用主动学习,我们肯定是希望用最少的主动学习初始样本学习最多的候选样本,从而提高最终训练样本的质量。如果使用过大的组合比率,那主动学习就失去意义,并且其稳定性也会大大降低。所以本实施例选择组合比率0.2进行主动学习,即用最终样本数20%的明确对象作为主动学习的初始训练样本集,以根据明确度从小到大排序的不确定对象作为主动学习的候选样本集。
步骤7、将候选样本集中明确度最大的20个样本进行标签,添加到主动学习训练样本集中,更新主动学习训练样本,并从候选样本集中剔除新增的20个样本。基于新的训练样本集,重新计算剩余候选样本集中每个样本对象的不确定性。根据(tuiaetal.,2011)的研究,主动学习算法的性能取决于最终分类模型的选择,基于边缘式的方法(ms)适合svm分类器,基于委员会的方法能够适应大部分的分类模型且较为稳定。本实施例使用基于委员会中广泛使用的eqb算法进行主动学习,从而降低实验的偶然性。eqb算法采用(tuiaetal.,2011)实现的matlab主动学习工具箱,其余的主动学习参数使用工具箱中eqb算法的默认参数。
步骤8、重复执行步骤7直到主动学习的训练样本数达到所需训练样本数,得到最终训练样本,使用最终训练样本训练分类模型,然后用训练后的分类模型对步骤1得到的分割对象分类,并进行基于面积的精度评估。
基于面积的评估本质上是根据特征的范围和空间分布评估分类精度,这相比于将分割对象单纯看作独立的点而言更加的科学。并且whitesideetal.于2014年系统地将基于面积的评估方法提出,并对该方法建立了模型,所以将会使用基于面积的评估对本发明进行测试。另外,rf分类器在多尺度的面向对象遥感影像分析不确定情况下,展现出良好的可适应性,而svm对训练样本质量比rf更加敏感,因此使用rf分类器作为最后的分类模型,以降低实验的偶然性。
图5是各实验区的分类精度折线图,折线图的x坐标表示用于最终训练rf分类器的训练样本集的个数,y坐标则表示通过基于面积评估后得到的分类精度,折线图每个节点的训练样本个数分别为20、40、60、80、100、150、200、300,rs曲线(红色)是随机采样的分类结果,eqb则是使用本发明的分类结果。图5中,3个实验区在中样本和大样本区间都取得了很好的分类效果,而在小样本区间,本文提出的策略没有很大的优势。这是因为(1)eqb算法本就不适用于小样本的区间(tuiaetal.,2011)(2)由于主动学习的策略是优先学习明确度小的不确定对象,这使得在最开始的一两个递归中,由于明确对象和不确定对象的差异较大,因此只要是不确定对象就会学习进来,还无法发挥主动学习挑选最有信息量样本的优势。但当样本数递增时,不确定对象有了一定的规模,主动学习就能很好的基于已有的明确对象和不确定对象寻找信息量最大的不确定对象,以此解决不确定对象难以采样的劣势。
图6、图7和图8是各实验区的分类效果图。可以看出,本文提出的策略相比于随机采样,能提高实际地物面积较小对象的分类效果。比如实验区1中的房屋和裸地(图6);实验区2中的水体(图7);实验区3中房屋(图8)。这是因为本文通过明确度,对混合对象进行初步排序,之后结合主动学习选择出混合对象中不确定高的对象,使训练样本包含最能代表混合分割对象的样本。此外,策略结合比率评估的结果,保证了纯净对象分类所需的训练样本数,在这两点的支撑下选择出最具代表性的训练样本集。所以提出的方法能够避免由于欠分割,同一地物被分割成的多个子对象,在分类过程中,被标签为多个地物类型的问题。
除上述实施例外,本发明还可以有其他实施方式。凡依据多个分类器的分类结果评估混合对象的混合程度,进行预定义对象,并结合主动学习的采样策略,均落在本发明要求的保护范围。
1.一种基于主动学习的面向对象分类方法,包括以下步骤:
步骤1、利用多尺度分割法对高空间分辨率影像进行分割,获得分割对象;
步骤2、基于步骤1的分割结果,观察实验区域,目视评估实验区土地覆盖情况,对每个土地类型按比例随机采样的样本,并对样本进行土地类型的标签;
步骤3、对步骤2获得的已标签样本进行有放回的重复2n次随机采样,从已标签样本中随机抽取70-90%的样本作为子训练集;
步骤4、利用步骤3获得的2n个子训练集,对n个支持向量机分类器和n个随机森林分类器进行训练,获得2n个分类器,使用这2n个分类器分别对步骤1获得的分割对象进行分类,统计每个分割对象的2n个分类结果;
步骤5、对步骤4获得的每个分割对象的分类结果,计算信息熵值,并反向标准化到[0,1]区间,得到每个分割对象的明确度,将明确度为1的分割对象划分为明确对象,不为1的划分为不确定对象;
步骤6、从明确对象中随机抽取最终所需训练样本数的20%,作为主动学习的训练样本集,将根据明确度从小到大排序的不确定对象作为主动学习的候选样本集;
步骤7、将候选样本集中明确度最大的m个样本进行标签,并添加到主动学习训练样本集中,使用主动学习算法对分类模型进行自学习,m取值范围为5-30;
步骤8、重复执行步骤7,直到主动学习的训练样本数达到所需训练样本数,得到最终训练样本,使用最终训练样本训练分类模型,然后用训练后的分类模型对步骤1得到的分割对象分类,并进行基于面积的精度评估。
2.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:步骤1中,使用影像分析软件对高空间分辨率影像进行反复的分割尝试,并观察分割对象的分布特征,选择对实验区分割较好的分割尺度进行影像分割。
3.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:步骤2中,目视评估实验区的土地覆盖情况,进行有目的的采样,实验区采样的个数为当前实验区分割对象个数的10%。
4.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:步骤3中,进行有放回的重复随机采样,子训练集的采样比例为80%。
5.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:步骤4中,使用支持向量机分类器和随机森林分类器对所有分割对象进行分类,支持向量机分类器采用径向基函数作为核函数,并使用格网搜索的方式,确定径向基函数的惩罚参数c和核参数γ;随机森林分类器中,设置每个决策树构建时的特征个数n为1个单一的随机分割变量,以及决策树的总个数k为479。
6.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:在步骤5中,分割对象j信息熵的计算公式如下:
其中,pj(xi)是分割对象j被分类为类别i的概率,n是分割对象j经过2n次分类被分类的类别数目。
7.根据权利要求1所述的结合预定义的训练对象和主动学习的面向对象分类方法,其特征在于:步骤7中,使用的主动学习算法为eqb算法。
8.根据权利要求1所述的基于主动学习的面向对象分类方法,其特征在于:每次添加到主动学习训练样本中的不确定对象个数为20。
9.根据权利要求1所述的基于主动学习的面向对象分类方法,其特征在于:步骤8中的分类模型选用随机森林分类器。
技术总结