本申请涉及数据处理技术领域,具体而言,涉及一种区域植被指标的驱动因素分析方法、装置及存储介质。
背景技术:
在植被生态指标中,以植被净初级生产力(netprimaryproductivity,npp)为例,它是植物生态系统结构和功能的基础,是研究植被固碳能力的重要数据,也是分析判定生态系统碳汇/源过程的关键要素,是用来表征全球变化响应的主要参数,也可被用作辅助政府决策和分析经济发展程度的重要参考指标。
鉴于不同类型区域植被指标数据自身的特点及其驱动因素以及不同驱动因素之间关系的复杂性,合适的算法是影响其驱动因素分析精度效果的关键之一。
目前,在区域植被指标的驱动因素分析方面有多种方法,其中线性回归分析是较常用的方法。但该方法在实际应用中时常会出现结果精度不高、不易满足预期目标的问题。原因之一是回归分析方法有严格的假设条件,即线性(因变量和每个自变量都是线性关系)、独立性(对于所有的观测值,其误差项相互之间是独立的)、正态性(误差项服从正态分布)、等方差(回归函数中的随机误差项具有相同的方差)、自变量之间相互独立。而实际数据很难满足这些条件,此时若使用该方法,则忽视了方法的适用性和数据的真实特性,难以客观准确地反映数据之间的真实关系,可能引起较大误差,降低结果的可信度。
此外,现有分析方法一般是对研究区总体进行分析,由于环境因子的空间异质性、不同环境因子之间复杂的交互作用及其对区域植被指标的不同影响等问题时常导致区域植被指标显示较高的变化程度和复杂的变化趋势,也时常会导致其驱动因素分析结果误差较大,且不易找到引起上述现象的主要驱动因素,特别是在地形起伏较大、植被分布破碎化现象严重的山地研究区更为突出。如何解决这个问题也亟待深入研究。
技术实现要素:
本申请实施例的目的在于提供一种区域植被指标的驱动因素分析方法、装置及存储介质,以改善现有技术中时常遇到的结果精度偏低、不易满足精度要求、以及有特殊适用场景的问题。
有鉴于此,第一方面,本申请提供了一种区域植被指标的驱动因素分析方法,该方法包括:获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据;对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果;按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型;利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
因此,本申请实施例通过将划分后的聚类类型进行再次组合,并可通过随机森林模型的输出结果可以确定,重新组合后的部分组合聚类类型能够提高驱动因素的分析精度,从而满足了精度要求。
此外,本申请实施例中的方案还适用于其它植被指标与非植被指标的地理数据的驱动因素分析,其中的组合聚类类型也适用各类地理数据的空间分布格局分析。
在一个可能的实施例中,植被指标数据包括净初级生产力数据;净初级生产力的驱动因素数据包括归一化植被指数数据、人口密度数据、国内生产总值数据、夜间灯光亮度数据、数字高程模型数据、年平均降雨量数据、年平均气温数据和坡度数据中的至少两种。
因此,本申请实施例能够从生物、气候、地形和人为等方面更综合、全面和客观地对驱动因素进行分析。
在一个可能的实施例中,对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果,包括:将植被指标数据导入地理信息系统;通过地理信息系统获取包含有多种聚类类型的分析结果,其中,聚类类型包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点。
因此,本申请实施例通过聚类类型的分析结果,确定该研究区域的植被指标的聚类类型的实际分布情况,该实际分布情况可反映出植被指标的空间分布的聚集性与异质性。
在一个可能的实施例中,至少一种组合聚类类型包括以下类型中的至少一种:第一组合聚类类型、第二组合聚类类型、第三组合聚类类型、第四组合聚类类型和第五组合聚类类型,按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型,包括:将高值聚类hh和低值聚类ll进行组合,获取第一组合聚类类型;和/或,将高值聚类hh和高值主要由低值围绕的异常值hl进行组合,获取第二组合聚类类型;和/或,将低值聚类ll和低值主要由高值围绕的异常值lh进行组合,获取第三组合聚类类型;和/或,将高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第四组合聚类类型;和/或,将高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第五组合聚类类型。
因此,本申请实施例基于上述分析结果,确定出不同的聚类类型之间的组合方式,以及通过组合出的至少一种组合聚类类型以实现对不同的聚类类型的驱动因素进行分析,并基于驱动因素分析的结果进行比较,使驱动因素的分析结果更加精准、全面。
在一个可能的实施例中,对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果,包括:获取由所有聚类类型组合而成的组合数据。
在一个可能的实施例中,在利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析之前,驱动因素分析方法的步骤还包括:根据组合数据、多种聚类类型和至少一种组合聚类类型,获取多个数据集,其中,多个数据集包括组合数据对应的植被指标数据与属于组合数据的植被指标的驱动因素数据、多种聚类类型中每种聚类类型对应的植被指标数据与属于多种聚类类型中每种聚类类型的植被指标的驱动因素数据、至少一种组合聚类类型中每种组合聚类类型对应的植被指标数据与属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素数据。
在一个可能的实施例中,利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析,包括:利用随机森林模型和多个数据集,分别获取属于组合数据的植被指标的驱动因素的重要性排序结果、多种聚类类型中每种聚类类型的植被指标的驱动因素的重要性排序结果和至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素的重要性排序结果。
因此,本申请通过获取属于组合数据的植被指标的驱动因素的重要性排序结果、聚类类型的各类型的植被指标的驱动因素的重要性排序结果、组合聚类类型的各类型的植被指标的驱动因素的重要性排序结果,进而为该研究区域植被监测与保育、生态工程成效评估、森林经营方案编制与管理政策的制定等提供科学依据。
在一个可能的实施例中,驱动因素分析方法还包括:利用随机森林模型和多个数据集,分别获取与组合数据对应的组合精度评价指标、与多种聚类类型中每种聚类类型对应的第一精度评价指标和与至少一种组合聚类类型中每种组合聚类类型对应的第二精度评价指标。
因此,本申请通过组合精度评价指标、第一精度评价指标和第二精度评价指标来验证重新组合后的部分组合聚类类型相比于聚类类型和组合数据提高了精度。
第二方面,本申请还提供了一种区域植被指标的驱动因素分析装置,包括:第一获取模块,用于获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据;第一分析模块,用于对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果;第二获取模块,用于按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型;第二分析模块,用于利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
第三方面,本申请提供一种电子设备,包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线通信,机器可读指令被处理器执行时执行第一方面以及第一方面中任一可选的实现方式的方法。
第四方面,本申请提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行第一方面以及第一方面中任一可选的实现方式的方法。
第五方面,本申请提供一种计算机程序产品,计算机程序产品在计算机上运行时,使得计算机执行第一方面以及第一方面中任一可选的实现方式的方法。
本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种区域植被指标的驱动因素分析方法的流程示意图;
图2为本申请实施例提供的一种区域植被指标的驱动因素分析方法中步骤102的流程示意图;
图3为本申请实施例提供的一种区域植被指标的驱动因素分析装置的结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
目前,现有方案通常是对不进行聚类的全体(或者称为组合数据)进行驱动因素分析,但是,通过上述方式,经常遇到结果精度偏低、不易满足精度要求、没有对全体进行适宜的聚类及重新组合以实现更精准、全面的分析等问题。
或者说,虽然现有的方案虽然可以对某研究区域的npp的驱动因素进行分析,但是,一些方案时常会出现结果精度不高、不易满足预期目标的问题;另外,一些技术方案有特殊的适用场景,在不适用的场景下使用,会引起较大偏差,降低结果的可信度。与此类似,其它植被指标的驱动因素分析也时常遇到上述问题。
此外,将待分析指标的空间数据进行适宜的空间聚类,将基于空间聚类的结果及其结果的不同组合类型与驱动因素分析相结合,以细化分析结果,实现不同空间聚类类型及其组合与聚类之前的总体数据的驱动因素的异同性比较,这也是现有技术没有公开的。
如图1所示,本申请实施例提供了一种区域植被指标的驱动因素分析方法。应理解,图1所示的方法可以由区域植被指标的驱动因素分析装置执行,该装置可以与下文中的图3所示的区域植被指标的驱动因素分析装置300对应,该装置可以是能够执行该方法的各种设备,例如,个人计算机、服务器或网络设备等,本申请实施例并不限于此。该方法具体包括如下步骤:
步骤s101,获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据。
应理解,植被指标的驱动因素可包括植被指数或属于植被方面的驱动因素。例如,与植被对应的驱动因素可包括归一化植被指数等,本申请对此不作限定。另外,植被指标的驱动因素也可包括非植被方面的驱动因素,例如,植被指标的驱动因素可包括人口密度等,本申请对此不作限定。
在该步骤s101中,研究区域的植被指标数据和/或驱动因素数据均可通过从展示有其相关内容的网站直接下载获得。其中,部分指标数据也可通过获取相关卫星遥感影像数据,然后经相应处理、计算获得;其中部分指标数据也可通过利用相关数据与模型(如可利用光能利用率等数据以及case模型来计算npp等)计算后获得;部分指标数据也可经实地测量或调研后经相关插值计算获得,本申请对此不作限定。
此外,植被指标数据可包含npp数据、森林生物量数据和植被覆盖度数据等。其中,植被是覆盖地表的植物群落的总称。
应理解,虽然上面具体例举了植被指标数据的三种数据类型,但本领域的技术人员还可根据实际需求来对植被指标数据的数据类型进行设置,本申请对此不作限定。
另外,在从展示有其相关内容的网站下载植被指标数据的情况下,上述研究区域可能为下载数据所涵盖区域的一部分。
在这种情况下,可先对下载的数据进行预处理,然后可对预处理后的数据进行裁剪,即后续的分析仅对研究区域的待分析数据进行分析。
例如,在植被指标数据为npp数据的情况下,用户可从资源环境数据云平台下载中国2000年至2010年的npp栅格数据、研究区域行政边界矢量数据和npp的驱动因素栅格数据。其中,npp的驱动因素栅格数据包括ndvi(normalizeddifferencevegetationindex,归一化植被指数)栅格数据、人口密度栅格数据、gdp(grossdomesticproduct,国内生产总值)栅格数据、夜间灯光亮度栅格数据、数字高程模型栅格数据(坡度数据可由数字高程模型数据在arcgis软件中导出)、年平均降雨量栅格数据和年平均气温栅格数据。在获取到上述多个下载的数据后,如果数据的地理空间属性不同,需要统一坐标系统及栅格数据的分辨率,即在经过投影与坐标转换、栅格重采样后,统一各种数据的投影、坐标与分辨率。最后,通过利用研究区域行政边界矢量数据裁剪出研究区域的npp栅格数据以及npp的驱动因素栅格数据。
此外,虽然在步骤s101中,仅对npp的驱动因素数据做出了例举,但本领域的技术人员应当理解,在保证植被指标的驱动因素数据不少于两种的前提下,可根据实际需求对植被指标的驱动因素数据种类进行设置。
例如,在植被指标数据为森林生物量数据的情况下,该森林生物量的驱动因素也可包括光合作用和呼吸作用,本申请对此不作限定。
需要说明的是,虽然在步骤s101中对驱动因素数据进行了描述,但是该驱动因素数据可为预先确定出能够对植被指标数据有影响的驱动因素数据,还可为预先不确定是否一定对植被指标数据有影响的驱动因素数据。
步骤s102,对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果。也就是说,该分析结果中包含有多种聚类类型的相关数据。
在该步骤s102中,在研究区域的植被指标数据为栅格数据的情况下,如图2所示,步骤s102可以包括步骤s1021,即对预处理后的植被指标数据进行格式转换。其中,格式转换可以是将植被指标数据由栅格数据转换为矢量数据。
例如,在植被指标数据为npp栅格数据的情况下,将npp栅格数据导入到arcgis软件,通过arcgis软件中的栅格转点工具,将npp栅格数据转换为npp点数据。其中,arcgis软件是组织创建、管理、共享和分析空间数据的平台,本申请对此不作限定。
应理解,虽然在本步骤具体例举了以arcgis软件作为植被指标数据的数据格式转换工具,但本领域的技术人员还可根据实际需求来选择其他的格式转换工具来进行数据格式转换,只要保证能够将植被指标数据的栅格数据转换为矢量数据即可,本申请对此不作限定。
此外,在获取到的研究区域的植被指标数据为矢量数据的情况下,可直接执行步骤s1022。
步骤s102可以包括步骤s1022,即将植被指标数据导入到地理信息系统中。
例如,在植被指标数据为npp点数据的情况下,可预先通过csv(comma-separatedvalues,逗号分隔值)等arcgis软件可识别的格式存储研究区域相关的所有npp点数据,用户将存储有npp点数据的csv等arcgis软件可识别的格式的数据导入至地理信息系统,后续可通过该地理信息系统中的工具来实现对npp点数据的局部空间自相关分析,本申请对此不作限定。
对应地,类似于npp的其它植被指标数据的处理过程与npp数据的处理过程类似,后续不再一一例举,具体可参见npp数据的处理过程。
另外,步骤s102可以包括步骤s1023,即通过在地理信息系统中执行局部空间自相关分析,获取包含有多种聚类类型的分析结果。
具体地,将npp点数据导入到arcgis软件后,通过arcgis软件中的可识别具有高值或低值的要素的空间聚类的聚类与异常值分析工具,对npp点数据进行局部空间自相关分析,即该arcgis软件可对输入的npp点数据进行局部空间自相关分析。该arcgis软件通过计算localmoran'si(局部莫兰指数)、z得分和p值,从而得到包含有多种聚类类型的聚类与异常值分析结果。其中,聚类类型包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点(nosignificant,简称ns),本申请对此不作限定。
此外,虽然在本步骤中具体限定了地理信息系统为arcgis软件,但本领域的技术人员还可根据实际需求来设置地理信息系统的具体类型,只要能够对输入的植被指标数据进行局部空间自相关分析即可,本申请对此不作限定。
例如,该地理信息系统还可为空间统计软件geoda软件。
另外,在地理信息系统输出不同的聚类类型的分析结果时,分析结果除了包括不同的聚类类型,还包括由所有聚类类型组合到一起构成的组合数据。
应理解,组合数据还可称为不进行聚类的全体数据,本申请实施例并不局限于此。
例如,通过arcgis软件获取到的分析结果除了包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点(ns),还包括由高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点(ns)组合到一起的为组合数据。
此外,本申请还可通过包含有多种聚类类型的分析结果来确定植被指标的空间分布的聚集性与异质性。
例如,在植被指标数据为npp数据,以及针对贵州省2000年、2005年和2010年的npp数据的情况下,利用上述步骤s102,可通过分析结果确定出贵州省2000年、2005年和2010年的npp的高值聚类hh点主要分布在平均海拔较低以及石漠化程度相对较低的东部,而低值聚类ll点主要分布在平均海拔较高以及石漠化程度相对较高的西部,同时也有相对少量的高值主要由低值围绕的异常值hl点和低值主要由高值围绕的异常值lh点分别分布于西部和东部,本申请对此不作限定。
步骤s103,根据分析结果,提取植被指标全部要素类数据的位置的至少两种驱动因素数据。
在步骤s103中,可以先通过地理信息系统来提取研究区域的植被指标数据的每个要素位置对应的驱动因素数据。
例如,在植被指标数据为npp点数据的情况下,在执行局部空间自相关分析后,该局部空间自相关的结果是将输入的npp点数据(或者称为步骤s1021中的npp点数据)进行了分类。但是,各点的地理位置(或坐标)是没有改变的,此时可以将局部空间自相关分析结果中的全部npp点数据和至少两种npp的驱动因素的栅格数据作为输入数据,并将输入数据导入到arcgis软件中,并通过arcgis软件的多值提取至点工具,来提取npp点要素的位置的npp的驱动因素的栅格像元值,从而得到包含npp数值字段和至少两种npp的驱动因素的字段的要素类数据,其中,arcgis软件中要素类是指具有相同的几何特征的要素集合,比如点的集合,本申请对此不作限定。
另外,虽然在本实施例中,具体例举了研究区域的植被指标数据和至少两种植被指标的驱动因素数据的提取过程,但本领域的技术人员应当理解,可根据实际需求对上述提取过程进行设定,本申请对此不作限定。
步骤s104,按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型。
应理解,组合聚类类型可以是指除组合数据对应的组合之外,剩余组合对应的聚类类型。也就是说,组合聚类类型可以是不包含组合数据对应的聚类类型之外的其余新组合的聚类类型。
在步骤s104中,在获取到植被指标数据的每个要素位置对应的驱动因素数据后,可基于步骤s102的多种聚类类型的分析结果,来确定出不同的聚类类型的组合方式,并且该组合方式可为在步骤s102的基础上进行的至少两个不同的聚类类型的组合。
例如,通过arcgis软件中的按属性选择工具,来分别选择类型(聚类类型)或各组合类型(通过不同的聚类类型组合获取的至少一种组合聚类类型)的要素类,从而在多种聚类类型(包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点)的基础上,至少一种组合聚类类型可包括以下聚类类型中的至少一种:第一组合聚类类型、第二组合聚类类型、第三组合聚类类型、第四组合聚类类型和第五组合聚类类型。
其中,将不同的聚类类型进行组合以获取至少一种组合聚类类型,包括:将高值聚类hh和低值聚类ll进行组合,获取第一组合聚类类型;和/或,将高值聚类hh和高值主要由低值围绕的异常值hl进行组合,获取第二组合聚类类型;和/或,将低值聚类ll和低值主要由高值围绕的异常值lh进行组合,获取第三组合聚类类型;和/或,将高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第四组合聚类类型;和/或,将高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第五组合聚类类型,本申请对此不作限定。
在获取到组合数据、聚类类型、组合聚类类型的情况下,根据组合数据、多种聚类类型和至少一种组合聚类类型,获取包含每种类型及其驱动因素数据的多个数据集。其中,多个数据集包括组合数据对应的植被指标数据与属于组合数据的植被指标的驱动因素数据、多种聚类类型中每种聚类类型对应的植被指标数据与属于多种聚类类型中每种聚类类型的植被指标的驱动因素数据和至少一种组合聚类类型中每种组合聚类类型对应的植被指标数据与属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素数据。
应理解,这里的一个数据集为属于同一种、或同一聚类类型、或同一组合聚类类型对应的植被指标数据及其驱动因素数据的集合。
例如,一个数据集可以是组合数据及其驱动因素数据,也可以是高值聚类hh及其驱动因素数据,也可以是低值聚类ll及其驱动因素数据,也可以是高值主要由低值围绕的异常值hl及其驱动因素数据,也可以是低值主要由高值围绕的异常值lh及其驱动因素数据,也可以是不显著点及其驱动因素数据,也可以是第一组合聚类类型及其驱动因素数据,也可以是第二组合聚类类型及其驱动因素数据,也可以是第三组合聚类类型及其驱动因素数据,也可以是第四组合聚类类型及其驱动因素数据,也可以是第五组合聚类类型及其驱动因素数据,本申请实施例并不局限于此。
具体地,在植被指标数据为npp数据的情况下,通过arcgis软件按照组合数据、聚类类型和组合聚类类型分别导出各自的要素类,该要素类包括npp的数值字段和至少两种npp的驱动因素的字段的要素类,并将要素类分别保存为dbf(数据库文件)格式,随后可利用excel工具,将各个要素类的dbf格式转换为csv格式,最后利用r软件,分别对每个csv格式的文件中的数据进行标准化,以消除不同量纲的影响,以得到标准化数据的csv文件,本申请对此不作限定。
此外,虽然在本实施例中对至少一种组合聚类类型所包含的组合聚类类型进行了例举,但本领域的技术人员应当理解,还可根据实际需求对至少一种组合聚类类型所包含的组合聚类类型进行设置,本申请对此不作限定。
步骤s105,利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
应理解,随机森林模型还可称为随机森林算法,本申请对此不作限定。应理解,该随机森林模型可为通过编程实现的随机森林代码,也可为能够运行随机森林模型的软件,本申请对此不作限定。
此外,根据随机森林模型和多个数据集,分别获取属于组合数据的植被指标的驱动因素的重要性排序结果、多种聚类类型中每种聚类类型的植被指标的驱动因素的重要性排序结果和至少一种组合聚类类型中每种组合聚类类型植被指标的驱动因素的重要性排序结果。
例如,在植被指标数据为npp数据的情况下,将步骤s104得到的标准化的csv文件导入到weka(waikatoenvironmentforknowledgeanalysis,怀卡托智能分析环境)软件中,以npp数据作为因变量,以至少两种npp的驱动因素的数据作为自变量,通过相关参数的设置以及执行weka软件中的randomforest(随机森林)工具,分别对组合数据的植被指标的驱动因素、多种聚类类型的植被指标的驱动因素和至少一种组合聚类类型的植被指标的驱动因素进行重要性分析,从而可通过weka软件获取重要性排序结果,该重要性分析结果包括:每种聚类类型(如高值聚类hh)的驱动因素的排序结果、每种组合聚类类型(如第一组合聚类类型等)的驱动因素的排序结果和组合数据的驱动因素的排序结果。
此外,虽然在本实施例中,具体例举了通过随机森林模型来进行驱动因素的重要性分析,但本领域的技术人员还应当理解,还可通过其它适宜的模型或方法进行驱动因素重要性分析,本申请对此不作限定。
另外,在本步骤中具体例举了执行随机森林模型的软件为weka软件,但本领域的技术人员还应当理解,其还可通过其它可执行随机森林(或其它适宜的驱动因素分析方法)的软件实现。
例如,还可通过matlab软件来实现,本申请对此不作限定。
此外,利用随机森林模型和多个数据集,还可分别获取与组合数据对应的组合精度评价指标、与多种聚类类型中每种聚类类型对应的第一精度评价指标和与至少一种组合聚类类型中每种组合聚类类型对应的第二精度评价指标。
应理解,随机森林的输出结果可以包括组合精度评价指标、第一精度评价指标、第二精度评价指标和重要性排序结果,即组合精度评价指标、第一精度评价指标、第二精度评价指标及其分别对应的重要性排序结果可以是每个数据集的同一输出结果中的结果数据。
例如,在植被指标数据为npp数据的情况下,将步骤s104得到的标准化的csv文件导入到weka(waikatoenvironmentforknowledgeanalysis,怀卡托智能分析环境)软件中,以npp数据作为因变量,以至少两种npp的驱动因素的数据作为自变量,通过相关参数的设置以及执行weka软件中的randomforest(随机森林)工具,weka软件的输出结果包括与组合数据对应的组合精度评价指标、与多种聚类类型中每种聚类类型对应的第一精度评价指标、与至少一种组合聚类类型中每种组合聚类类型对应的第二精度评价指标。
其中,组合精度评价指标或第一精度评价指标或第二精度评价指标均可包括相关系数(correlationcoefficient)、平均绝对误差(meanabsoluteerror)、均方根误差(rootmeansquarederror)、相对绝对误差(relativeabsoluteerror)和相对均方根误差(rootrelativesquarederror),并且这5种模型评价指标可在weka软件执行随机森林算法的结果中自动算出,其中,相关系数用于验证数据真实值和模型预测值的偏离程度,越接近于1,模型的精度越高,反之越低;平均绝对误差和均方根误差用于衡量预测值和实际结果的差异,越小越好;相对绝对误差和相对均方根误差是相对误差,通过体现误差占真值的比重来反映误差大小,本申请对此不作限定。
另外,在获取到组合精度评价指标、第一精度评价指标和第二精度评价指标的情况下,可以通过比较组合精度评价指标、第一精度评价指标和第二精度评价指标来分析各种聚类类型与组合数据的精度的差异。
例如,在获取到多种聚类类型对应的多个第一精度评价指标,以及还获取到与至少一个组合聚类类型中每种组合聚类类型对应的第二精度评价指标,以及与不进行聚类的全体的npp数据对应的组合精度评价指标的情况下,第一组合聚类类型的相关系数最高,其余四项误差指标的值最低等,从而确定出第一组合聚类类型的精度最高。
再例如,还可通过比较组合数据对应的组合精度评价指标、多种聚类类型对应的第一精度评价指标和组合聚类类型对应的第二精度评价指标,从而能够确定重新组合后的部分组合聚类类型中的组合聚类类型相比于聚类类型及组合数据,提高了精度。
此外,在获取到重要性排序结果、组合精度评价指标、第一精度评价指标和第二精度评价指标的情况下,根据重要性排序结果及三类数据对应的精度评价指标,可筛选出满足精度要求的数据集(或属于不进行聚类的全体、或属于聚类类型、或属于组合聚类类型)的植被指标的关键驱动因素。
例如,在植被指标数据为npp数据、以及获取到2000年、2005年和2010年的贵州省npp的驱动因素的重要性排序结果及其精度的情况下,根据2000年、2005年和2010年的贵州省的第一组合聚类类型的npp的8个驱动因素排序,选取关键驱动因素,并通过比对后,确定出ndvi为2000年与2005年重要性最高的驱动因素,人口密度为2010年重要性最高的驱动因素。
另外,虽然在本实施例中,具体限定了关键驱动因素的数量,但本领域的技术人员应当理解,还可根据实际需求来设置关键驱动因素的数量,本申请对此不作限定。
需要说明的是,虽然步骤s105示出了对不进行聚类的全体的植被指标数据的驱动因素、属于所述聚类类型植被指标的驱动因素、属于组合聚类类型的植被指标的驱动因素进行重要性分析,但本领域的技术人员还可根据实际需求来进行设置。
例如,可以分别对属于聚类类型和组合聚类类型的植被指标的驱动因素进行重要性分析,本申请实施例并不局限于此。
本申请实施例提供的该方法与现有方案相比,本申请首先通过对全体进行空间自相关分析以得到聚类类型,随后,将聚类类型的结果进行再次组合以获取组合聚类类型,然后,通过随机森林建模的输出结果可以确定,重新组合后的部分组合聚类类型相比于组合数据和聚类类型,其能够提高结果的精度。
需要说明的是,这里的部分组合聚类类型在不同的场景下,其对应的具体的聚类类型可能是不同的。
此外,本申请通过随机森林模型还可得到满足精度要求的数据集的植被指标的不同驱动因素的重要性差异,进而能够为研究区域植被监测与保育、生态工程成效评估、森林经营方案编制与管理政策的制定提供科学依据。
另外,本申请的方案具有较强的适用性,解决了现有技术中存在着的某些方案时常精度偏低、只适用于特定场景的问题。
应当注意,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。根据具体情况,流程图中描绘的步骤可以改变执行顺序。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
应理解,上述植被指标的驱动因素分析方法仅是示例性的,本领域技术人员根据上述方法可以根据具体情况进行变形。
如图3所示,本申请实施例还提供了一种区域植被指标的驱动因素分析装置300。应理解,该装置300与上述图1至图2方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置300具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。装置300包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置300的操作系统(operatingsystem,os)中的软件功能模块。具体地,该驱动因素分析装置300包括:
第一获取模块310,用于获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据;第一分析模块320,用于对植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果;第二获取模块330,用于按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型;第二分析模块340,用于利用随机森林模型,对属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
在一个可能的实施例中,植被指标数据包括净初级生产力数据;净初级生产力的驱动因素数据,包括归一化植被指数数据、人口密度数据、国内生产总值数据、夜间灯光亮度数据、数字高程模型数据、年平均降雨量数据、年平均气温数据和坡度数据中的至少两种。
在一个可能的实施例中,导入模块(未示出),用于将植被指标数据导入地理信息系统;第一分析模块320,还用于通过地理信息系统获取包含有多种聚类类型的分析结果,其中,聚类类型包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点。
在一个可能的实施例中,至少一种组合聚类类型包括以下类型中的至少一种:第一组合聚类类型、第二组合聚类类型、第三组合聚类类型、第四组合聚类类型和第五组合聚类类型,第二获取模块330,还用于:将高值聚类hh和低值聚类ll进行组合,获取第一组合聚类类型;和/或,将高值聚类hh和高值主要由低值围绕的异常值hl进行组合,获取第二组合聚类类型;和/或,将低值聚类ll和低值主要由高值围绕的异常值lh进行组合,获取第三组合聚类类型;和/或,将高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第四组合聚类类型;和/或,将高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl和低值主要由高值围绕的异常值lh进行组合,获取第五组合聚类类型。
在一个可能的实施例中,第一分析模块320,还用于获取由所有所述聚类类型组合而成的组合数据。
在一个可能的实施例中,第三获取模块(未示出),用于根据组合数据、多种聚类类型和至少一种组合聚类类型,获取多个数据集,其中,多个数据集包括组合数据对应的植被指标数据与属于组合数据的植被指标的驱动因素数据、多种聚类类型中每种聚类类型对应的植被指标数据与属于多种聚类类型中每种聚类类型的植被指标的驱动因素数据、至少一种组合聚类类型中每种组合聚类类型对应的植被指标数据与属于至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素数据。
在一个可能的实施例中,第二分析模块340,还用于利用随机森林模型和多个数据集,分别获取属于组合数据的植被指标的驱动因素的重要性排序结果、多种聚类类型中每种聚类类型的植被指标的驱动因素的重要性排序结果和至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素的重要性排序结果。
在一个可能的实施例中,第二分析模块340,还用于利用随机森林模型和多个数据集,分别获取与组合数据对应的组合精度评价指标、与多种聚类类型中每种聚类类型对应的第一精度评价指标和与至少一种组合聚类类型中每种组合聚类类型对应的第二精度评价指标。
应当理解,植被指标的驱动因素分析装置300中记载的诸单元或模块与参考图1描述的方法中的各个步骤相对应。由此,上文针对方法描述的操作和特征同样适用于植被指标的驱动因素分析装置300及其中包含的单元,在此不再赘述。植被指标的驱动因素分析装置300可以预先实现在电子设备的浏览器或其他安全应用中,也可以通过下载等方式而加载到电子设备的浏览器或其安全应用中。植被指标的驱动因素分析装置300中的相应单元可以与电子设备中的单元相互配合以实现本申请实施例的方案。
本申请实施例还提供了一种存储介质,该存储介质上存储有区域植被指标的驱动因素分析程序,该区域植被指标的驱动因素分析程序被处理器执行时实现如图1所示的区域植被指标的驱动因素分析方法的步骤。
可以理解的是,本文描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理器可以实现在一个或多个专用集成电路(applicationspecificintegratedcircuit,asic)、数字信号处理器(digitalsignalprocessor,dsp)、可编程逻辑设备(programmablelogicdevice,pld)、现场可编程门阵列(field-programmablegatearray,fpga)、通用处理器、控制器、微控制器、微处理器、用于执行本申请功能的其它电子单元或其组合中。
对于软件实现,可通过执行本文功能的单元来实现本文的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
1.一种区域植被指标的驱动因素分析方法,其特征在于,包括:
获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据;
对所述植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果;
按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型;
利用随机森林模型,对属于所述至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
2.根据权利要求1所述的驱动因素分析方法,其特征在于,所述植被指标数据包括净初级生产力数据;
净初级生产力的驱动因素数据包括归一化植被指数数据、人口密度数据、国内生产总值数据、夜间灯光亮度数据、数字高程模型数据、年平均降雨量数据、年平均气温数据和坡度数据中的至少两种。
3.根据权利要求1所述的驱动因素分析方法,其特征在于,所述对所述植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果,包括:
将所述植被指标数据导入地理信息系统;
通过所述地理信息系统获取包含有多种所述聚类类型的分析结果,其中,所述聚类类型包括高值聚类hh、低值聚类ll、高值主要由低值围绕的异常值hl、低值主要由高值围绕的异常值lh和不显著点。
4.根据权利要求3所述的驱动因素分析方法,其特征在于,所述至少一种组合聚类类型包括以下类型中的至少一种:第一组合聚类类型、第二组合聚类类型、第三组合聚类类型、第四组合聚类类型和第五组合聚类类型,所述按照预设的组合规则,将所述不同的聚类类型进行组合以获取所述至少一种组合聚类类型,包括:
将所述高值聚类hh和所述低值聚类ll进行组合,获取所述第一组合聚类类型;和/或,
将所述高值聚类hh和所述高值主要由低值围绕的异常值hl进行组合,获取所述第二组合聚类类型;和/或,
将所述低值聚类ll和所述低值主要由高值围绕的异常值lh进行组合,获取所述第三组合聚类类型;和/或,
将所述高值主要由低值围绕的异常值hl和所述低值主要由高值围绕的异常值lh进行组合,获取所述第四组合聚类类型;和/或,
将所述高值聚类hh、所述低值聚类ll、所述高值主要由低值围绕的异常值hl和所述低值主要由高值围绕的异常值lh进行组合,获取所述第五组合聚类类型。
5.根据权利要求1所述的驱动因素分析方法,其特征在于,所述对所述植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果,包括:
获取由所有所述聚类类型组合而成的组合数据。
6.根据权利要求5所述的驱动因素分析方法,其特征在于,在利用随机森林模型,对属于所述至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析之前,所述驱动因素分析方法的步骤还包括:
根据所述组合数据、所述多种聚类类型和所述至少一种组合聚类类型,获取多个数据集,其中,所述多个所述数据集包括所述组合数据对应的植被指标数据与属于所述组合数据的植被指标的驱动因素数据、所述多种聚类类型中每种聚类类型对应的植被指标数据与属于所述多种聚类类型中每种聚类类型的植被指标的驱动因素数据、所述至少一种组合聚类类型中每种组合聚类类型对应的植被指标数据与属于所述至少一种中每种组合聚类类型的植被指标的驱动因素数据。
7.根据权利要求6所述的驱动因素分析方法,其特征在于,所述利用随机森林模型,对属于所述至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析,包括:
利用所述随机森林模型和所述多个数据集,分别获取属于所述组合数据的植被指标的驱动因素的重要性排序结果、所述多种聚类类型中每种聚类类型的植被指标的驱动因素的重要性排序结果和所述至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素的重要性排序结果。
8.根据权利要求7所述的驱动因素分析方法,其特征在于,所述驱动因素分析方法还包括:
利用所述随机森林模型和所述多个数据集,分别获取与所述组合数据对应的组合精度评价指标、与所述多种聚类类型中每种聚类类型对应的第一精度评价指标和与所述至少一种组合聚类类型中每种组合聚类类型对应的第二精度评价指标。
9.一种区域植被指标的驱动因素分析装置,其特征在于,包括:
第一获取模块,用于获取研究区域的植被指标数据和植被指标的至少两种驱动因素数据;
第一分析模块,用于对所述植被指标数据进行局部空间自相关分析,以得到包含有多种聚类类型的分析结果;
第二获取模块,用于按照预设的组合规则,将不同的聚类类型进行组合以获取至少一种组合聚类类型;
第二分析模块,用于利用随机森林模型,对属于所述至少一种组合聚类类型中每种组合聚类类型的植被指标的驱动因素进行重要性分析。
10.一种存储介质,其特征在于,所述存储介质上存储有区域植被指标的驱动因素分析程序,所述区域植被指标的驱动因素分析程序被处理器执行时实现如权利要求1至8中任一项所述的区域植被指标的驱动因素分析方法的步骤。
技术总结