本申请涉及金融科技(fintech)的机器学习技术领域,尤其涉及一种逐步模型选择方法、设备及可读存储介质。
背景技术:
随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术(如分布式、区块链blockchain、人工智能等)应用在金融领域,但金融业也对技术提出了更高的要求,如对金融业对应待办事项的分发也有更高的要求。
随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛,在现有技术中,金融风控、医疗模型等场景通常会使用逻辑回归模型建模,而在逻辑回归模型建模中,逐步选择模式是一种重要的模型选择策略,相比全部特征加入模型训练,能有效的防止模型过拟合,但是,当前的逐步选择模式通常需求建模人员具备较高的代码开发能力,且只能进行单机实现,也即,当前的逐步选择模式的实施对建模人员具有较高的门槛要求,且由于只能进行单机实现进而导致逐步选择模式的建模时间长,建模效率较低,所以,现有技术中存在逐步选择模式建模门槛高和效率低的技术问题。
技术实现要素:
本申请的主要目的在于提供一种逐步模型选择方法、设备及可读存储介质,旨在解决现有技术中逐步选择模式建模门槛高和效率低的技术问题。
为实现上述目的,本申请提供一种逐步模型选择方法,所述逐步模型选择方法应用于服务端,所述逐步模型选择方法包括:
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性;
分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型;
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述待训练特征集包括第一模型特征集和第二模型特征集,所述循环训练模型集包括第一循环训练模型集和第二循环训练模型集,
所述分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征;
基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集;
基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征;
将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
可选地,所述基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征的步骤包括:
将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征;
将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对;
若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征。
可选地,所述配置参数包括迭代训练完成判定条件,所述第一循环训练模型集包括一个或者多个第一模型元素,
所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集的步骤包括:
基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型满足所述迭代训练完成判定条件,获得各所述第一模型元素之一;
重新计算剔除后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集。
可选地,所述基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征的步骤包括:
将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征;
将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对;
若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征。
可选地,所述第二循环训练模型集包括一个或者多个第二模型元素,
所述将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集的步骤包括:
将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集;
基于更新后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,获得所述第二模型元素之一;
重新计算更新后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,获得一个或者多个所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征,则跳出所述第一模型特征集对应的第一循环流程;
重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程。
可选地,所述待训练特征集包括第一模型特征集和第二模型特征集,
所述分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性的步骤包括:
计算所述第一模型特征集中各元素对应的wald卡方值;
基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性;
计算所述第二模型特征集中各元素对应的评分卡方值;
基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性。
可选地,所述基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型的步骤包括:
获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括auc(areaundercurve,受试者工作特征曲线下与坐标轴围成的面积)值和aic(akaikeinformationcriterion,赤池信息准则)值;
若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型;
若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型。
可选地,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
为实现上述目的,本申请还提供一种逐步模型选择方法,所述逐步模型选择方法应用于客户端,所述逐步模型选择方法包括:
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请还提供一种逐步模型选择装置,所述逐步模型选择装置应用于服务端,所述逐步模型选择装置包括:
第一训练模块,用于所述接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
计算模块,用于所述分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性;
第二训练模块,用于所述分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
选取模块,用于所述基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型;
反馈模块,用于所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述第二训练模块包括:
剔除子模块,用于所述基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征;
第一循环训练子模块,用于所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集;
选取子模块,用于所述基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征;
第二循环训练子模块,用于所述将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
可选地,所述剔除子模块包括:
第一选取单元,用于所述将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征;
第一比对单元,用于所述将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对;
第一判定单元,用于所述若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征。
可选地,所述第一循环训练子模块包括:
第一迭代训练单元,用于所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型满足所述迭代训练完成判定条件,获得各所述第一模型元素之一;
第二迭代训练单元,用于所述重新计算剔除后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集。
可选地,所述选取子模块包括:
第二选取单元,用于所述将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征;
第二比对单元,用于所述将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对;
第二判定单元,用于所述若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征。
可选地,所述循环训练子模块包括:
更新单元,用于所述将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集;
第三迭代训练单元,用于所述重新计算更新后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,获得一个或者多个所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征,则跳出所述第一模型特征集对应的第一循环流程;
循环单元,用于所述重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程。
可选地,所述计算模块包括:
第一计算子模块,用于所述计算所述第一模型特征集中各元素对应的wald卡方值;
第二计算子模块,用于所述基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性;
第三计算子模块,用于所述计算所述第二模型特征集中各元素对应的评分卡方值;
第四计算子模块,用于所述基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性。
可选地,所述选取模块包括:
获取子模块,用于所述获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括auc值和aic值;
第一选取子模块,用于所述若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型;
第二选取子模块,用于所述若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型。
可选地,所述反馈模块包括:
获取子模块,用于所述获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
反馈子模块,用于所述生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
为实现上述目的,本申请还提供一种逐步模型选择装置,所述逐步模型选择装置应用于客户端,所述逐步模型选择装置包括:
发送模块,用于所述接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收模块,用于所述接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请还提供一种逐步模型选择设备,所述逐步模型选择设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述逐步模型选择方法的程序,所述逐步模型选择方法的程序被处理器执行时可实现如上述的逐步模型选择方法的步骤。
本申请还提供一种可读存储介质,所述可读存储介质上存储有实现逐步模型选择方法的程序,所述逐步模型选择方法的程序被处理器执行时实现如上述的逐步模型选择方法的步骤。
本申请通过接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性,分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集,基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型,生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。也即,本申请首先进行所述客户端发送的配置参数的接收和待训练特征集的获取,并基于所述待训练特征集和所述配置参数进行对预设待训练模型的训练,获得第一初始训练模型,进而分别进行所述待训练特征集对应的第一类型显著性和第二类型显著性的计算,进而分别基于各所述第一类型显著性和各所述第二类型显著性,进行对所述第一初始训练模型的循环训练,获得循环训练模型集,进而基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中进行目标训练模型的选取,进而进行所述目标训练模型对应的可视化数据的生成,进而将所述可视化数据反馈至所述客户端。也即,本申请提供了一种无代码化分布式建模和可视化建模的逐步选择模式的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至逐步模型选择服务器,逐步模型选择服务器即可反馈相应的逐步模型选择过程对应的可视化数据和逐步模型选择结果,也即,通过客户端和逐步模型选择服务器进行通信连接以进行模型建模,实现了分布式建模,进而相比于单机进行的所述逐步选择模式提高了逐步选择模式的建模效率,并通过将获取建模参数对应的逐步模型选择结果转化为可视化数据,并反馈至客户端,且由于用户只需在客户端的可视化界面输入必要的模型参数即可获取相应的逐步模型选择结果,对用户并无代码开发能力的要求,进而实现了无代码建模和可视化建模,极大程度上降低了对建模人员的能力门槛要求,所以,解决了现有技术中逐步选择模式建模门槛高和效率低的技术问题。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请逐步模型选择方法第一实施例的流程示意图;
图2为本申请逐步模型选择方法中进行所述参数配置的可视化界面的示意图;
图3为本申请逐步模型选择方法第二实施例的流程示意图;
图4为本申请逐步模型选择方法中所述第一循环流程的示意图;
图5为本申请逐步模型选择方法中所述第二循环流程与所述第一循环流程共同对应的模型选择流程示意图;
图6为本申请逐步模型选择方法第三实施例的流程示意图;
图7为本申请实施例方案涉及的硬件运行环境的设备结构示意图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供一种逐步模型选择方法,所述逐步模型选择方法应用于服务端,在本申请逐步模型选择方法的第一实施例中,参照图1,所述逐步模型选择方法包括:
步骤s10,接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
在本实施例中,需要说明的是,所述客户端包括可视化界面,用户可在所述可视化界面上对预设待训练模型进行参数配置以获取所述配置参数,如图2所示为进行所述参数配置的可视化界面的示意图,其中,所述最大迭代系数、最小收敛误差、逐步模型选择模式和类别权重等参数均为模型训练之前需要进行设置的参数,所述逐步模型选择模式包括向前选择模式、向后选择模式和逐步选择模式等,所述逐步模型选择方法应用于逐步模型选择服务器,所述待训练特征包括一个或者多个特征,每一特征均包括一条或者多条特征数据,所述预设待训练模型包括逻辑回归模型,所述待训练特征集包括第一模型特征集和第二模型特征集,其中,所述第一模型特征集为已加入所述预设待训练模型进行训练的特征集,所述第二模型特征集为未加入所述预设待训练模型进行训练的特征集,所述第一模型特征集和所述第二模型特征集均包括一个或者多个特征。
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,具体地,接收与所述服务端关联的客户端发送的配置参数并从预设服务端本地数据库提取待训练特征集,并基于所述待训练特征集中的第一模型特征集中的各特征的特征数据,对所述预设待训练模型进行迭代训练,当达到所述配置参数中的训练完成判定条件时,则停止训练,获得所述第一初始训练模型,其中,所述训练完成判定条件包括达到最大迭代数、达到最小收敛误差等,最开始未向所述预设待训练模型加入特征时,所述预设待训练模型只有截距项。
步骤s20,分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性;
在本实施例中,需要说明的是,所述第一类型显著性和所述第二类型显著性均可基于皮尔逊相关性值进行判定,也即,当所述皮尔逊相关性值小于或者等于预设皮尔逊相关性阀值,则判定所述第一类型显著性或者所述第二类型显著性对应的特征满足预设显著性要求,也即,所述第一类型显著性或者所述第二类型显著性对应的特征表现为显著,当所述皮尔逊相关性值大于预设皮尔逊相关性阀值时,则判定所述第一类型显著性或者所述第二类型显著性对应的特征不满足预设显著性要求,也即,所述第一类型显著性或者所述第二类型显著性对应的特征表现为不显著,所述待训练特征集包括第一模型特征集和第二模型特征集。
分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性,具体地,计算所述第一模型特征集中各特征对应的各第一类型显著性,并计算所述第二模型特征集中各特征对应的各第二类型显著性。
其中,所述待训练特征集包括第一模型特征集和第二模型特征集,
所述分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性的步骤包括:
步骤s21,计算所述第一模型特征集中各元素对应的wald卡方值;
在本实施例中,计算所述第一模型特征集中各元素对应的wald卡方值,具体地,基于预设wald卡方值计算公式计算所述第一模型特征集中各元素对应的wald卡方值,其中,预设wald卡方值计算公式如下所示:
其中,
步骤s21,基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性;
在本实施例中,需要说明的是,所述自由度与特征对应的特征数据数量相关,例如,假设所述特征数据存在100条不同的数据,则所述自由度为99。
基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性,具体地,基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,通过预设皮尔逊相关性值计算公式计算所述第一模型特征集中各元素的皮尔逊相关性值,进而,通过各所述皮尔逊相关性值判定第一模型特征集中各元素的第一类型显著性,例如,假设各所述皮尔逊相关性值分别为0.001、0.01和0.05,则对应的判定各所述第一类型显著性的衡量值为10、1和0.2,其中,所述衡量值越大,则所述第一显著性越显著。
步骤s23,计算所述第二模型特征集中各元素对应的评分卡方值。
在本实施例中,计算所述第二模型特征集中各元素对应的评分卡方值,具体地,基于预设评分卡方值计算公式计算所述第二模型特征集中各元素对应的评分卡方值,其中,预设评分卡方值计算公式如下所示:
其中,
步骤s24,基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性。
在本实施例中,基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性,具体地,基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,通过预设皮尔逊相关性值计算公式计算所述第二模型特征集中各元素的皮尔逊相关性值,进而,通过各所述皮尔逊相关性值判定第二模型特征集中各元素的第二类型显著性。
步骤s30,分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
在本实施例中,需要说明的是,所述循环训练模型集包括第一循环训练模型集和第二循环训练模型集,所述第一循环训练模型集包括一个或者多个第一模型元素,所述第二循环训练模型集包括一个或者多个第二模型元素。
分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集,具体地,基于各所述第一类型显著性,逐步剔除所述第一模型特征集中的满足预设剔除显著要求的待剔除特征,并在每次剔除一个所述待剔除特征后,基于剔除后的所述第一模型特征集,对所第一初始训练模型迭代训练更新,获得一个所述第一模型元素,直至达到预设第一循环终止条件,获得所述第一循环训练模型集,进而基于各所述第二类型显著性,在所述第二模型特征集中选取满足预设显著性要求的目标特征,并将所述目标特征加入所述第一模型特征集,并在每向所述第一模型特征集加入一个所述目标特征后,则基于加入目标特征后的所述第一模型特征集,对迭代更新后所述第一初始训练模型进行一次循环训练,获得一个或者多个第二模型元素,直至同时达到预设第一循环终止条件和预设第二循环终止条件,获得所述第二循环训练模型集,其中,所述预设第一循环终止条件包括所述第一模型特征集中不存在所述待剔除特征,所述预设第二循环终止条件包括所述第二模型特征集中不存在所述目标特征。
步骤s40,基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型;
在本实施例中,需要说明的是,所述配置参数包括模型选择策略。
基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型。具体地,基于所述模型选择策略,在所述第一初始训练模型和所述循环训练模型集的各元素中选择最符合所述模型选择策略的模型作为所述目标训练模型。
其中,所述基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型的步骤包括:
步骤s41,获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括auc值和aic值;
在本实施例中,需要说明的是,所述auc值所述评价所述训练模型的标准,且auc值越大,则所述训练模型越优,其中,所述auc值为roc(receiveroperatingcharacteristiccurve,受试者工作特征曲线)曲线下与坐标轴围成的面积,且这个面积的数值不会大于1,其中,所述roc曲线是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(灵敏度)为纵坐标,假阳性率(1-特异度)为横坐标绘制的曲线,所述aic值为基于aic准则计算出来的值,其中,所述aic准则为衡量统计模型拟合优良性的一种标准。
步骤s42,若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型;
在本实施例中,若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型,具体地,若所述模型选择策略为所述auc值,则将各所述auc值进行对比,获得最大auc值,并将所述最大auc值对应的训练模型作为所述目标训练模型,其中,所述训练模型包括第一初始训练模型和所述循环训练模型集中的各元素。
步骤s43,若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型。
在本实施例中,若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型,具体地,若所述模型选择策略为所述aic值,则将各所述aic值进行对比,获得最小aic值,并将所述最小aic值对应的训练模型作为所述目标训练模型,其中,所述训练模型包括第一初始训练模型和所述循环训练模型集中的各元素。
步骤s50,生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
在本实施例中,需要说明的是,所述可视化数据包括备选特征可视化数据、模型选择汇总可视化数据和训练过程可视化数据,其中,所述备选特征为所述待训练特征集中的特征,所述模型选择汇总数据包括对所述第一初始训练模型和所述循环训练模型集中的模型元素进行模型选择的汇总数据。
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端,具体地,生成所述目标训练模型对应的获取过程对应的可视化数据,其中,所述获取过程包括特征选择过程、模型训练过程和模型选择过程等,进而将所述可视化数据反馈至所述客户端的可视化界面以向客户进行展示,其中,所述特征选择过程为在所述待训练特征集中选择特征的过程,所述模型训练过程为对目标模型训练的过程,其中,所述目标模型包括预设待训练模型、第一初始训练模型和模型元素等,所述模型选择过程为基于预设模型选择策略选择目标训练模型的过程。
其中,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
步骤s51,获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
在本实施例中,所述目标训练模型的模型选择过程包括模型迭代训练过程、特征选取过程和模型选取过程等,其中,特征选取过程为剔除所述待剔除特征的过程,所述模型选取过程为基于预设模型选择策略选取目标训练模型的过程。
获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据,具体地,实时获取所述特征选取过程的备选特征数据、所述模型选取过程的选择汇总数据和所述模型迭代训练过程的训练过程数据。
步骤s52,生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
在本实施例中,需要说明的是,所述可视化数据包括图文数据、表格数据等。
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面,具体地,实时生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并实时将所述可视化数据实时反馈至所述可视化界面,其中,将所述可视化数据实时反馈至所述可视化界面的时间间隔可由逐步模型选择服务端的使用用户自行设置,且客户端用户可在客户端上实时查询所述可视化数据。
本实施例通过接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型,分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性,分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集,基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型,生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。也即,本实施例首先进行所述客户端发送的配置参数的接收和待训练特征集的获取,并基于所述待训练特征集和所述配置参数进行对预设待训练模型的训练,获得第一初始训练模型,进而分别进行所述待训练特征集对应的第一类型显著性和第二类型显著性的计算,进而分别基于各所述第一类型显著性和各所述第二类型显著性,进行对所述第一初始训练模型的循环训练,获得循环训练模型集,进而基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中进行目标训练模型的选取,进而进行所述目标训练模型对应的可视化数据的生成,进而将所述可视化数据反馈至所述客户端。也即,本实施例提供了一种无代码化分布式建模和可视化建模的逐步选择模式的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至逐步模型选择服务器,逐步模型选择服务器即可反馈相应的逐步模型选择过程对应的可视化数据和逐步模型选择结果,也即,通过客户端和逐步模型选择服务器进行通信连接以进行模型建模,实现了分布式建模,进而相比于单机进行的所述逐步选择模式提高了逐步选择模式的建模效率,并通过将获取建模参数对应的逐步模型选择结果转化为可视化数据,并反馈至客户端,且由于用户只需在客户端的可视化界面输入必要的模型参数即可获取相应的逐步模型选择结果,对用户并无代码开发能力的要求,进而实现了无代码建模和可视化建模,极大程度上降低了对建模人员的能力门槛要求,所以,解决了现有技术中逐步选择模式建模门槛高和效率低的技术问题。
进一步地,参照图3,基于本申请中第一实施例,在逐步模型选择方法的另一实施例中,所述待训练特征集包括第一模型特征集和第二模型特征集,所述循环训练模型集包括第一循环训练模型集和第二循环训练模型集,
所述分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
步骤s31,基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征;
在本实施例中,基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征,具体地,基于各所述第一类型显著性,在所述第一模型特征集中选取显著性最低的待选择特征,并判断所述待选择特征是否满足预设剔除显著性要求,若所述待选择特征满足预设剔除显著性要求,则将所述待选择特征作为所述待剔除特征,若所述待选择特征不满足所述预设剔除显著性要求,则跳出所述第一模型特征集对应的第一循环流程,其中,所述第一循环流程的示意图如图4所示,所述数据为所述待训练特征集中各特征对应的训练数据,所述训练模型为所述预设待训练模型,加入模型的特征即为所述第一模型特征集中的各特征,所述阀值为所述预设剔除显著性阀值。
其中,所述基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征的步骤包括:
步骤s311,将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征;
在本实施例中,将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征,具体地,将各所述第一类型显著性对应的皮尔逊相关性值进行比对,以选取皮尔逊相关性值最大的特征作为所述待选择特征。
步骤s312,将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对;
在本实施例中,需要说明的是,所述预设剔除显著性阀值可由用户自行设置,所述待选择显著性为所述待选择特征的所述第一类型显著性。
将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对,具体地,将所述待选择特征的待选择显著性对应的皮尔逊相关性值与所述预设剔除显著性阀值对应的剔除皮尔逊相关性阀值进行比对。
步骤s313,若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征。
在本实施例中,若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征,具体地,若所述待选择显著性小于所述预设剔除显著性阀值,则表明所述待选择显著性对应的皮尔逊相关性值大于所述剔除皮尔逊相关性阀值,所述待选择特征表现为不显著,进而判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征,若所述待选择显著性大于或者等于所述预设剔除显著性阀值,则表明所述待选择显著性对应的皮尔逊相关性值小于或者等于所述剔除皮尔逊相关性阀值,进而判定所述待选择特征满足所述预设剔除显著性要求,并跳出所述第一循环流程。
步骤s32,基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集;
在本实施例中,基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集,具体地,将剔除后的所述第一模型特征集各特征对应的训练数据输入所述第一初始训练模型,以对所述第一初始训练模型进行迭代训练更新,获得更新后的所述第一初始训练模型,并将更新后的所述第一初始训练模型作为一个所述第一模型元素,进一步地,重新反复执行所述第一循环流程,也即,重新在剔除后的所述第一模型特征集中剔除其他所述待剔除特征,并基于再次剔除后所述第一模型特征集对更新后的所述第一初始训练模型进行迭代训练更新,获得一个所述第一模型元素,重复执行上述过程,获得多个所述第一模型元素,直至达到所述预设第一循环流程终止条件,获得所述第一循环训练模型集。
其中,所述配置参数包括迭代训练完成判定条件,所述第一循环训练模型集包括一个或者多个第一模型元素,
所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集的步骤包括:
步骤s321,基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型满足所述迭代训练完成判定条件,获得各所述第一模型元素之一;
在本实施例中,需要说明的是,所述迭代训练完成判定条件包括达到最大迭代次数和达到最小收敛误差等。
步骤s322,重新计算剔除后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集。
在本实施例中,需要说明的是,每在所述第一模型特征集中剔除一个所述待剔除特征,则基于剔除后的所述第一模型特征集进行一次对上一次更新后的所述第一初始训练模型的迭代训练更新,直至上一次更新后的所述第一初始训练模型满足所述迭代训练完成判定条件,获得本次更新后的第一初始训练模型,也即,获得所述第一模型元素之一,直至剔除完所述第一模型特征集中的所有所述待剔除特征,则获得一个或者多个第一模型元素,也即,获得所述第一模型特征集。
步骤s33,基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征;
在本实施例中,需要说明的是,所述第二类型显著性可基于皮尔逊相关性值进行判定,当所述皮尔逊相关性值小于或者等于预设皮尔逊相关性阀值,则判定所述第二类型显著性对应的特征满足预设显著性要求,也即,所述第二类型显著性对应的特征表现为显著,当所述皮尔逊相关性值大于预设皮尔逊相关性阀值时,则判定所述第二类型显著性对应的特征不满足预设显著性要求,也即,所述第二显著性对应的特征表现为不显著。
基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征,具体地,基于各所述第二类型显著性,在所述第二模型特征集中选取显著性最高的最显著特征,并判断所述最显著特征是否满足预设显著性要求,若所述最显著特征满足预设显著性要求,则将所述最显著特征作为所述目标特征,若所述待选择特征不满足所述预设显著性要求,则跳出所述第二模型特征集对应的第二循环流程,如图5所示为所述第二循环流程加上所述第一循环流程对应的模型选择流程示意图,其中,所述数据为所述待训练特征集中各特征对应的训练数据,所述训练模型为所述预设待训练模型,加入模型的特征即为所述第一模型特征集中的各特征,所述阀值为所述预设剔除显著性阀值,所述显著性即为所述预设显著性要求。
其中,所述基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征的步骤包括:
步骤s331,将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征;
在本实施例中,将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征,具体地,将各所述第二类型显著性对应的皮尔逊相关性值进行比对,以选取皮尔逊相关性值最小的特征作为所述最显著特征。
步骤s332,将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对;
在本实施例中,需要说明的是,所述预设显著性阀值可由用户自行设置,所述目标显著性为所述最显著特征的所述第二类型显著性。
将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对,具体地,将所述最显著特征的目标显著性对应的皮尔逊相关性值与所述预设显著性阀值对应的皮尔逊相关性阀值进行比对。
步骤s333,若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征。
在本实施例中,若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征,具体地,若所述目标显著性大于或者等于所述预设显著性阀值,则表明所述目标显著性对应的皮尔逊相关性值小于或者等于所述皮尔逊相关性阀值,所述待选择特征表现为显著,进而判定所述待选最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征,若所述目标显著性小于所述预设显著性阀值,则表明所述目标显著性对应的皮尔逊相关性值大于于所述皮尔逊相关性阀值,进而判定所述最显著特征不满足所述预设显著性要求,并跳出所述第二循环流程。
步骤s34,将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
在本实施例中,需要说明的是,将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集,具体地,将所述目标特征加入所述第一模型特征集,并将加入所述目标特征后的第一模型特征集加入上一次迭代训练更新后的所述第一初始训练模型,以对上一次迭代训练更新后的所述第一初始训练模型进行迭代训练更新,获得本次更新后的所述第一初始训练模型,并将本次更新后的所述第一初始训练模型作为所述第二模型元素之一,进一步地,重新反复执行所述第一循环流程,直至加入所述目标特征后的所述第一模型特征集达到所述预设第一循环流程终止条件,也即,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征,获得一个或者多个所述第二模型元素,进一步地,重新反复执行所述第二循环流程,也即,重新计算所述第二模型特征集中剩下的其他特征的所述第二类型显著性,以重新选取所述目标特征加入所述第一模型特征集,并重新执行所述第一循环流程,直至加入所述目标特征后的所述第一模型特征集达到所述预设第一循环流程终止条件,且所述第二模型特征集达到所述预设第二循环流程终止条件,也即,直至所述第一模型特征集中不存在所述待剔除特征,且所述第二模型特征集中不存在所述目标特征。
其中,所述第二循环训练模型集包括一个或者多个第二模型元素,
所述将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集的步骤包括:
步骤s341,将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集;
在本实施例中,将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集,具体地,将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集所包括的特征数量和信息,并更新所述第二模型特征集所包括的特征数量和信息,获得更新后的所述第一模型特征集和更新后的第二模型特征集,例如,假设所述第一模型特征集包括特征x1和特征x2,其中,所述目标特征为x1,所述第二模型特征集包括特征x3和特征x4,则更新后的所述第一模型特征集包括特征x2,更新后的所述第二模型特征集包括特征x1、特征x3和特征x4。
步骤s342,基于更新后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,获得所述第二模型元素之一;
在本实施例中,基于更新后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,获得所述第二模型元素之一,具体地,将更新后的所述第一模型特征集加入上一次更新后的所述第一初始训练模型,以对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型达到所述迭代训练完成判定条件,获得本次更新后的所述第一初始训练模型,也即,获得所述第二模型元素之一。
步骤s343,重新计算更新后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,获得一个或者多个所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征,则跳出所述第一模型特征集对应的第一循环流程;
在本实施例中,需要说明的是,每向所述第一模型特征集中加入一所述目标特征之后,则重新执行所述第一循环流程,直至所述第一模型特征集不存在所述待剔除特征,获得一个或者多个所述第二模型元素。
步骤s344,重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程。
在本实施例中,重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程,具体地,重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以基于重新计算的各所述第二类型显著性,重新选取目标特征加入所述第一模型特征集,以重新执行所述第一循环流程,直至所述第一模型特征集中不存在所述待剔除特征,获得一个或者多个第二模型元素,进一步地,继续在所述第二模型特征集中重新选取目标特征,以重新执行所述第一循环流程,直至所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
本实施例通过基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征,进而基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集,进而基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征,进而将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。也即,本实施例基于各所述第一类型显著性,逐步剔除第一模型特征集中的待剔除特征,并基于剔除后的所述第一模型特征集对所述第一初始训练模型进行迭代训练更新,获得第一模型元素,并基于各所述第二类型显著性,逐步在所述第二模型特征集中选取目标特征加入所述第一模型特征集,以对所述第一初始训练模型进行迭代训练更新,获得所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征中不存在所述目标特征,获得循环训练模型集,进而实现了逐步选择模式的模型选择,进而为实现无代码化分布式建模和可视化建模的逐步选择模式的模型选择奠定了基础,所以,为解决现有技术中逐步选择模式建模门槛高和效率低的技术问题奠定了基础。
进一步地,参照图6,基于本申请中第一实施例,在向前模型选择方法的另一实施例中,所述向前模型选择方法应用于客户端,所述向前模型选择方法包括:
步骤a10,接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
在本实施例中,需要说明的是,所述模型选择任务包括目标模型要求,所述目标模型要求由所述配置参数决定,所述配置参数包括大迭代系数、最小收敛误差、模型选择模式等参数。
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端,具体地,接收模型选择任务,并在预设本地数据库中匹配所述模型选择任务对应的配置参数或者由用户基于所述模型选择任务自行设置所述配置参数,进一步地,将所述配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和本地获取的待训练模型集进行对预设待训练模型的训练更新,获得第一初始训练模型,进而对所述第一初始训练模型进行循环训练更新,获得循环训练模型集,并在各所述循环训练模型集中选取符合预设模型选择策略的模型作为目标训练模型,以将所述目标训练模型对应的过程数据转化为所述可视化数据反馈至所述客户端,其中,所述可视化数据包括备选特征可视化数据、模型选择汇总可视化数据和模型训练过程可视化数据,其中,所述备选特征为各所述待训练特征集中的各特征,所述模型选择汇总数据包括基于预设模型选择策略对所述循环训练模型集中的模型元素进行模型选择的汇总数据。
步骤a20,接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
在本实施例中,需要说明的是,所述客户端可在所述预设可视化界面上实时查询所述服务端的所述过程数据对应的可视化数据,且可在进行模型选择的过程中或者模型选择结束后进行所述过程数据的查询,所述客户端与所述服务端通信连接。
本实施例通过接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端,进而接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。也即,本实施提供了一种无代码化分布式建模和可视化建模的模型选择方法,用户只需通过客户端设置并发送必要的配置参数至服务端,服务器端可反馈相应的可视化数据,也即,本实施例实现了分布式建模,提高了进行模型选择时的建模效率,且该模型选择过程对用户无任何代码开发能力要求,降低了对建模人员的能力门槛要求,且由于服务端可将获取所述目标训练模型对应的过程数据转化为可视化数据反馈至客户端,进一步降低了对建模人员的能力门槛要求,且可视化数据便于建模人员去进行理解和阅读,进而可进一步提高建模人员的建模效率,所以,解决了现有技术中向前选择模式建模门槛高和效率低的技术问题。
参照图7,图7是本申请实施例方案涉及的硬件运行环境的设备结构示意图。
如图7所示,该逐步模型选择设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。
可选地,该逐步模型选择设备还可以包括矩形用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。
本领域技术人员可以理解,图7中示出的逐步模型选择设备结构并不构成对逐步模型选择设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图7所示,作为一种计算机存储可读存储介质的存储器1005中可以包括操作系统、网络通信模块以及逐步模型选择程序。操作系统是管理和控制逐步模型选择设备硬件和软件资源的程序,支持逐步模型选择程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与逐步模型选择系统中其它硬件和软件之间通信。
在图7所示的逐步模型选择设备中,处理器1001用于执行存储器1005中存储的逐步模型选择程序,实现上述任一项所述的逐步模型选择方法的步骤。
本申请逐步模型选择设备具体实施方式与上述逐步模型选择方法各实施例基本相同,在此不再赘述。
本申请实施例还提供一种逐步模型选择装置,所述逐步模型选择装置应用于服务端,所述逐步模型选择装置包括:
第一训练模块,用于所述接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
计算模块,用于所述分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性;
第二训练模块,用于所述分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
选取模块,用于所述基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型;
反馈模块,用于所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
可选地,所述第二训练模块包括:
剔除子模块,用于所述基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征;
第一循环训练子模块,用于所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集;
选取子模块,用于所述基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征;
第二循环训练子模块,用于所述将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
可选地,所述剔除子模块包括:
第一选取单元,用于所述将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征;
第一比对单元,用于所述将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对;
第一判定单元,用于所述若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征。
可选地,所述第一循环训练子模块包括:
第一迭代训练单元,用于所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型满足所述迭代训练完成判定条件,获得各所述第一模型元素之一;
第二迭代训练单元,用于所述重新计算剔除后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集。
可选地,所述选取子模块包括:
第二选取单元,用于所述将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征;
第二比对单元,用于所述将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对;
第二判定单元,用于所述若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征。
可选地,所述循环训练子模块包括:
更新单元,用于所述将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集;
第三迭代训练单元,用于所述重新计算更新后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,获得一个或者多个所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征,则跳出所述第一模型特征集对应的第一循环流程;
循环单元,用于所述重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程。
可选地,所述计算模块包括:
第一计算子模块,用于所述计算所述第一模型特征集中各元素对应的wald卡方值;
第二计算子模块,用于所述基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性;
第三计算子模块,用于所述计算所述第二模型特征集中各元素对应的评分卡方值;
第四计算子模块,用于所述基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性。
可选地,所述选取模块包括:
获取子模块,用于所述获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括auc值和aic值;
第一选取子模块,用于所述若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型;
第二选取子模块,用于所述若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型。
可选地,所述反馈模块包括:
获取子模块,用于所述获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
反馈子模块,用于所述生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
本申请逐步模型选择装置的具体实施方式与上述逐步模型选择方法各实施例基本相同,在此不再赘述。
为实现上述目的,本申请实施例还提供一种逐步模型选择装置,所述逐步模型选择装置应用于客户端,所述逐步模型选择装置包括:
发送模块,用于所述接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收模块,用于所述接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
本申请逐步模型选择装置的具体实施方式与上述逐步模型选择方法各实施例基本相同,在此不再赘述。
本申请实施例提供了一种可读存储介质,且所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的逐步模型选择方法的步骤。
本申请可读存储介质具体实施方式与上述逐步模型选择方法各实施例基本相同,在此不再赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
1.一种逐步模型选择方法,其特征在于,所述逐步模型选择方法应用于服务端,所述逐步模型选择方法包括:
接收与所述服务端关联的客户端发送的配置参数并获取待训练特征集,并基于所述待训练特征集和所述配置参数对预设待训练模型进行训练,获得第一初始训练模型;
分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性;
分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集;
基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型;
生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端。
2.如权利要求1所述逐步模型选择方法,其特征在于,所述待训练特征集包括第一模型特征集和第二模型特征集,所述循环训练模型集包括第一循环训练模型集和第二循环训练模型集,
所述分别基于各所述第一类型显著性和各所述第二类型显著性,对所述第一初始训练模型进行循环训练,获得循环训练模型集的步骤包括:
基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征;
基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集;
基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征;
将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集。
3.如权利要求2所述逐步模型选择方法,其特征在于,所述基于各所述第一类型显著性,在所述第一模型特征集中剔除符合预设剔除显著性要求的待剔除特征的步骤包括:
将各所述第一类型显著性进行比对,以在所述第一模型特征集中选取显著性最低的特征作为待选择特征;
将所述待选择特征的待选择显著性与预设剔除显著性阀值进行比对;
若所述待选择显著性小于所述预设剔除显著性阀值,则判定所述待选择特征满足所述预设剔除显著性要求,并将所述待选择特征作为所述待剔除特征。
4.如权利要求2所述逐步模型选择方法,其特征在于,所述配置参数包括迭代训练完成判定条件,所述第一循环训练模型集包括一个或者多个第一模型元素,
所述基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行循环训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集的步骤包括:
基于剔除后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,直至所述第一初始训练模型满足所述迭代训练完成判定条件,获得各所述第一模型元素之一;
重新计算剔除后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,直至所述第一模型特征集中不存在所述待剔除特征,获得所述第一循环训练模型集。
5.如权利要求2所述逐步模型选择方法,其特征在于,所述基于各所述第二类型显著性,在所述第二模型特征集中选取符合预设显著性要求的目标特征的步骤包括:
将各所述第二类型显著性进行比对,以在所述第二模型特征集中选取显著性最高的最显著特征;
将所述最显著特征对应的目标显著性与所述预设显著性阀值进行比对;
若所述目标显著性大于或者等于所述预设显著性阀值,则判定所述最显著特征满足所述预设显著性要求,并将所述最显著特征作为所述目标特征。
6.如权利要求2所述逐步模型选择方法,其特征在于,所述第二循环训练模型集包括一个或者多个第二模型元素,
所述将所述目标特征加入所述第一模型特征集,并基于加入所述目标特征后的所述第一模型特征集对更新后的所述第一初始训练模型进行循环训练,直至加入所述目标特征后的所述第一模型特征集中不存在所述待剔除特征且所述第二模型特征集中不存在所述目标特征,获得所述第二循环训练模型集的步骤包括:
将所述目标特征加入所述第一模型特征集,以更新所述第一模型特征集和所述第二模型特征集,获得更新后的所述第一模型特征集和更新后的第二模型特征集;
基于更新后的所述第一模型特征集,对所述第一初始训练模型进行迭代训练更新,获得所述第二模型元素之一;
重新计算更新后的所述第一模型特征集中各元素的所述第一类型显著性,以重复进行对所述待剔除特征的剔除和对更新后的所述第一初始训练模型的迭代训练更新,获得一个或者多个所述第二模型元素,直至所述第一模型特征集中不存在所述待剔除特征,则跳出所述第一模型特征集对应的第一循环流程;
重新计算更新后的所述第二模型特征集中各元素的所述第二类型显著性,以重复选取所述第二模型特征集中的所述目标特征,并将所述目标特征加入所述第一模型特征集,以重复执行所述第一循环流程,获得一个或者多个所述第二模型元素,直至所述第二模型特征集中不存在所述目标特征,则跳出所述第二模型特征集对应的第二循环流程。
7.如权利要求1所述逐步模型选择方法,其特征在于,所述待训练特征集包括第一模型特征集和第二模型特征集,
所述分别计算所述待训练特征集对应的第一类型显著性和第二类型显著性的步骤包括:
计算所述第一模型特征集中各元素对应的wald卡方值;
基于各所述wald卡方值和所述第一模型特征集中各元素的自由度,计算所述第一模型特征集中各元素的第一类型显著性;
计算所述第二模型特征集中各元素对应的评分卡方值;
基于各所述评分卡方值和所述第二模型特征集中各元素的自由度,计算所述第二模型特征集中各元素的第二类型显著性。
8.如权利要求1所述逐步模型选择方法,其特征在于,所述基于所述配置参数,在所述第一初始训练模型和所述循环训练模型集之中选取目标训练模型的步骤包括:
获取所述参数配置中的模型选择策略,其中,所述模型选择策略包括auc值和aic值;
若所述模型选择策略为所述auc值,则将所述循环训练模型集中各元素的所述auc值进行对比,以选取最大的所述auc值对应的元素作为所述目标训练模型;
若所述模型选择策略为所述aic值,则将所述循环训练模型集中各元素的所述aic值进行对比,以选取最小的所述aic值对应的元素作为所述目标训练模型。
9.如权利要求1所述逐步模型选择方法,其特征在于,所述客户端包括可视化界面,
所述生成所述目标训练模型对应的可视化数据,并将所述可视化数据反馈至所述客户端的步骤包括:
获取所述目标训练模型的模型选择过程对应的备选特征数据、选择汇总数据和训练过程数据;
生成所述备选特征数据、所述选择汇总数据和所述训练过程数据共同对应的可视化数据,并将所述可视化数据实时反馈至所述可视化界面。
10.一种逐步模型选择方法,其特征在于,所述逐步模型选择方法应用于客户端,所述逐步模型选择方法包括:
接收模型选择任务,并将所述模型选择任务对应的配置参数发送至与所述客户端关联的服务端,以供所述服务端基于所述配置参数和获取的待训练特征进行模型选择,获得目标训练模型,并获取所述目标训练模型对应的可视化数据,以将所述可视化数据发送至所述客户端;
接收所述服务端反馈的所述可视化数据,并将所述可视化数据在预设可视化界面进行展示。
11.一种逐步模型选择设备,其特征在于,所述逐步模型选择设备包括:存储器、处理器以及存储在存储器上的用于实现所述逐步模型选择方法的程序,
所述存储器用于存储实现逐步模型选择方法的程序;
所述处理器用于执行实现所述逐步模型选择方法的程序,以实现如权利要求1至9或10中任一项所述逐步模型选择方法的步骤。
12.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现逐步模型选择方法的程序,所述实现逐步模型选择方法的程序被处理器执行以实现如权利要求1至9或10中任一项所述逐步模型选择方法的步骤。
技术总结