交互式随机森林集成方法、设备及可读存储介质与流程

专利2022-06-29  106


本发明涉及金融科技(fintech)的机器学习技术领域,尤其涉及一种交互式随机森林集成方法、设备及可读存储介质。



背景技术:

随着金融科技,尤其是互联网科技金融的不断发展,越来越多的技术应用在金融领域,但金融业也对技术提出了更高的要求,随着计算机软件和人工智能的不断发展,机器学习建模的应用也越来越广泛。

在各种业务场景的机器学习建模过程中,有时为了得到的模型更具有代表性,会使用集成学习模型来代替单一的决策树模型,随机森林即是最常用的集成学习模型之一。传统的随机森林建模,建模人员需要通过bootstrap方法(自助法)对数据集进行多次采样得到多个样本,再用每个样本去生成完整的决策树模型,最后再将这些模型进行集成得到随机森林模型。建模运算复杂,要求建模人员熟悉各类损失函数的构造且具备较高的代码能力,难度高,效率低。



技术实现要素:

本发明的主要目的在于提供一种交互式随机森林集成方法、设备和可读存储介质,旨在解决现有技术中随机森林建模难度高,效率低的技术问题。

为实现上述目的,本发明实施例提供一种交互式随机森林集成方法,所述交互式随机森林集成方法应用于交互式随机森林集成设备,所述交互式随机森林集成方法包括:

获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面;

接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型;

接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型。

可选地,所述获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面的步骤,包括:

调用交互式随机森林组件的输入端口,将所述输入端口与所述样本数据集连接;

通过所述输入端口从所述样本数据集中获取训练数据集,将获取的所述训练数据集输入到所述交互式随机森林组件中,并输出参数配置界面。

可选地,所述接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型的步骤,包括:

接收基于所述参数配置界面输入的配置参数,提取所述配置参数中的特征信息,获取所述样本数据集中的训练数据集;

根据所述特征信息和所述训练数据集,生成多个决策树模型,将所有决策树模型进行集成,得到初始随机森林模型。

可选地,所述接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型的步骤之后,包括:

当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图;

当接收到基于所述总视图输入的决策树排序指令时,获取所述决策树排序指令对应的排序指标;

根据所述排序指标,对所述总视图进行重绘操作,并输出重绘后的总视图。

可选地,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,包括:

当接收到决策树搜索指令时,获取所述决策树搜索指令中的决策树标识;

判断所述初始随机森林模型中是否存在与所述决策树标识对应的对象决策树;

若存在所述对象决策树,则输出所述对象决策树的决策树图。

可选地,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,还包括:

当接收到基于所述总视图中目标决策树输入的查看指令时,输出所述目标决策树的决策树图;

若接收到基于所述目标决策树输入的决策树保留指令,则将所述目标决策树的状态设置为保留状态。

可选地,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,还包括:

当接收到基于所述总视图输入的决策树筛选指令时,获取所述决策树筛选指令中的筛选参数,将符合所述筛选参数的决策树作为第一决策树;

当接收到舍弃指令时,获取所述舍弃指令中的决策树标识,判断所述第一决策树中是否存在所述决策树标识对应的对象决策树;

若所述第一决策树中存在对象决策树,则删除所述第一决策树中的对象决策树;

在保留第一决策树时,删除不符合所述筛选参数的决策树和所述第一决策树中存在的对象决策树。

可选地,所述接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型的步骤,包括:

接收到基于所述初始随机森林模型的调整指令,获取所述调整指令对应的第二决策树;

删除所述第二决策树后,调整所述初始随机森林模型,生成标准随机森林模型。

本发明还提供一种交互式随机森林集成设备,所述交互式随机森林集成设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述交互式随机森林集成方法的程序,所述交互式随机森林集成方法的程序被处理器执行时可实现如上述的交互式随机森林集成方法的步骤。

本发明还提供一种可读存储介质,所述可读存储介质上存储有实现交互式随机森林集成方法的程序,所述交互式随机森林集成方法的程序被处理器执行时实现如上述的交互式随机森林集成方法的步骤。

本申请通过获取训练数据集和验证数据集,并将获取到的训练数据集和验证数据集输入到交互式随机森林组件中,进而,基于用户输入的随机森林配置参数,执行随机森林组件的运行操作,待操作完成,随机森林组件运行成功后,便会输出交互式随机森林模型。本申请通过获取预先采集到的样本数据集,并将样本数据集输入到交互式随机森林组件中,建模人员可通过参数配置界面设置随机森林的参数信息,并运行交互式随机森林组件,生成初始随机森林模型,建模人员还可以根据需求对初始随机森林模型进行调整。本申请简化了建模的过程,建模人员只需要设置参数信息,便可生成随机森林模型,这使得建模人员的工作量减少,也降低了对建模人员的要求,同时也减少了建模时发生的错误。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明交互式随机森林集成方法第一实施例的流程示意图;

图2为本发明交互式随机森林集成方法中数据集输入的示意图;

图3为本发明交互式随机森林集成方法中参数配置的示意图;

图4为本发明交互式随机森林集成方法中决策树剔除和保留的示意图;

图5为本发明交互式随机森林集成方法第二实施例的流程示意图;

图6为本发明交互式随机森林集成方法中总视图和决策树图的示意图;

图7为本发明交互式随机森林集成方法中决策树搜索的示意图;

图8为本发明交互式随机森林集成方法中决策树查看的示意图;

图9为本发明交互式随机森林集成方法中决策树保留的示意图;

图10为本发明交互式随机森林集成方法中模型复用的示意图;

图11为本发明实施例方案涉及的硬件运行环境的设备结构示意图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种交互式随机森林集成方法,所述交互式随机森林集成方法应用于交互式随机森林集成设备,在本申请交互式随机森林集成方法的第一实施例中,参照图1,所述交互式随机森林集成方法包括:

步骤s10,获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面。

本实施例中的样本数据集包括:训练数据集和验证数据集。其中训练数据集用于训练模型,验证数据集用于评估交互式随机森林模型算法的整体评估指标以及单棵树的评估指标,包括但不限于auc(areaundercurve,曲线下方的面积)指标、ks(kolmogorov-smirnov,柯尔莫哥罗夫-斯米尔诺夫)指标和loss(loss,损失)指标。

在现有的大数据时代,我们面临的数据规模大、非结构化数据多、特征稀疏、类别不均衡等问题。在数据预处理和数据集切分时需要提供丰富的交互方式。在训练集合验证集划分时,应结合数据的业务含义(二分类,多分类或者回归)和时序性(例如,新闻,视频或者音频等时序性较强的资源),保证数据处于同一分布(即,保证数据的无差异性和随机性)。数据划分完成后,将训练数据集和验证数据集一同输入到交互式随机森林组件后,交互式随机森林集成程序将输出一个参数配置界面,这时交互式随机森林建模的初始工作就完成了,其中,交互式随机森林组件用于接收输入的训练数据集和验证数据集,并输出交互式随机森林模型(可简化称之为模型)。

具体地,步骤s10细化的步骤,还包括:

步骤a1,调用交互式随机森林组件的输入端口,将所述输入端口与所述样本数据集连接。

步骤a2,通过所述输入端口从所述样本数据集中获取训练数据集,将获取的所述训练数据集输入到所述交互式随机森林组件中,并输出参数配置界面。

可知地,交互式随机森林组件是一种对数据和方法的简单封装,组件可以具有多个输入输出接口,本实施例中的交互式随机森林组件的输入接口用于接收训练数据集和验证数据集,输出接口则用于输出交互式随机森林模型。

已知,模型训练时需要使用大量的数据样本,在进行模型训练前,这些数据通常会被分成几个部分,这些被划分的数据会以集合的形式进行区分,这些被划分成几个部分的数据中有两个部分的数据被称为训练数据集和验证数据集,它们分别被存放在训练数据表和验证数据表中,获取交互式随机森林组件的两个输入端口,将两个输入端口分别与训练数据表和验证数据表进行连接的目的就是,使训练数据集和验证数据集可以通过输入端口输入至交互式随机森林组件中。如图2所示,图2中的随机森林即是指交互式随机森林模型组件,随机森林的上方与带箭头的一端相接的即是输入端口,不带箭头的另一端分别相连的即是训练数据表和验证数据表,随机森林的下方即是输出端口。训练数据集和验证数据集被输入到交互式随机森林模型组件后,交互式随机森林集成程序将输出参数配置界面,参数配置界面如图3所示。

步骤s20,接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型。

可知地,建模的过程包括获取数据样本,将获取到的数据样本划分后输入到交互式随机森林模型组件中,模型参数调节等。本实施例中的交互式随机森林模型组件支持用户手动调整模型的参数,如图3所示,用户根据需要调节图3中的各种参数,选择保存并运行所述交互式随机森林模型组件后,交互式随机森林模型组件即可根据用户输入的参数生成对应的交互式随机森林模型。

可知地,交互式随机森林模型调参并不仅仅是基于对算法的理解,更是一个积累经验的过程,本实施例以树个数这一参数举例说明,已知,树的个数过少会造成欠拟合现象,而树的个数过多则会造成过拟合现象,树的个数具体可设的范围需要本领域的技术人员通过大量的建模实践得出的,如图3中树个数的范围为1到10000,这也是用户调整这一参数时可设置的范围。图3中其他参数的设置方式与树个数的设置方式相同。

具体地,步骤s20细化的步骤,包括:

步骤b1,接收基于所述参数配置界面输入的配置参数,提取所述配置参数中的特征信息,获取所述样本数据集中的训练数据集。

步骤b2,根据所述特征信息和所述训练数据集,生成多个决策树模型,将所有决策树模型进行集成,得到初始随机森林模型。

可知地,用于随机森林建模的训练数据集来自样本数据集,在建模时,可采用有放回抽样的方式获取构建决策树所需的数据样本,进而接收用户在参数配置界面上输入的配置参数,如图3所示,用户输入的配置参数中包含决策树构建所需的特征信息,例如,最大深度和最大分支树等。当获取到特征信息和数据样本后,即可构建生成决策树,已知,采用有放回抽样方式获取的数据样本可构建单个决策树,根据需要,可对构建的决策树进行集成,以得到随机森林模型。

步骤s30,接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型。

本实施例中标准随机森林模型是指,交互式随机森林集成程序基于用户触发的调整指令对初始随机森林模型进行调整后,生成的新的随机森林模型,可知地,若对初始随机森林模型的调整仅涉及模型视图的改变时,模型本身并没有变化,这种情况下标准随机森林模型仅仅用作模型调整前后的区别称呼,而若对初始随机森林模型的调整涉及到模型信息的改变时,标准随机森林模型即是调整后生成的新的随机森林模型。本实施例中,交互式随机森林组件生成的交互式随机森林模型除了支持可视化查看,还支持用户基于需要对模型整体所做出的调整,本实施例中对模型整体所做的调整仅限于,由于决策树的删除和保留所造成的模型的相关数据的改变。已知,用户每次对交互式随机森林模型的调整都会伴随新模型的生成(即,对模型进行更新),新的模型可以是视图的不同,也可以是信息表中数据的不同。

具体地,在涉及到决策树的删除的情况下,当用户基于筛选参数(包括loss,ks和auc)对模型总视图中的所有树进行筛选时,不符合筛选条件的树可能被删除,已知,当有决策树被删除时,可视化展示区域的相应部分将发生变化,模型的总视图将被重绘,被删的决策树可以不显示在可视化展示区域内,也可以在可视化显示区域内显示但不能被选中,可视化展示区域右侧的信息表将会对应更新。

具体地,步骤s30细化的步骤,包括:

步骤c1,接收到基于所述初始随机森林模型的调整指令,获取所述调整指令对应的第二决策树。

步骤c2,删除所述第二决策树后,调整所述初始随机森林模型,生成随机森林模型。

可知地,本实施例中基于初始随机森林模型所做出的调整,是由于删除了模型中的某些决策树造成的,对模型所做出的调整除了造成模型总视图的变化外,还将造成与模型相关的信息表内数据的变化。本实施例中的第二决策树即是指被删除的树,其中,第二决策树包括不符合筛选条件的树和用户额外剔除的树,第二决策树可以在决策树的筛选和单个决策树的查看时确定,如图4所示,基于用户输入的决策树筛选条件,或者用户通过在“额外剔除以下树”的输入框内手动输入决策树标识,可以确定第二决策树,已知,用户在“额外剔除以下树”的输入框内输入的决策树不受筛选条件的影响,即,用户在“额外剔除以下树”的输入框内输入的决策树无论是否符合筛选条件,都将被删除。

当第二决策树被删除后,初始随机森林模型将被调整,调整的内容包括视图和信息表内的数据,对初始随机森林模型进行调整后生成随机森林模型。

本实施例中,通过获取训练数据集和验证数据集,并将获取到的训练数据集和验证数据集输入到交互式随机森林组件中,进而,基于用户输入的随机森林配置参数,执行随机森林组件的运行操作,待操作完成,随机森林组件运行成功后,便会输出交互式随机森林模型。本申请支持模型的可视化查看和交互式操作,当用户基于可视化展示区域内的各个输出部分进行查看操作时,可视化展示区域会基于用户的操作做出相应改变。本申请还支持对模型整体进行调整,包括筛除不符合条件的树,当每次删除或者保留决策树时,除了模型总视图的变化外,还包括信息表内的数据变化,信息表内的数据变化反应了模型整体的变化。通过将获取到的训练数据集和验证数据集输入到交互式随机森林组件中,配置参数后,运行组件得到交互式随机森林模型,实现了快速简易的建模,因为只需要建模人员对模型的参数进行配置,因此,也减少了建模人员的工作量。

进一步地,参照图5,在本发明上述实施例的基础上,提出了本发明音频信息管理方法的第二实施例。

本实施例是第一实施例中步骤s20之后的步骤,本实施例与本发明上述实施例的区别在于:

步骤s40,当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图。

可知地,本实施例中基于随机森林模型输入的总视图查看指令包括,用户主动输入和自动生成的。当用户对模型的参数进行配置并运行随机森林组件,即主动输入了总视图查看指令,组件运行成功后,用户即可以可视化查看模型结果,如图6所示,可视化展示区域内会输出模型的总视图。而当用户对展示区域进行查看操作时,若查看操作会对模型的总视图产生影响,例如根据决策树的不同指标对所有树进行排序,则用户在执行排序操作的同时,还自动生成了总视图查看指令,即,每一次排序都伴随着新的总视图的生成。可知地,会使总视图发生更新的情况还有很多,本实施例不再一一叙述。

具体地,步骤s40之后的步骤,包括:

步骤d1,当接收到决策树搜索指令时,获取所述决策树搜索指令中的决策树标识。

步骤d2,判断所述初始随机森林模型中是否存在与所述决策树标识对应的对象决策树。

步骤d3,若存在所述对象决策树,则输出所述对象决策树的决策树图。

生成的交互式随机森林模型中的每个决策树都拥有一个特定的标识号(即id),用户除了手动点击模型总视图中的某个决策树之外,还可以在可视化显示区域特定部位的输入框中手动输入标识号,如图7所示,若模型中存在这个标识号对应的决策树(即本实施例中的对象决策树),则自动选中这个标识号对应的决策树,可视化展示区域的下方便会显示对应的决策树图。可知地,当模型中不存在与用户输入的标识号对应的决策树时,可视化展示区域内还会显示“搜索的标识号不存在”的提示信息(图7中未给出),不存在与用户输入的标识号对应的决策树的原因除了用户输入的标识号不规范之外(即标识号输入错误),还可能是因为用户在搜索标识号之前对模型的所有树做过筛选,已知,不符合筛选条件的决策树会被删除,若用户输入的标识号是用户在搜索前已经删除的决策树,则可视化展示区域内会显示“搜索的标识号不存在”的提示信息。图7中的标识号仅用于举例说明,标识号具体内容本实施例不做限制和详述。支持用户手动输入标识号的方式在决策树较多,用户有目的地搜索时,能有效提高用户查看相应决策树的效率。

具体地,步骤s40之后的步骤,还包括:

步骤e1,当接收到基于所述总视图中目标决策树输入的查看指令时,输出所述目标决策树的决策树图。

模型总视图中包括该模型所有的决策树,这些决策树在模型刚生成时按照默认的指标进行排序,用户可以手动选择不同的指标对模型中的决策树进行排序,伴随着每次排序,模型的总视图会进行重绘。用户对于模型总视图中的单个决策树进行查看的方法包括两种,一种方法是,用户直接点击选中模型总视图中的某个决策树,可视化展示区域内对应的位置便会显示该决策树的视图(即,决策树图)和该决策树的信息(包括决策树标识号和参数信息),另一种方法是,用户在可视化区域内的搜索框输入决策树标识号,若模型中存在与该标识号对应的决策树,则可视化展示区域内会显示对应的决策树图。可知地,如图8所示,在第一种对单个决策树进行查看的方法中,若查看前模型已被筛选过且存在被删除的决策树,而用户没有点击“显示筛选”按钮,则模型总视图中会保留被删除的决策树(图8中以颜色深浅区分删除的决策树和保留的决策树),当用户点击被删除的决策树(颜色较浅)时,可视化展示区域内对应的位置不会显示该决策树的视图和该决策树的信息。

步骤e2,若接收到基于所述目标决策树输入的决策树保留指令,则将所述目标决策树的状态设置为保留状态。

如图9所示,当用户对单个决策树进行查看时,决策树图的右上方会出现“保留该树”的按钮,当用户点击选中该按钮时,这个决策树的状态将会被设置为不可滤除状态,即当用户设置筛选条件对决策树进行筛选时,无论这个决策树是否符合筛选条件,这个决策树都将被保留,而若用户不点击“保留该树”按钮,则当这个树不符合用户设置的筛选条件时,这个树将会被删除。如图4所示,保留决策树的方法除了点击“保留该树”按钮外,还可以在进行决策树筛选时,手动在“额外保留以下树”输入框内输入需要保留的决策树的标识号,若模型中存在与输入的标识号对应的决策树,则该决策树的状态将会被设置为不可滤除状态,即,无论这个决策树是否符合筛选条件,这个决策树都将被保留。

具体地,步骤s40之后的步骤,还包括:

步骤f1,当接收到基于所述总视图输入的决策树筛选指令时,获取所述决策树筛选指令中的筛选参数,将符合所述筛选参数的决策树作为第一决策树。

步骤e2,当接收到舍弃指令时,获取所述舍弃指令中的决策树标识,判断所述第一决策树中是否存在所述决策树标识对应的对象决策树。

步骤f3,若所述第一决策树中存在对象决策树,则删除所述第一决策树中的对象决策树。

步骤f4,在保留第一决策树时,删除不符合所述筛选参数的决策树和所述第一决策树中存在的对象决策树。

用户可点击模型总视图右上角的“筛选”图标弹出筛选窗口,进而对模型中的决策树进行筛选,如图4所示,筛选参数包括ks,auc和loss,其中,可用于二分类模型筛选的参数包括ks,auc和loss,而可用于多分类模型和回归模型筛选的参数为loss。当用户基于筛选参数输入筛选条件后,还可以在筛选窗口下方输入额外保留的树和额外剔除的树,当用户输入完成并点击确定后,不符合筛选条件的树中若存在用户输入的额外保留的树,则不符合筛选条件的树中除额外保留的树之外,其余的树都将被删除。而不符合筛选条件的树中若存在用户输入的额外保留的树,则不符合筛选条件的树中额外保留的树将不会被删除。

本实施例中交互式随机森林组件运行后输出的交互式随机森林模型支持可视化展示,用户除了可以看到模型整体和单个决策树的信息外,还可以基于需求对模型整体或单个决策树进行调整,无论是基于模型信息的查看,还是基于需求对模型进行调整,可视化展示区域都有对应的操作指示,这在满足用户需求的基础上更加方便了用户对模型的操作。

如图10所示,本实施例中交互式随机森林模型还支持模型复用,即,上游随机森林组件的模型参数可以复用至下游随机森林组件,则下游随机森林组件可以直接利用上游随机森林模型的方法进行模型训练,进而查看运行结果,不需要再进行配置参数。另外,也可以输出随机森林模型作为交叉验证或预测等组件的输入,分别用于对训练模型的交叉验证和新数据的模型预测。在进行模型复用时,在进行模型复用时,将上游随机森林组件的输出端口与下游随机森林组件的输入端口相连接,即可完成模型传输通道,再为下游随机森林组件连接数据表,即完成模型复用的组件搭建。

步骤s50,当接收到基于所述总视图输入的决策树排序指令时,获取所述决策树排序指令对应的排序指标。

步骤s60,根据所述排序指标,对所述总视图进行重绘操作,并输出重绘后的总视图,以供用户查看。

在不涉及决策树的删除的情况下,当用户手动点击交互式随机森林模型的所有树中的某个决策树时,这个决策树将会被显性标记,可视化展示区域的下方会显示这个决策树的视图(即,决策树图),决策树图的右上方会显示这个决策树的相关信息,包括树id和树指标等。用户每次查看不同的决策树时,整个可视化展示区域对应的位置都会发生变化。当用户选择根据决策树(也可简化称之为树)的不同指标(包括treesize,ks和auc)对模型总视图中的所有树进行排序时,模型的总视图会根据用户输入的指标进行更新(即重绘)。

本实施例在随机森林模型生成后,还支持可视化查看模型及其相关数据,更简便地对模型进行调整,减少了建模人员的工作量,也提高了建模的效率。

参照图11,图11是本发明实施例方案涉及的硬件运行环境的设备结构示意图。

如图11所示,该互式随机森林集成设备可以包括:处理器1001,例如cpu,存储器1005,通信总线1002。其中,通信总线1002用于实现处理器1001和存储器1005之间的连接通信。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储设备。

可选地,该互式随机森林集成设备还可以包括矩形用户接口、网络接口、摄像头、rf(radiofrequency,射频)电路,传感器、音频电路、wifi模块等等。矩形用户接口可以包括显示屏(display)、输入子模块比如键盘(keyboard),可选矩形用户接口还可以包括标准的有线接口、无线接口。网络接口可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。

本领域技术人员可以理解,图11中示出的互式随机森林集成设备结构并不构成对互式随机森林集成设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。

如图11所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及互式随机森林集成程序。操作系统是管理和控制互式随机森林集成设备硬件和软件资源的程序,支持互式随机森林集成程序以及其它软件和/或程序的运行。网络通信模块用于实现存储器1005内部各组件之间的通信,以及与互式随机森林集成系统中其它硬件和软件之间通信。

在图11所示的互式随机森林集成处理设备中,处理器1001用于执行存储器1005中存储的互式随机森林集成程序,实现上述任一项所述的互式随机森林集成方法的步骤。

本发明互式随机森林集成设备具体实施方式与上述互式随机森林集成方法各实施例基本相同,在此不再赘述。

本发明还提供一种交互式随机森林集成装置,所述交互式随机森林集成装置包括:

数据输入模块,用于获取训练数据集和验证数据集,并将所述训练数据集和所述验证数据集输入交互式随机森林组件;

组件运行模块,用于当接收到基于用户输入的随机森林配置参数后,运行所述随机森林组件,输出数据集和交互式随机森林模型;

模型输出模块,用于基于用户输入的交互式随机森林模型更新指令,输出更新后的随机森林模型。

可选地,所述数据输入模块包括:

端口连接单元你,用于调用交互式随机森林组件的输入端口,将所述输入端口与所述样本数据集连接;

数据集获取单元,用于通过所述输入端口从所述样本数据集中获取训练数据集,将获取的所述训练数据集输入到所述交互式随机森林组件中,并输出参数配置界面。

可选地,所述组件运行模块包括:

特征提取单元,用于接收基于所述参数配置界面输入的配置参数,提取所述配置参数中的特征信息,获取所述样本数据集中的训练数据集;

集成单元,用于根据所述特征信息和所述训练数据集,生成多个决策树模型,将所有决策树模型进行集成,得到初始随机森林模型。

可选地,所述交互式随机森林集成装置,还包括:

总视图输出单元,用于当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图;

决策树排序单元,用于当接收到基于所述总视图输入的决策树排序指令时,获取所述决策树排序指令对应的排序指标;

重绘单元,用于根据所述排序指标,对所述总视图进行重绘操作,并输出重绘后的总视图,以供用户查看。

可选地,所述交互式随机森林集成装置,还包括:

决策树搜索单元,用于当接收到决策树搜索指令时,获取所述决策树搜索指令中的决策树标识;

判断单元,用于判断所述初始随机森林模型中是否存在与所述决策树标识对应的对象决策树;

输出单元,用于若存在所述对象决策树,则输出所述对象决策树的决策树图。

可选地,所述交互式随机森林集成装置,还包括:

决策树图输出单元,用于当接收到基于所述总视图中目标决策树输入的查看指令时,输出所述目标决策树的决策树图;

决策树保留单元,若接收到基于所述目标决策树输入的决策树保留指令,则将所述目标决策树的状态设置为保留状态。

可选地,所述交互式随机森林集成装置,还包括:

筛选单元,用于当接收到基于所述总视图输入的决策树筛选指令时,获取所述决策树筛选指令中的筛选参数,将符合所述筛选参数的决策树作为第一决策树;

决策树标识获取单元,用于当接收到舍弃指令时,获取所述舍弃指令中的决策树标识,判断所述第一决策树中是否存在所述决策树标识对应的对象决策树;

对象决策树删除单元,用于若所述第一决策树中存在对象决策树,则删除所述第一决策树中的对象决策树;

第一决策树保留单元,用于在保留第一决策树时,删除不符合所述筛选参数的决策树和所述第一决策树中存在的对象决策树。

可选地,所述模型输出模块包括:

模型调整单元,用于接收到基于所述初始随机森林模型的调整指令,获取所述调整指令对应的第二决策树;

第二决策树删除单元,用于删除所述第二决策树后,调整所述初始随机森林模型,生成随机森林模型。

本发明交互式随机森林集成装置的具体实施方式与上述交互式随机森林集成方法各实施例基本相同,在此不再赘述。

本发明提供了一种可读存储介质,所述可读存储介质存储有一个或者一个以上程序,所述一个或者一个以上程序还可被一个或者一个以上的处理器执行以用于实现上述任一项所述的交互式随机森林集成方法的步骤。

本发明介质具体实施方式与上述交互式随机森林集成方法各实施例基本相同,在此不再赘述。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利处理范围内。


技术特征:

1.一种交互式随机森林集成方法,其特征在于,所述交互式随机森林集成方法包括:

获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面;

接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型;

接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型。

2.如权利要求1所述交互式随机森林集成方法,其特征在于,所述获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面的步骤,包括:

调用交互式随机森林组件的输入端口,将所述输入端口与所述样本数据集连接;

通过所述输入端口从所述样本数据集中获取训练数据集,将获取的所述训练数据集输入到所述交互式随机森林组件中,并输出参数配置界面。

3.如权利要求1所述交互式随机森林集成方法,其特征在于,所述接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型的步骤,包括:

接收基于所述参数配置界面输入的配置参数,提取所述配置参数中的特征信息,获取所述样本数据集中的训练数据集;

根据所述特征信息和所述训练数据集,生成多个决策树模型,将所有决策树模型进行集成,得到初始随机森林模型。

4.如权利要求1所述交互式随机森林集成方法,其特征在于,所述接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型的步骤之后,包括:

当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图;

当接收到基于所述总视图输入的决策树排序指令时,获取所述决策树排序指令对应的排序指标;

根据所述排序指标,对所述总视图进行重绘操作,并输出重绘后的总视图。

5.如权利要求4所述交互式随机森林集成方法,其特征在于,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,包括:

当接收到决策树搜索指令时,获取所述决策树搜索指令中的决策树标识;

判断所述初始随机森林模型中是否存在与所述决策树标识对应的对象决策树;

若存在所述对象决策树,则输出所述对象决策树的决策树图。

6.如权利要求4所述交互式随机森林集成方法,其特征在于,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,还包括:

当接收到基于所述总视图中目标决策树输入的查看指令时,输出所述目标决策树的决策树图;

若接收到基于所述目标决策树输入的决策树保留指令,则将所述目标决策树的状态设置为保留状态。

7.如权利要求4所述交互式随机森林集成方法,其特征在于,所述当接收到基于所述初始随机森林模型输入的查看指令时,输出所述初始随机森林模型的总视图的步骤之后,还包括:

当接收到基于所述总视图输入的决策树筛选指令时,获取所述决策树筛选指令中的筛选参数,将符合所述筛选参数的决策树作为第一决策树;

当接收到舍弃指令时,获取所述舍弃指令中的决策树标识,判断所述第一决策树中是否存在所述决策树标识对应的对象决策树;

若所述第一决策树中存在对象决策树,则删除所述第一决策树中的对象决策树;

在保留第一决策树时,删除不符合所述筛选参数的决策树和所述第一决策树中存在的对象决策树。

8.如权利要求1至7任意一项所述交互式随机森林集成方法,其特征在于,所述接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型的步骤,包括:

接收到基于所述初始随机森林模型的调整指令,获取所述调整指令对应的第二决策树;

删除所述第二决策树后,调整所述初始随机森林模型,生成标准随机森林模型。

9.一种交互式随机森林集成设备,其特征在于,所述交互式随机森林集成设备包括:存储器、处理器以及存储在存储器上的用于实现所述交互式随机森林集成方法的程序,所述存储器用于存储实现交互式随机森林集成方法的程序;

所述处理器用于执行实现所述交互式随机森林集成方法的程序,以实现如权利要求1至8中任一项所述交互式随机森林集成方法的步骤。

10.一种可读存储介质,其特征在于,所述可读存储介质上存储有实现交互式随机森林集成方法的程序,所述实现交互式随机森林集成方法的程序被处理器执行以实现如权利要求1至8中任一项所述交互式随机森林集成方法的步骤。

技术总结
本发明公开了一种互式随机森林集成方法、设备和可读存储介质,所述互式随机森林集成方法包括:获取样本数据集,将所述样本数据集输入交互式随机森林组件,并输出参数配置界面;接收基于所述参数配置界面输入的配置参数,运行包含所述样本数据集和所述配置参数的交互式随机森林组件,生成初始随机森林模型;接收基于所述初始随机森林模型触发的调整指令,根据所述调整指令调整所述初始随机森林模型,生成标准随机森林模型。本发明通过获取训练数据集和验证数据集,并将获取到的训练数据集和验证数据集输入到随机森林组件中,进而,基于用户输入的配置参数,运行组件得到交互式随机森林模型。降低了随机森林建模的难度,提高了建模效率。

技术研发人员:林冰垠;卓本刚;唐兴兴;王跃
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2020.02.24
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16355.html

最新回复(0)