本发明涉及数据结构技术领域,尤其涉及一种基于客户退单预警的订单数据处理方法、装置、计算机设备和存储介质。
背景技术:
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。客户退单预测预警对于企业维系和挽留高价值用户具有非常重要的意义,在电信、游戏、互联网零售等行业已经有了不少的应用,而互联网家装领域刚从传统行业转型,客户的退单问题一直是家装公司的痛点所在,缺乏有效的预测预警,不能提前开展针对性的挽留措施是其中一个重要的原因。本发明将提供一种通过自动采集数据,提取特征属性,通过id3算法分析,创建决策树模型训练学习,并自动分析现网现有数据,提前采取针对性的挽回措施,减小客户退单率,降低公司该类成本,提升客户满意度的同时提升公司效益。
基于传统的订单数据处理方案进行相关订单管理的过程中,想要预估客户退单风险,需要调查和整合在各个阶段为客户提供服务的人员提供的信息,如接触阶段,意向阶段,设计阶段等,工作繁重且预估偏主观,不准确,可见传统的订单数据处理方案往往存在过程复杂,准确度低的问题。
技术实现要素:
针对以上问题,本发明提出一种基于客户退单预警的订单数据处理方法、计算机设备和存储介质。
为实现本发明的目的,提供一种基于客户退单预警的订单数据处理方法,包括如下步骤:
s10,计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性;
s20,识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值;
s30,将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序;
s40,剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回步骤s10,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值;
s50,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
在一个实施例中,采用预测模型检测待测订单信息的退单风险包括:
将待测订单信息输入预测模型,获取预测模型输出的退单风险预测结果;若退单风险预测结果为退单,获取引起退单的风险特征,根据所述风险特征生成客户挽回策略。
在一个实施例中,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险之后,还包括:
定期记录预警模型推送的各个预测结果,检测各个预测结果与实际情况不一致的次数,若在一个检测周期内不一致的次数超过次数阈值,输出预警模型的错误标志信息。
在一个实施例中,训练数据集d的信息经验熵的计算过程包括:
其中,h(d)表示训练数据集d的信息经验熵,|d|表示训练数据集d的样本容量,训练数据集d包括n类特征属性,xi表示训练数据集d中第i类特征属性的个数,i=1,2,3,···,n。
作为一个实施例,条件熵的计算过程包括:
其中,h(d|a)表示特征属性a的条件熵,pi=p(a=xi)为特征属性a为第i个类时的概率,h(d|a=xi)表示特征属性a为第i类的条件熵。
作为一个实施例,信息增益值的计算过程包括:
g(d,a)=h(d)-h(d|a),
其中,g(d,a)表示特征属性a的信息增益值。
在一个实施例中,计算训练数据集d的信息经验熵之前,还包括:
将包括多个特征属性的订单数据作为样本数据,识别所述样本数据中具有具备连续特征的特征属性,得到特定特征属性;
将所述特定特征属性进行离散化处理,根据离散化处理后的特定特征属性和除特定特征属性外的其他特征属性构建训练数据集d。
作为一个实施例,将所述特定特征属性进行离散化处理包括:
通过卡方检验的方式将所述特定特征属性进行离散化处理。
一种基于客户退单预警的订单数据处理装置,包括:
计算模块,用于计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性;
识别模块,用于识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值;
确定模块,用于将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序;
返回模块,用于剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回进入计算模块执行计算训练数据集d的信息经验熵的过程,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值;
检测模块,用于根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例的基于客户退单预警的订单数据处理方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例的基于客户退单预警的订单数据处理方法的步骤。
上述基于客户退单预警的订单数据处理方法、装置、计算机设备和存储介质,通过计算训练数据集d的信息经验熵,识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值,将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序,剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回计算训练数据集d的信息经验熵的过程,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值,再根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险,可以简化退单风险的检测过程,提高检测效率。
附图说明
图1是一个实施例的基于客户退单预警的订单数据处理方法流程图;
图2是另一个实施例的基于客户退单预警的订单数据处理方法流程图;
图3是一个实施例的决策树示意图;
图4是一个实施例的基于客户退单预警的订单数据处理装置结构示意图;
图5为一个实施例的计算机设备示意图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
在一个实施例中,如图1所示,提供了一种基于客户退单预警的订单数据处理方法,包括以下步骤:
s10,计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性。
上述步骤之前可以获取一定数量的客户订单数据作为样本数据,依据样本数据构建训练集(训练数据集d),一并获取每个客户订单(样本数据)所关联的多个特征属性。具体的,特征属性可以包括影响客户是否退单的因素,若客户订单数据为家装订单数据,可以根据家装行业的特点来分析筛选特征属性,比如家装订单周期较长,并且存在分阶段收款情况,互联网家装方案设计等都是无偿的服务,家装订单合同金额较大可能存在客户贷款情况,客户问题反馈和评价触点多特点;通过分析提炼,所述的影响退单的特征(特征属性)可以包括下述数据:客户订单权益等级,订单实际收款比例,订单是否申请装修贷款,订单是否由客户在app自主下单,订单是否已选择设计方案,订单是否参加过公司返现返收益活动等;在一些情况下,特征属性还可以包括订单客户问题和投诉情况;如订单权益等级包括普通权益、黄金vip、铂金vip和钻石vip。使用以上选取的关联特征属性数据构建训练数据集d,作为预测模型的输入变量。
s20,识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值。
在一个实施例中,训练数据集d的信息经验熵的计算过程包括:
其中,h(d)表示训练数据集d的信息经验熵,|d|表示训练数据集d的样本容量或样本个数,训练数据集d包括n类特征属性,xi表示训练数据集d中第i类特征属性的个数,i=1,2,3,···,n。
作为一个实施例,条件熵的计算过程包括:
其中,h(d|a)表示特征属性a的条件熵,pi=p(a=xi)为特征属性a为第i个类时的概率,h(d|a=xi)表示特征属性a为第i类特征属性的条件熵。
作为一个实施例,信息增益值的计算过程包括:
g(d,a)=h(d)-h(d|a),
其中,g(d,a)表示特征属性a的信息增益值。
s30,将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序。
上述决策树的是id3算法的决策树,它具有理论清晰,方法简单,学习能力较强等特点。
s40,剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回步骤s10,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值。
上述增益阈值可以设为0.005等值。
在一个实施例中,使用id3算法构建决策树,比较所有特征属性的信息增益值大小,当信息增益值g(d,a)越大,表示特征a对于预测结果的影响也就越明显,越适合作为根节点,再对子节点递归以上的方式,假设计算“权益等级”特征的信息增益值最大,使用“权益等级”特征作为决策树的根节点,形成第一个树形结构,然后将剩余的其他特征属性按照步骤s4-s6重新计算,取剩余节点中信息增益最大的作为根节点,以此方式递归构建决策树,直到剩余的所有特征的信息增益均小于阈值ε=0.005为止,这里的阈值需要根据不同实际的场景做调整,目标是使得最终的决策树不产生过度拟合;
s50,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
根据树形结构的形成顺序将各个树形结构组合为决策树的过程包括:形成顺序在前的树形结构在上,形成顺序在后的树形结构在下,即从上至下,最上层的树形结构为第一个形成的树形结构,第二层的树形结构为第二个形成的树形结构,第三层的树形结构为第三个形成的树形结构,第四层的树形结构为第四个形成的树形结构,以此类推,直至所有树形结构组合为决策树。
上述退单风险可以包括退单或者不退单的预测结果。
上述步骤可以训练和落地该预测模型,当预测的错误率到达可接受的范围(预测错误率小于错误率阈值)时,将该模型运用到现网数据中,实时的对现网未完成客户订单做预测分析。
具体地,上述步骤可以设置测试数据集,以及测试数据集的退单结果,将测试数据集输入预测模型,得到预测结果,若预测结果与测试数据集的退单结果之间不一致的个数小于设定个数,则可以认为预测模型的预测错误率小于错误率阈值。
上述基于客户退单预警的订单数据处理方法,通过计算训练数据集d的信息经验熵,识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值,将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序,剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回计算训练数据集d的信息经验熵的过程,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值,再根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险,可以简化退单风险的检测过程,提高检测效率。
在一个实施例中,采用预测模型检测待测订单信息的退单风险包括:
将待测订单信息输入预测模型,获取预测模型输出的退单风险预测结果;若退单风险预测结果为退单,获取引起退单的风险特征,根据所述风险特征生成客户挽回策略。
本实施例根据预测模型找出存在退单风险的客户和引起该订单退单的特征,预测的结果可以对接相应公司的客服系统,并且采取针对性的挽回措施:挽回措施可以是人工也可以是智能手段;比如退单特征是收款比例时,我们可以向客户推荐一下预缴返现等促销活动,提高该订单收款比例;比如分析退单原因是未选设计方案,可以有智能语音或者app推送等消息通知方式,提醒客户确认设计方案。
在一个实施例中,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险之后,还包括:
定期记录预警模型推送的各个预测结果,检测各个预测结果与实际情况不一致的次数,若在一个检测周期内不一致的次数超过次数阈值,输出预警模型的错误标志信息。
上述一个检测周期可以为一月,次数阈值可以设为30等值。
本实施例定期记录预警模型推送的预测结果是否与实际情况存在明显的偏差和不合,比如当一月总计有超过30次退单没有被提前预测告警时,需要针对偏差的客户退单数据进行分析,筛选这些退单数据中有没有出现新的影响客户退单因素,并加到创建决策树预测模型的特征属性中,以依据新的特征属性迭代生成新的预测模型,保证所采用的预测模型的准确性。
在一个实施例中,计算训练数据集d的信息经验熵之前,还包括:
将包括多个特征属性的订单数据作为样本数据,识别所述样本数据中具有具备连续特征的特征属性,得到特定特征属性;
将所述特定特征属性进行离散化处理,根据离散化处理后的特定特征属性和除特定特征属性外的其他特征属性构建训练数据集d。
作为一个实施例,将所述特定特征属性进行离散化处理包括:
通过卡方检验的方式将所述特定特征属性进行离散化处理。
使用的是id3算法的决策树,它具有理论清晰,方法简单,学习能力较强等特点,但是id3算法是一种非递增的算法,仅能处理离散特征属性,对于选取的属性包含连续特征值时,需要做一定的分析改动,即通过卡方检验的方式将具备连续特征的特定特征属性进行离散化处理,以使其可以在决策树中得到有效处理。
在一个示例中,若特征属性包括订单实际收款比例,订单实际收款比例是一个连续的变量,需要对该特征进行离散化,获取目前系统中客户订单和订单的收款比例和是否退单情况,先通过直观法预估离散点,比如我们发现当退款比例超过30%时,退单数量明显下降,我们可以假设收款比例是否超过30%会影响客户退单,再通过卡方检验的方式论证我们观察结果和理论结果是否一致,当置信度到达99%以上,可以认为我们的假设是成立的,此时我们可以用假设中的提及的收款比例是否超过30%这样的离散的特征值代替之前的连续特征;其中卡方检验的公式如下:
其中,卡方值x2表示收款比例是否超过30%与客户退单没有关系的偏差程度,当i表示“收款比例<=30%客户已退单”,则fi表示收款比例<=30%客户已退单的实际值,npi表示收款比例<=30%客户已退单的期望值;最终计算得出的卡方值越大,表示“收款比例是否超过30%与客户退单有关系”成立的可能性越大。
在一个实施例中,参考图2所示,上述基于客户退单预警的订单数据处理方法也可以通过如下过程实现:
1、首先需要获取一定数量的客户订单数据(样本数据)作为训练集(训练数据集d),一并获取每个客户订单所关联的多个特征属性,使用客户订单关联的特征数据作为预测模型的输入变量;
2、以上所述的特征属性为影响客户是否退单的因素,特别注意需要根据家装行业的特点来分析筛选特征属性,比如家装订单周期较长,存下分阶段收款,收款的比例和进度就成了重要的因素;互联网方案设计等服务都比较前置且免费,我们需要关注客户是否及时参与到装修方案设计环节,进一步达成签约;装修订单收款金额比一般零售行业高很多,很多互联网家装提供了贷款业务,此类业务对退单影响明显;客户通过客服咨询问题的满意度和装修过程的投诉情况都是影响是否退单的重要因素;客户参加公司推出的预缴立减,活动返现等促销活动在退单时都会进行收回,这也是客户退单时考虑的重点因素;
3、上面所述的订单数据特征可以包括下述特征数据:客户订单权益等级,订单实际收款比例,订单是否申请装修贷款,订单是否由客户在app自主下单,订单是否已经选择设计方案,订单装修范围包含软装和硬装还是只有软装,订单是否参加过公司返现返收益活动,订单客户问题和投诉情况;订单权益等级包括普通权益、黄金vip、铂金vip和钻石vip;同时获取客户是否已退单作为预测模型的输出变量;
本实施例使用的是id3算法的决策树,它具有理论清晰,方法简单,学习能力较强等特点,但是是一种非递增的算法,仅能处理离散特征属性,对于选取的属性包含连续特征值时,需要做一定的分析改动;以上所筛选的特征中,订单实际收款比例是一个连续的变量,获取目前系统中客户订单和订单的收款比例和是否退单情况(参考表1所示),通过直观法可以明显看出当收款比例>30%后客户退单情况明显下降,再通过卡方检验的方法分析,过程如下:
表1
4.1,先算卡方值,括号内的数值是每种情况的期望值,用极大似然估计
计算得到卡方值为36.98。
4.2,再求自由度,(行数-1)*(行数-1)=(2-1)*(2-1)=1。
4.3,当自由度为1时,卡方值和两者有关系的对应表为:
表2
可以发现卡方值36.98>10.828,故推论成立的概率>99.9%;因此我们可以将连续特征“收款比例”转化为离散性特征值“收款比例是否>30%”。
5、如表3所示,5.假设目前获取公司系统中的16笔客户订单。
表3
定义样本数据为训练数据集d,需要算出所有特征所有可能值所包含的信息经验熵h(d);首先根据样本容量为16,客户退单的概率4/16,客户不退单的概率为12/16,计算得出集合d的原始熵值为:
下面计算假设权益等级为根节点的对应的熵和信息增益:
当权益等级=普通时,共有6个普通权益订单,其中客户退单的概率为4/6,客户不退单的概率为3/6,
当权益等级=黄金时,共有2个黄金权益订单,其中客户退单的概率为0,客户不退单的概率为1,h(黄金)=0
当权益等级=铂金时,共有4个铂金权益订单,其中客户退单的概率为1/4,客户不退单的概率为3/4,
当权益等级=钻石时,共有4个钻石权益订单,其中客户退单的概率为0,客户不退单的概率为1,h(钻石)=0
根据样本数据,权益等级取普通、黄金、铂金、钻石的概率分别是6/16、2/16、4/16、4/16,所以当“权益等级”为根节点时信息熵为:
信息增益为:
g(权益等级)=h(d)-h(权益等级)=0.811-0.578=0.233,
同理可以得到其他特征对应的信息增益分别为:
g(收款比例>30%)=h(d)-h(收款比例>30%)=0.811-0.5=0.311
g(是否申请装修贷款)=h(d)-h(是否申请装修贷款)=0.811-0.688=0.123
g(是否app自主下单)=h(d)-h(是否app自主下单)=0.811-0.714=0.097
g(是否已选设计方案)=h(d)-h(是否已选设计方案)=0.811-0.714=0.097
g(是否参加返现返收益)=h(d)-h(是否参加返现返收益)=0.811-0.811=0.000
g(是否发生投诉事件)=h(d)-h(是否发生投诉事件)=0.811-0.513=0.298
根据比较各个特征的信心增益值,g(收款比例>30%)最大,所以决策树的根节点取特征“收款比例>30%”,生成第一个决策树,然后对每个叶节点再次利用上面的过程,生成最终的决策树如图3。
训练和落地该预测模型,当预测的错误率到达可接受的范围时,将该模型运用到现网数据中。为了使预测模型更加的准确,启动一个定时任务,自动的拉取系统数据作为训练集d’,使用新的训练数据不断的训练和更新客户退单预测模型;
实时的对现网未完成客户订单做预测分析,通过该决策树预测一个客户订单order1,其特征为:['权益等级:铂金','收款比例>30%:否','是否申请装修贷款:是','是否app自主下单:是','是否已选设计方案:否','是否参加返现返收益:是','是否发生投诉事件:否']
预测结果为:退单;
退单风险特征是:未选择设计方案;
根据预测模型找出order1存在退单风险和引起该订单退单的特征是没有选择设计方案,该风险预警会被记录入库,状态为待处理,采取针对性的挽回措施:app内推送维护装修设计方案的消息,客服人员跟进提醒客户,指导客户选择装修设计方案等。
本实施例的技术效果包括:
1、无需人工参与预测过程,减少人力成本,且准确率更高。预测模型定时更新,退单预测实时预警。
2、可以提前预测存在退单风险的客户,提前介入挽回操作,减少公司因退单产生的损失。
3、分析影响客户退单的top原因,完成针对性的改进措施,增加客户满意度,提升公司口碑等。
在一个实施例中,参考图4所示,提供一种基于客户退单预警的订单数据处理装置,包括:
计算模块10,用于计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性;
识别模块20,用于识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值;
确定模块30,用于将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序;
返回模块40,用于剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回进入计算模块执行计算训练数据集d的信息经验熵的过程,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值;
检测模块50,用于根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
关于基于客户退单预警的订单数据处理装置的具体限定可以参见上文中对于基于客户退单预警的订单数据处理方法的限定,在此不再赘述。上述基于客户退单预警的订单数据处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于客户退单预警的订单数据处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
基于如上所述的示例,在一个实施例中还提供一种计算机设备,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行所述程序时实现如上述各实施例中的任意一种基于客户退单预警的订单数据处理方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性的计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述基于客户退单预警的订单数据处理方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)或随机存储记忆体(randomaccessmemory,ram)等。
据此,在一个实施例中还提供一种计算机存储介质计算机可读存储介质,其上存储有计算机程序,其中,该程序被处理器执行时实现如上述各实施例中的任意一种基于客户退单预警的订单数据处理方法。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
本申请实施例的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或模块的过程、方法、装置、产品或设备没有限定于已列出的步骤或模块,而是可选地还包括没有列出的步骤或模块,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或模块。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
1.一种基于客户退单预警的订单数据处理方法,其特征在于,包括如下步骤:
s10,计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性;
s20,识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值;
s30,将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序;
s40,剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回步骤s10,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值;
s50,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
2.根据权利要求1所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,采用预测模型检测待测订单信息的退单风险包括:
将待测订单信息输入预测模型,获取预测模型输出的退单风险预测结果;若退单风险预测结果为退单,获取引起退单的风险特征,根据所述风险特征生成客户挽回策略。
3.根据权利要求1所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险之后,还包括:
定期记录预警模型推送的各个预测结果,检测各个预测结果与实际情况不一致的次数,若在一个检测周期内不一致的次数超过次数阈值,输出预警模型的错误标志信息。
4.根据权利要求1所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,训练数据集d的信息经验熵的计算过程包括:
其中,h(d)表示训练数据集d的信息经验熵,|d|表示训练数据集d的样本容量,训练数据集d包括n类特征属性,xi表示训练数据集d中第i类特征属性的个数,i=1,2,3,···,n。
5.根据权利要求4所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,条件熵的计算过程包括:
其中,h(d|a)表示特征属性a的条件熵,pi=p(a=xi)为特征属性a为第i个类时的概率,h(d|a=xi)表示特征属性a为第i类的条件熵。
6.根据权利要求5所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,信息增益值的计算过程包括:
g(d,a)=h(d)-h(d|a),
其中,g(d,a)表示特征属性a的信息增益值。
7.根据权利要求1至6任一项所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,计算训练数据集d的信息经验熵之前,还包括:
将包括多个特征属性的订单数据作为样本数据,识别所述样本数据中具有具备连续特征的特征属性,得到特定特征属性;
将所述特定特征属性进行离散化处理,根据离散化处理后的特定特征属性和除特定特征属性外的其他特征属性构建训练数据集d。
8.根据权利要求7所述的基于客户退单预警的订单数据处理方法,其特征在于,在一个实施方式中,将所述特定特征属性进行离散化处理包括:
通过卡方检验的方式将所述特定特征属性进行离散化处理。
9.一种基于客户退单预警的订单数据处理装置,其特征在于,包括:
计算模块,用于计算训练数据集d的信息经验熵;其中,所述训练数据集d包括多个样本数据;各个样本数据包括多个特征属性;
识别模块,用于识别训练数据集d中的各类特征属性,计算各类特征属性的条件熵,根据信息经验熵和各类特征属性的条件熵计算各类特征属性的信息增益值;
确定模块,用于将信息增益值的一类特征属性确定为决策树的根节点,形成树形结构,记录树形结构的形成顺序;
返回模块,用于剔除训练数据集d中当前信息增益值的一类特征属性,形成新的训练数据集d,返回进入计算模块执行计算训练数据集d的信息经验熵的过程,以依次得到多个树形结构,直至所得到的树形结构对应的信息增益值小于增益阈值;
检测模块,用于根据树形结构的形成顺序将各个树形结构组合为决策树,得到预测模型,在预测模型的预测错误率小于错误率阈值时,采用预测模型检测待测订单信息的退单风险。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现权利要求1至8所述的基于客户退单预警的订单数据处理方法的步骤。
技术总结