本发明涉及数据处理技术领域,具体地说一种适用于小微企业风险控制模型的自适应参数拟合方法。
背景技术:
在金融风险控制中,数据模型是一种愈发重要的风控技术。在传统的面向消费者端的数据模型中,由于样本量较大,各特征的风险系数可以根据某种参数估计方法自动拟合,且往往能得到较好的预测效果。但在面向企业端尤其是小微企业端的数据模型中,样本量往往要小的多,自动拟合出来的系数准确性不佳,因此难以有效衡量各特征的相对重要性。
技术实现要素:
本发明为克服现有技术的不足,提供一种适用于小微企业风险控制模型的自适应参数拟合方法,lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。
为实现上述目的,设计一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:具体方法如下:
(1)收集样本;
(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块);
(3)每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;
(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;
(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;
(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];
(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];
(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;
(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);
(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;
(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。
步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:
(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过上述的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;
(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;
(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;
(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);
(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;
(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;
(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。
步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。
本发明同现有技术相比,提供一种适用于小微企业风险控制模型的自适应参数拟合方法,lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。
附图说明
图1为本发明流程图。
具体实施方式
下面根据附图对本发明做进一步的说明。
如图1所示,一种适用于小微企业风险控制模型的自适应参数拟合方法,具体方法如下:
(1)收集样本;
(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块),如图1中“a1为多头信用类”,“a2为历史履约类”;
(3)归类完成后,每一大类中包含有若干个性质相同或相似的特征,每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;
(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;如图1中a1下面子类可分为“b11网申核查”,“b12短信核查”等;
(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;如图1中剔除特征“12个月查询次数”;
(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];
(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];
(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;
(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);
(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;
(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。
步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:
(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过上述的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;
(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;
(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;
(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);
(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;
(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;
(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。
步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。
本发明的优势主要体现在以下3个方面:
1.训练数据量小,本发明中所需数据量为数百级及以上,其它方法常要求训练数据为数千级甚至数万级及以上。
2.底层特征均进行筛选,和归一化到[0,100],子类评分的构造过程灵活,可结合专家业务经验灵活采取最大值法,加权平均法等。
3.采用lr lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。
1.一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:具体方法如下:
(1)收集样本;
(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块);
(3)每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;
(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;
(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;
(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];
(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];
(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;
(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);
(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;
(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。
2.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:
(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过权利要求书1中的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;
(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;
(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回权利要求书1中的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;
(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);
(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;
(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;
(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。
3.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。
技术总结