一种适用于小微企业风险控制模型的自适应参数拟合方法与流程

专利2022-06-29  72


本发明涉及数据处理技术领域,具体地说一种适用于小微企业风险控制模型的自适应参数拟合方法。



背景技术:

在金融风险控制中,数据模型是一种愈发重要的风控技术。在传统的面向消费者端的数据模型中,由于样本量较大,各特征的风险系数可以根据某种参数估计方法自动拟合,且往往能得到较好的预测效果。但在面向企业端尤其是小微企业端的数据模型中,样本量往往要小的多,自动拟合出来的系数准确性不佳,因此难以有效衡量各特征的相对重要性。



技术实现要素:

本发明为克服现有技术的不足,提供一种适用于小微企业风险控制模型的自适应参数拟合方法,lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。

为实现上述目的,设计一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:具体方法如下:

(1)收集样本;

(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块);

(3)每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;

(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;

(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;

(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];

(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];

(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;

(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);

(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;

(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。

步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:

(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过上述的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;

(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;

(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;

(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);

(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;

(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;

(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。

步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。

本发明同现有技术相比,提供一种适用于小微企业风险控制模型的自适应参数拟合方法,lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。

附图说明

图1为本发明流程图。

具体实施方式

下面根据附图对本发明做进一步的说明。

如图1所示,一种适用于小微企业风险控制模型的自适应参数拟合方法,具体方法如下:

(1)收集样本;

(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块),如图1中“a1为多头信用类”,“a2为历史履约类”;

(3)归类完成后,每一大类中包含有若干个性质相同或相似的特征,每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;

(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;如图1中a1下面子类可分为“b11网申核查”,“b12短信核查”等;

(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;如图1中剔除特征“12个月查询次数”;

(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];

(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];

(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;

(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);

(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;

(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。

步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:

(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过上述的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;

(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;

(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;

(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);

(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;

(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;

(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。

步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。

本发明的优势主要体现在以下3个方面:

1.训练数据量小,本发明中所需数据量为数百级及以上,其它方法常要求训练数据为数千级甚至数万级及以上。

2.底层特征均进行筛选,和归一化到[0,100],子类评分的构造过程灵活,可结合专家业务经验灵活采取最大值法,加权平均法等。

3.采用lr lr的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。


技术特征:

1.一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:具体方法如下:

(1)收集样本;

(2)把收集到的样本特征进行归类,按照性质数据相同或相似的特征归为一大类a(即一个风险模块);

(3)每一个大类来自一些数据源,并按照相同或相似的数据源的特征归为一个子类b;

(4)全部完成后,每一个大类中包含有若干个子类,每个子类中包含有若干个特征;

(5)统计各个特征对好坏样本的区分度,保留区分度较明显的特征,剔除没有区分度或区分度不明显的特征;

(6)对保留的各个特征进行评分,根据各个特征对好坏水平的区分度,把评分映射到相应的风险区间,使得每个特征的分数取值范围为[0,100];

(7)各特征的评分完成后,接着对特征的上一级属性各个子类进行评分;使得各子类的得分范围映射在[0,100];

(8)建立逻辑回归模型,采用极大似然估计法,计算出子类的估计值和显著性概率值;

(9)判断子类的显著性概率值是否小于0.05,是则对子类的评分与对应系数的乘积求和,就得到子类的初始评分;否则重新回到步骤(3);

(10)建立逻辑回归模型,采用极大似然估计法,计算出大类的估计值和显著性概率值;

(11)判断大类的显著性概率值是否小于0.05,是则对大类的评分与对应系数的乘积求和,就得到总的初始评分;否则重新回到步骤(3)。

2.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:步骤(7)中,根据各子类的评分对子类的上一级类进行评分,具体方法如下:

(71)假设一个大小为n的样本中,有m个特征x1,x2,x3,…,xm和1个二分类变量y,经过权利要求书1中的步骤(1)至步骤(4)的处理后归为i个大类a1,a2,…,ai,每个类中包含n的子类bi1,bi2,…,bin;

(72)对每个大类ai中的子类分别建立逻辑回归模型:lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin,其中p是y=1的概率,采用极大似然估计法,计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin;

(73)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回权利要求书1中的步骤(3)至步骤(4)两步,重新进行特征和子类评分,直到所有系数均显著为止;

(74)对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin,就得到大类ai的初始评分,再把大类ai的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到大类ai中各子类的最终系数(权重);

(75)相应的,对每个大类ai建立逻辑回归模型:lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率,采用极大似然估计法,计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi;

(76)观察各系数的显著性概率值是否小于0.05,若存在某个系数的显著性概率值大于或等于0.05,则需要返回上述步骤(74)至步骤(75)两步,重新进行大类评分,直到所有系数均显著为止;

(77)对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi,就得到总的初始评分,再把总的初始评分的最大值映射到100,对系数做相应的等比例缩放,便得到各个类ai的最终系数(权重)。

3.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法,其特征在于:步骤(5)统计各个特征对好坏样本:一般按逾期期数对好坏样本进行区分,逾期两个月及以上为坏样本,无逾期为好样本。

技术总结
本发明涉及数据处理技术领域,具体地说一种适用于小微企业风险控制模型的自适应参数拟合方法。一种适用于小微企业风险控制模型的自适应参数拟合方法。同现有技术相比,LR的方法训练模型,可有效防止模型过拟合以及让模型快速收敛,且最终模型得出各大类及子类的系数权重,可灵活拆分和组合应用,能快速有效应对某子类如某数据源缺失带来的突发状况。

技术研发人员:李潇;吴艳;汪腾飞
受保护的技术使用者:上海孚厘金融信息服务有限公司
技术研发日:2020.01.06
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-51744.html

最新回复(0)