一种适用于小微企业风险控制模型的自适应参数拟合方法与流程

专利2022-06-29 82

本发明涉及数据处理技术领域，具体地说一种适用于小微企业风险控制模型的自适应参数拟合方法。

背景技术：

在金融风险控制中，数据模型是一种愈发重要的风控技术。在传统的面向消费者端的数据模型中，由于样本量较大，各特征的风险系数可以根据某种参数估计方法自动拟合，且往往能得到较好的预测效果。但在面向企业端尤其是小微企业端的数据模型中，样本量往往要小的多，自动拟合出来的系数准确性不佳，因此难以有效衡量各特征的相对重要性。

技术实现要素：

本发明为克服现有技术的不足，提供一种适用于小微企业风险控制模型的自适应参数拟合方法，lr的方法训练模型，可有效防止模型过拟合以及让模型快速收敛，且最终模型得出各大类及子类的系数权重，可灵活拆分和组合应用，能快速有效应对某子类如某数据源缺失带来的突发状况。

为实现上述目的，设计一种适用于小微企业风险控制模型的自适应参数拟合方法，其特征在于：具体方法如下：

（1）收集样本；

（2）把收集到的样本特征进行归类，按照性质数据相同或相似的特征归为一大类a（即一个风险模块）；

（3）每一个大类来自一些数据源，并按照相同或相似的数据源的特征归为一个子类b；

（4）全部完成后，每一个大类中包含有若干个子类，每个子类中包含有若干个特征；

（5）统计各个特征对好坏样本的区分度，保留区分度较明显的特征，剔除没有区分度或区分度不明显的特征；

（6）对保留的各个特征进行评分，根据各个特征对好坏水平的区分度，把评分映射到相应的风险区间，使得每个特征的分数取值范围为[0,100]；

（7）各特征的评分完成后，接着对特征的上一级属性各个子类进行评分；使得各子类的得分范围映射在[0,100]；

（8）建立逻辑回归模型，采用极大似然估计法，计算出子类的估计值和显著性概率值；

（9）判断子类的显著性概率值是否小于0.05，是则对子类的评分与对应系数的乘积求和，就得到子类的初始评分；否则重新回到步骤（3）；

（10）建立逻辑回归模型，采用极大似然估计法，计算出大类的估计值和显著性概率值；

（11）判断大类的显著性概率值是否小于0.05，是则对大类的评分与对应系数的乘积求和，就得到总的初始评分；否则重新回到步骤（3）。

步骤（7）中，根据各子类的评分对子类的上一级类进行评分，具体方法如下：

（71）假设一个大小为n的样本中，有m个特征x1,x2,x3,…,xm和1个二分类变量y，经过上述的步骤（1）至步骤（4）的处理后归为i个大类a1,a2,…,ai，每个类中包含n的子类bi1,bi2,…,bin；

（72）对每个大类ai中的子类分别建立逻辑回归模型：lnp/(1-p)=ri0 ri1bi1 ri2bi2 ... rinbin，其中p是y=1的概率，采用极大似然估计法，计算出系数ri0,ri1,…,rin的估计值和显著性概率值pi0,pi1,…,pin；

（73）观察各系数的显著性概率值是否小于0.05，若存在某个系数的显著性概率值大于或等于0.05，则需要返回上述的步骤（3）至步骤（4）两步，重新进行特征和子类评分，直到所有系数均显著为止；

（74）对子类bi1,bi2,…,bin的评分与对应系数的乘积求和bi1*ri1 bi2*ri2 … bin*rin，就得到大类ai的初始评分，再把大类ai的初始评分的最大值映射到100，对系数做相应的等比例缩放，便得到大类ai中各子类的最终系数（权重）；

（75）相应的，对每个大类ai建立逻辑回归模型：lnp/(1-p)=r0 r1a1 r2a2 ... riai,其中p是y=1的概率，采用极大似然估计法，计算出系数r0,r1,…,ri的估计值和显著性概率值p0,p1,…,pi；

（76）观察各系数的显著性概率值是否小于0.05，若存在某个系数的显著性概率值大于或等于0.05，则需要返回上述步骤（74）至步骤（75）两步，重新进行大类评分，直到所有系数均显著为止；

（77）对大类a1,a2,…,ai的评分与对应系数的乘积求和a1r1 a2r2 ... airi，就得到总的初始评分，再把总的初始评分的最大值映射到100，对系数做相应的等比例缩放，便得到各个类ai的最终系数（权重）。

步骤（5）统计各个特征对好坏样本：一般按逾期期数对好坏样本进行区分，逾期两个月及以上为坏样本，无逾期为好样本。

本发明同现有技术相比，提供一种适用于小微企业风险控制模型的自适应参数拟合方法，lr的方法训练模型，可有效防止模型过拟合以及让模型快速收敛，且最终模型得出各大类及子类的系数权重，可灵活拆分和组合应用，能快速有效应对某子类如某数据源缺失带来的突发状况。

附图说明

图1为本发明流程图。

具体实施方式

下面根据附图对本发明做进一步的说明。

如图1所示，一种适用于小微企业风险控制模型的自适应参数拟合方法，具体方法如下：

（1）收集样本；

（2）把收集到的样本特征进行归类，按照性质数据相同或相似的特征归为一大类a（即一个风险模块），如图1中“a1为多头信用类”，“a2为历史履约类”；

（3）归类完成后，每一大类中包含有若干个性质相同或相似的特征，每一个大类来自一些数据源，并按照相同或相似的数据源的特征归为一个子类b；

（4）全部完成后，每一个大类中包含有若干个子类，每个子类中包含有若干个特征；如图1中a1下面子类可分为“b11网申核查”，“b12短信核查”等；

（5）统计各个特征对好坏样本的区分度，保留区分度较明显的特征，剔除没有区分度或区分度不明显的特征；如图1中剔除特征“12个月查询次数”；

（6）对保留的各个特征进行评分，根据各个特征对好坏水平的区分度，把评分映射到相应的风险区间，使得每个特征的分数取值范围为[0,100]；

（7）各特征的评分完成后，接着对特征的上一级属性各个子类进行评分；使得各子类的得分范围映射在[0,100]；

（8）建立逻辑回归模型，采用极大似然估计法，计算出子类的估计值和显著性概率值；

（9）判断子类的显著性概率值是否小于0.05，是则对子类的评分与对应系数的乘积求和，就得到子类的初始评分；否则重新回到步骤（3）；

（10）建立逻辑回归模型，采用极大似然估计法，计算出大类的估计值和显著性概率值；

（11）判断大类的显著性概率值是否小于0.05，是则对大类的评分与对应系数的乘积求和，就得到总的初始评分；否则重新回到步骤（3）。

步骤（7）中，根据各子类的评分对子类的上一级类进行评分，具体方法如下：

步骤（5）统计各个特征对好坏样本：一般按逾期期数对好坏样本进行区分，逾期两个月及以上为坏样本，无逾期为好样本。

本发明的优势主要体现在以下3个方面：

1.训练数据量小，本发明中所需数据量为数百级及以上，其它方法常要求训练数据为数千级甚至数万级及以上。

2.底层特征均进行筛选，和归一化到[0,100]，子类评分的构造过程灵活，可结合专家业务经验灵活采取最大值法，加权平均法等。

3.采用lr lr的方法训练模型，可有效防止模型过拟合以及让模型快速收敛，且最终模型得出各大类及子类的系数权重，可灵活拆分和组合应用，能快速有效应对某子类如某数据源缺失带来的突发状况。

技术特征：

1.一种适用于小微企业风险控制模型的自适应参数拟合方法，其特征在于：具体方法如下：

（1）收集样本；

（2）把收集到的样本特征进行归类，按照性质数据相同或相似的特征归为一大类a（即一个风险模块）；

（3）每一个大类来自一些数据源，并按照相同或相似的数据源的特征归为一个子类b；

（4）全部完成后，每一个大类中包含有若干个子类，每个子类中包含有若干个特征；

（5）统计各个特征对好坏样本的区分度，保留区分度较明显的特征，剔除没有区分度或区分度不明显的特征；

（6）对保留的各个特征进行评分，根据各个特征对好坏水平的区分度，把评分映射到相应的风险区间，使得每个特征的分数取值范围为[0,100]；

（7）各特征的评分完成后，接着对特征的上一级属性各个子类进行评分；使得各子类的得分范围映射在[0,100]；

（8）建立逻辑回归模型，采用极大似然估计法，计算出子类的估计值和显著性概率值；

（9）判断子类的显著性概率值是否小于0.05，是则对子类的评分与对应系数的乘积求和，就得到子类的初始评分；否则重新回到步骤（3）；

（10）建立逻辑回归模型，采用极大似然估计法，计算出大类的估计值和显著性概率值；

（11）判断大类的显著性概率值是否小于0.05，是则对大类的评分与对应系数的乘积求和，就得到总的初始评分；否则重新回到步骤（3）。

2.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法，其特征在于：步骤（7）中，根据各子类的评分对子类的上一级类进行评分，具体方法如下：

（71）假设一个大小为n的样本中，有m个特征x1,x2,x3,…,xm和1个二分类变量y，经过权利要求书1中的步骤（1）至步骤（4）的处理后归为i个大类a1,a2,…,ai，每个类中包含n的子类bi1,bi2,…,bin；

（73）观察各系数的显著性概率值是否小于0.05，若存在某个系数的显著性概率值大于或等于0.05，则需要返回权利要求书1中的步骤（3）至步骤（4）两步，重新进行特征和子类评分，直到所有系数均显著为止；

3.根据权利要求1所述的一种适用于小微企业风险控制模型的自适应参数拟合方法，其特征在于：步骤（5）统计各个特征对好坏样本：一般按逾期期数对好坏样本进行区分，逾期两个月及以上为坏样本，无逾期为好样本。

技术总结
本发明涉及数据处理技术领域，具体地说一种适用于小微企业风险控制模型的自适应参数拟合方法。一种适用于小微企业风险控制模型的自适应参数拟合方法。同现有技术相比，LR的方法训练模型，可有效防止模型过拟合以及让模型快速收敛，且最终模型得出各大类及子类的系数权重，可灵活拆分和组合应用，能快速有效应对某子类如某数据源缺失带来的突发状况。

技术研发人员：李潇;吴艳;汪腾飞
受保护的技术使用者：上海孚厘金融信息服务有限公司
技术研发日：2020.01.06
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-51744.html

专利

最新回复(0)