一种高级建模的数据分析方法与流程

专利2023-04-08  13



1.本发明涉及高级建模技术领域,具体为一种高级建模的数据分析方法。


背景技术:

2.高级建模,也称高阶建模、机器学习建模、深度学习建模,可以解决问题、揭示可能性并在不确定的环境中做出科学的决定。通过高级建模可以有效地应用统计结果,深入了解具体信息、制定长远计划并获得持续学习和改进的方法。高级建模有助于挖掘内在协同关系,无论目标是描述,预测,还是说明。
3.高级建模为回归分析提供了一系列更完善的方法;为探索方法、减少数据维度和建模、时间序列和分类数据的分析提供了更有效的多元工具。此外,高级建模还具有一系列处理前期常见数据问题的建模工具,纳入了大量高级算法,用于对杂乱的数据进行更好地建模。
4.高级建模,不仅可以快速、正确地完成建模,还可以轻松比较和对比使用不同方法构建的模型,通过可视化和交互式的报表,可以直观展示数据分析结果。现有的高级建模方法存在很多缺陷,具体为:1、功能单一,运用领域片面;2、在多个因子具有多重共线性时,建模结果不准确;3、当因子与响应之间的关系为非线性时,模型结果无法解释;4、响应为分类型变量时,传统建模方法无法进行预测;5、模型精准度不高,评价指标单一;为此提供了一种高级建模的数据分析方法。


技术实现要素:

5.本发明的目的是针对现有技术的缺陷,提供一种高级建模的数据分析方法,以解决上述背景技术提出的问题。
6.为实现上述目的,本发明提供如下技术方案:一种高级建模的数据分析方法,具体步骤如下:
7.步骤一、确定目标变量及建模目的;
8.步骤二、确定影响因子,收集历史数据,并进行数据清洗;
9.步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;
10.步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;
11.步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;
12.步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。
13.作为本发明的一种优选技术方案,所述步骤三中的随机森林方法是随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证。
14.作为本发明的一种优选技术方案,所述步骤四中利用随机森林方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值。
15.作为本发明的一种优选技术方案,所述步骤五中在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围。
16.本发明的有益效果是:本方法用于预测分析以及发现变量之间的线性或非线性关系,可根据输入、输出的类型不同而有选择型建模,同时对建模结果给出更加精准解释;其功能包括:多元线性回归、决策树、随机森林、神经网络、xgboost、lightgbm、时间序列分析;
17.具体的优点如下:
18.1、在传统行业,很多输入对输出的解释可能是非线性的,但传统方法均为线性方式,本发明有效利用非线性模型,可以得到更准确预测结果;
19.2、针对多个因子的多重共线性,即多个因子之间有相互作用,本发明可以合理解释影响;
20.3、针对模型后的结果,本发明使用刻画器找到因子的设计空间,从而在试生产控制因子输入量,更具有指导意义;
21.4、使用传统建模方法与本发明方法针对大数据建模,传统方法完全失效,而采用本方法的设计空间进行试生产,cpk提高了80%。
附图说明
22.图1为本发明的流程图。
具体实施方式
23.下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易被本领域人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
24.一种高级建模的数据分析方法,具体步骤如下:
25.步骤一、确定目标变量及建模目的;
26.步骤二、确定影响因子,收集历史数据,并进行数据清洗;
27.步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选,随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证,通过这种重复抽样的方式避免了大数据下基础模型的过拟合;这种方法相较于传统建模会更利于筛选出显著影响因子,尤其在因子个数比较多;对每个决策树模型计算特征重要性,最后在进行简单投票法,得到重要特征;
28.步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法,利用随机森林方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值;
29.步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行
生产能获得预期效果,在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围;
30.步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。
31.实施例:下面结合热轧精轧的自然宽展实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
32.宽度的尺寸精度是热轧产品质量的重要指标,高的宽度精度不仅可以提高产品的成材率,而且可以给热轧用户及后部工序创造良好的生产条件。以往文献针对精轧自然宽展模型进行了研究,并提出以神经网络为主的模型,其模型输入参数为带钢化学成分(碳、硅、锰
……
)、粗轧出口宽度、粗轧出口目标宽度、精轧出口宽度、精轧出口目标厚度、精轧出口目标温度、各机架的压下率等。但由于其模型结构过于复杂,在进行实际推广时非常困难,另外利用单一模型难以确定输入参数的范围。本发明很好解决预测精轧自然宽展、关键输入因子找出以及输入参数范围确定的问题。
33.步骤一、首先需要确定目标变量;自然宽展模型关注的因子为粗轧宽度;
34.步骤二、确定影响因子,收集历史数据,并进行数据清洗;
35.根据历史文献以及工人经验,挑选的因子为:带钢宽度、厚度、带钢的质量、硅含量、锰含量等24个因子,团队采集了2499热轧共十个月的精轧生产数据,利用数据清洗,共提取出有效数据87955块带钢;
36.步骤三、确定建模目的,如果建模目标为筛选因子,比如确定影响带宽的因子,通过高级建模中的随机森林方法可以做到广泛筛选;
37.随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证;通过这种重复抽样的方式避免了大数据下基础模型的过拟合;这种方法相较于传统建模会更利于筛选出显著影响因子,尤其在因子个数比较多;对每个决策树模型计算特征重要性,最后在进行简单投票法,得到重要特征,即对自然宽展量最具影响力的几个输入因子;
38.步骤四、如果建模目的为预测响应目标值,如确定因子的范围以使粗轧宽度达到目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;本方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值;
39.步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果。在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围;
40.步骤六、在步骤五得到的因子范围内进行试生产,得到自然宽展的数值,并进行记录,对比调整前后的宽展量,发现调整后离目标值的距离缩小60%。
41.上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。

技术特征:
1.一种高级建模的数据分析方法,其特征在于:具体步骤如下:步骤一、确定目标变量及建模目的;步骤二、确定影响因子,收集历史数据,并进行数据清洗;步骤三、确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;步骤四、如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;步骤五、通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;步骤六、在步骤五得到的因子范围内进行试生产,得到数值,并进行记录。2.根据权利要求1所述的一种高级建模的数据分析方法,其特征在于:所述步骤三中的随机森林方法是随机森林集成决策树,利用交叉验证法随机抽取一部分样本放入随机森林模型中进行建模、学习,剩下的样本进行验证。3.根据权利要求1所述的一种高级建模的数据分析方法,其特征在于:所述步骤四中利用随机森林方法集成决策树,每一棵决策树以信息熵为度量构造一颗熵值下降最快的方式,如集成5000棵树,则对5000次建模结果进行简单平均,从而得到对自然宽展的预测值。4.根据权利要求1所述的一种高级建模的数据分析方法,其特征在于:所述步骤五中在最佳因子组合的基础上,设定因子的参数的波动范围,利用模拟器进行范围模拟,查看响应的变化区间;根据区间的可接受程度,修改因子的波动范围。

技术总结
本发明公开了一种高级建模的数据分析方法,具体步骤如下:确定目标变量及建模目的;确定影响因子,收集历史数据,并进行数据清洗;确定建模目的,如果建模目标为筛选因子,通过高级建模中的随机森林方法可以做到广泛筛选;如果建模目的为预测响应目标值,利用传统方法可能会受因子相互作用的影响,同样可以利用高级建模中的随机森林方法;通过响应刻画器得到显著因子的最佳组合参数,确保按照最佳条件进行生产能获得预期效果;将得到的因子范围内进行试生产,得到数值,并进行记录。本方法用于预测分析以及发现变量之间的线性或非线性关系,可根据输入、输出的类型不同而有选择型建模,同时对建模结果给出更加精准解释。时对建模结果给出更加精准解释。时对建模结果给出更加精准解释。


技术研发人员:金丽伟
受保护的技术使用者:上海普茅数据科技有限公司
技术研发日:2022.08.04
技术公布日:2022/12/1
转载请注明原文地址: https://bbs.8miu.com/read-335470.html

最新回复(0)