本发明涉及一种财务数据转换成评估数据规范化的方法。
背景技术:
传统的财务数据转换评估数据的软件,都是c/s架构的,需要使用者在电脑上安装相对应的软件才可以使用,使用条件不方便,常用电脑不在身边就无法进行操作。在以往的评估工作中,评估师接收到的很多企业财务报表都是各企业使用各种不同财务软件导出的数据,需要评估师进行纯人为的分析、拆分,以供后续评估使用。
财务数据转换成评估数据,实现的是将数据从一个表达形式匹配转换成另一个表达形式的功能,但是现有数据转换方式存在如下缺陷:数据转换只能根据不同财务软件系统的模板进行一对一的针对性匹配规则编写,要兼容市面上的大部分财务软件模板就要进行成百上千次的不同类型的匹配规则编写,数据转换编写复杂,效率低下;当模板变化、转换条件变化时,需按新的转换条件,重新对数据的全部字段进行一次转换计算,需要投入大量的人力,数据维护效率低。
技术实现要素:
针对上述问题,本发明的目的在于一种财务数据转换成评估数据规范化的方法。
一种财务数据转换成评估数据规范化的方法,包括以下步骤:
s1、接收待转换的excel模板数据文件;
s2、读取接收到的模板文件中的数据,利用匹配规则引擎针对每行数据的内容,进行表头行和具体数据行的分类;
s3、利用匹配规则引擎针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段;
s4、利用匹配规则引擎针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段;
s5、根据匹配到的字段,进行多种数据格式单位的处理;
s6、匹配结果在浏览器web页面进行展示,可进行人为调整;
s7、将最终匹配完毕的数据进行数据库持久化存储,用以提供导出评估数据模板。
其中,所述待转换的excel模板数据文件支持xls以及xlsx格式类型;
所述待转换的excel模板数据文件支持主流的财务软件系统导出的余额表、明细账、资产台账,不同的字段名称以及格式;
所述匹配规则引擎,通过读取的导入数据前两行的内容来确定该模板是一行标题还是两行标题,用以区分标题和具体数据;
针对表头行的内容,根据预设的匹配资源库进行匹配,包括精确匹配以及模糊匹配;
针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段;
所述匹配到的字段格式处理包括科目编号、科目名称以及涉及到的金额等字段,以达到统一格式处理;
所述页面展示,人为干预调整匹配关系,可以进行匹配引擎的升级完善;
根据匹配完成的结果,进行格式化数据的存储,并通过业务逻辑导出提供评估使用的数据模板。
进一步地,s2涉及的利用匹配规则引擎,针对表头行和具体数据行的分类操作通过以下步骤实现:
s2.1、根据解析的导入数据前两行内容,来适配是单行表头还是双行表头;
s2.2、单行表头,第一行各个列的数据内容都是针对属性的描述文字;
s2.3、双行表头,第一行同单行表头,第二行科目编号和科目名称列内容必定为空(根据excel合并单元格处理);
s3涉及的利用匹配规则引擎,针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段,通过以下步骤实现:
s3.1、根据表头每个单元格的内容,通过不断完善的预设匹配池中进行精确匹配;
s3.2、匹配到的标题列用自定义规范化的标识code进行标注;
s3.3、将数据组装成规范化的数据结构进行后续使用;
s4涉及的利用匹配规则引擎,针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段,通过以下步骤实现:
s4.1、科目编号列进行层级处理,从一级科目进行逐级匹配,区分出来每个科目的父级科目和子集科目;
s4.2、科目名称列根据匹配到的一级科目进行子集科目的逐级匹配;
s4.3、科目名称列根据匹配到的一级科目的科目编号重新执行科目编号的匹配规则进行第三次匹配。
进一步地,所述s2、s3、s4涉及的匹配规则引擎通过hbase storm spark组合完成:
利用hbase,将非结构化的自动匹配、手动匹配日志文件数据进行实时存储,为后续模板适配计算提供高效的读写性能;
利用分布式流计算引擎storm,对每个节点实现一个基本的计算过程,数据项在互相连接的网络节点中流进流出,动态处理实时大量生成的自动解析数据日志以及人为干预处理日志,及时的对导入的模板进行适配解析,进行模板适配自学习,不断完善扩充支持的模板类型;
再利用spark,先汇聚不同任务生成的批量数据,然后进行数据全集的全面计算处理,进行模板解析适配的整体完善;
在保证了用户每次导入任务实时准确处理的同时,又及时的对模板适配进行了扩充完善,不断提升自动识别和转换率。
与现有技术相比,本发明的有益效果是:
1、本发明是b/s架构,可以直接在浏览器上访问,是可以让企业可以更加方便快捷的提供资产评估数据交换的服务体系。
2、本发明在自动匹配的基础上,增加了可视化人为干预调整,更灵活、更加贴合实际使用场景,让评估师从繁琐的数据整理工作中解放出来。
3、本发明基于机器学习算法,自动学习已导入分类的对应关系,不断提升自动识别和转换率,最终以一种统一标准模板来应对以前的繁多模板的情况,极大地降低了人力维护成本。
附图说明
图1是本发明的财务数据转换成评估数据规范化的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的实施例提供一种财务数据转换成评估数据规范化的方法,参照图1,具体步骤如下:
s1、接收待转换的excel模板数据文件;
s2、读取接收到的模板文件中的数据,利用匹配规则引擎针对每行数据的内容,进行表头行和具体数据行的分类;
s3、利用匹配规则引擎针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段;
s4、利用匹配规则引擎针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段。
s5、根据匹配到的字段,进行多种数据格式单位的处理;
s6、匹配结果在浏览器web页面进行展示,可进行人为调整;
s7、将最终匹配完毕的数据进行数据库持久化存储,用以提供导出评估数据模板。
其中,所述待转换的excel模板数据文件支持xls以及xlsx格式类型;
所述待转换的excel模板数据文件支持主流的财务软件系统导出的余额表、明细账、资产台账,不同的字段名称以及格式;
所述匹配规则引擎,通过读取的导入数据前两行的内容来确定该模板是一行标题还是两行标题,用以区分标题和具体数据;
表1
表2
表3
结合上述3个表格,s2涉及的利用匹配规则引擎,针对表头行和具体数据行的分类操作通过以下步骤实现:
s2.1、根据解析的导入数据前两行内容,来适配是单行表头还是双行表头;
s2.2、单行表头,第一行各个列的数据内容都是针对属性的描述文字;
s2.3、双行表头,第一行同单行表头,第二行科目编号和科目名称列内容必定为空(根据excel合并单元格处理)。
进一步,针对分类后表头行的内容,根据预设的匹配资源库进行匹配,包括精确匹配以及模糊匹配;
s3涉及的利用匹配规则引擎,针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段,通过以下步骤实现:
s3.1、根据表头每个单元格的内容,通过不断完善的预设匹配池中进行精确匹配;
s3.2、匹配到的标题列,用自定义规范化的标识code进行标注;
s3.3、将数据组装成规范化的数据结构进行后续使用。
其中预设的匹配资源库首先会以国家标准的资产科目编号以及名称的内容作为初始化内容,其次会通过机器学习进行匹配资源库的升级,形成一个持续完善的匹配资源库。
例如:
科目编号的唯一编码为“subject_code”,对应的匹配资源库内容为“科目编号”,“科目编码”,“科目代码”,“科目号”;
科目名称的唯一编码为“subject_name”,对应的匹配资源库内容为“科目名称”,“科目名”;
当从表头行内容中读取到在这个范围内匹配完成的相应数值,就会进行列属性的定义匹配,例如excel表头中,a列的值为“科目代码”,在科目编号的匹配池中匹配完成后,会将a列定义为“subject_code”,以此类推,待所有表头列都匹配完毕之后,会将数据组装成规范化的数据结构供后续操作。
进一步,针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段;
s4涉及的利用匹配规则引擎,针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段,通过以下步骤实现:
s4.1、科目编号列进行层级处理,从一级科目进行逐级匹配,区分出来每个科目的父级科目和子级科目;
s4.2、科目名称列根据匹配到的一级科目进行子级科目的逐级匹配;
s4.3、科目名称列根据匹配到的一级科目的科目编号重新执行科目编号的匹配规则进行第三次匹配。
表4
如上表4所示,匹配步骤为:
1、匹配规则引擎首先会对科目编号进行第一次匹配处理,由于国家标准的一级科目编号为4位数字,因此,筛选出匹配完成的一级科目,再根据一级科目的4位数字为基础来迭代匹配属于它的子科目编号,此处会产生两种数据,一种是匹配项数据,另一种是未匹配项数据;
2、通过第一步产生的未匹配项数据进行科目名称的二次匹配处理,根据国家标准的一级科目名称来进行精确以及模糊匹配,此处会产生两种数据,一种是匹配项数据,另一种是依旧未匹配项数据;
3、第二次根据科目名称匹配完成的数据,会根据其科目编号重新执行科目编号匹配规则进行第三次匹配,此处产生的最终匹配数据和未匹配数据进行持久化入库处理以供后续操作。
所述匹配到的字段格式处理包括科目编号、科目名称以及涉及到的金额等字段,以达到统一格式处理;
表5
如上表5所示,科目编码列中数据有带“.”的情况,需要进行去除处理;科目名称列,数据是分层级带“_”的格式,需要只取最后一部分内容;有些是以空格作为分隔符,也是需要进行处理得;也有一些模板中的金额数据是以文本形式格式化的,读取后有类似“123.123.00”的情况,需要进行统一化处理。
类似上述的情况在实际情况中会遇到很多,会定期根据日志中的处理记录进行格式化完善处理。
进一步,所述页面展示,人为干预调整匹配关系,可以进行匹配引擎的升级完善;
根据匹配处理完成的数据进行页面展示,左侧为匹配完毕的标准科目分类表,右侧为已匹配数据和未匹配数据,可以通过这三部分页面内容进行人为操作,对已匹配科目进行修改,还可以对未匹配科目数据进行指定匹配操作。
根据最终匹配完成的结果,进行格式化数据的存储,并通过分类科目业务逻辑导出提供评估使用的数据模板。
本发明涉及的匹配规则引擎通过hbase storm spark组合完成:
利用hbase,将非结构化的自动匹配、手动匹配日志文件数据进行实时存储,为后续模板适配计算提供高效的读写性能;
利用分布式流计算引擎storm,对每个节点实现一个基本的计算过程,数据项在互相连接的网络节点中流进流出,动态处理实时大量生成的自动解析数据日志以及人为干预处理日志,及时对导入的模板进行适配解析,进行模板适配自学习,不断完善扩充支持的模板类型;
再利用spark,先汇聚不同任务生成的批量数据,然后进行数据全集的全面计算处理,进行模板解析适配的整体完善;
在保证了用户每次导入任务实时准确处理的同时,又及时对模板适配进行了扩充完善,不断提升自动识别和转换率。
以上是对本发明的实施进行了具体说明,但本发明创造并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。
1.一种财务数据转换成评估数据规范化的方法,包括以下步骤:
s1、接收待转换的excel模板数据文件;
s2、读取接收到的模板文件中的数据,利用匹配规则引擎针对每行数据的内容,进行表头行和具体数据行的分类;
s3、利用匹配规则引擎针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段;
s4、利用匹配规则引擎针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段;
s5、根据匹配到的字段,进行多种数据格式单位的处理;
s6、匹配结果在浏览器web页面进行展示,可进行人为调整;
s7、将最终匹配完毕的数据进行数据库持久化存储,用以提供导出评估数据模板;
其中,所述待转换的excel模板数据文件支持xls以及xlsx格式类型;
所述待转换的excel模板数据文件支持主流的财务软件系统导出的余额表、明细账、资产台账,不同的字段名称以及格式;
所述匹配规则引擎,通过读取的导入数据前两行的内容来确定该模板是一行标题还是两行标题,用以区分标题和具体数据;
针对表头行的内容,根据预设的匹配资源库进行匹配,包括精确匹配以及模糊匹配;
针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段;
所述匹配到的字段格式处理包括科目编号、科目名称以及涉及到的金额等字段,以达到统一格式处理;
所述页面展示,人为干预调整匹配关系,可以进行匹配引擎的升级完善;
根据匹配完成的结果,进行格式化数据的存储,并通过业务逻辑导出提供评估使用的数据模板。
2.如权利要求1所述方法,其特征在于,所述s2涉及的利用匹配规则引擎,针对表头行和具体数据行的分类操作通过以下步骤实现:
s2.1、根据解析的导入数据前两行内容,来适配是单行表头还是双行表头;
s2.2、单行表头,第一行各个列的数据内容都是针对属性的描述文字;
s2.3、双行表头,第一行同单行表头,第二行科目编号和科目名称列内容必定为空(根据excel合并单元格处理);
s3涉及的利用匹配规则引擎,针对表头行的内容,进行字段含义的匹配,用来对应标准模板中的预设评估所需字段,通过以下步骤实现:
s3.1、根据表头每个单元格的内容,通过不断完善的预设匹配池中进行精确匹配;
s3.2、匹配到的标题列用自定义规范化的标识code进行标注;
s3.3、将数据组装成规范化的数据结构进行后续使用;
s4涉及的利用匹配规则引擎,针对数据行的内容,进行科目编号、科目名称的匹配,用来对应评估模板所需字段,通过以下步骤实现:
s4.1、科目编号列进行层级处理,从一级科目进行逐级匹配,区分出来每个科目的父级科目和子集科目;
s4.2、科目名称列根据匹配到的一级科目进行子集科目的逐级匹配;
s4.3、科目名称列根据匹配到的一级科目的科目编号重新执行科目编号的匹配规则进行第三次匹配。
3.如权利要求1所述方法,其特征在于,所述s2、s3、s4涉及的匹配规则引擎通过hbase storm spark组合完成:
利用hbase,将非结构化的自动匹配、手动匹配日志文件数据进行实时存储,为后续模板适配计算提供高效的读写性能;
利用分布式流计算引擎storm,对每个节点实现一个基本的计算过程,数据项在互相连接的网络节点中流进流出,动态处理实时大量生成的自动解析数据日志以及人为干预处理日志,及时的对导入的模板进行适配解析,进行模板适配自学习,不断完善扩充支持的模板类型;
再利用spark,先汇聚不同任务生成的批量数据,然后进行数据全集的全面计算处理,进行模板解析适配的整体完善;
在保证了用户每次导入任务实时准确处理的同时,又及时的对模板适配进行了扩充完善,不断提升自动识别和转换率。
技术总结