本发明属于保险产品数据处理领域,具体涉及一种基于多数据源的保单数据智能解析方法和系统。
背景技术:
随着社会经济的发展,人们对保险产品的认知不断提高,新型保险产品层出不穷,并且越来越受到广大受众的欢迎,保险前景广阔。而作为中间角色的经代公司乙方,通常会与多家保险公司。经代公司的数量越来越多,与各家经代公司合作的保险产品种类也越来越多,但市场上未出现用于各种保单数据的标准数据处理体系。
常见经代公司,通常通过招集大量程序员分别对各家保险公司的产品数据进行数据处理,并且需要处理各种不同的保单数据,另外,同一家保险公司的保单数据也会存在不统一的情况。因此,如果处理各家保险公司数据,需要对各种数据格式的保单数据进行立项处理,那需要耗费大量人力物力进行处理,不利于项目管理,也不利于整体数据处理,并且容易出现差错。因此,针对经代公司,处理繁杂保单数据的迫切需求,有必要设计一款用于统一处理保单数据的方法及系统。
技术实现要素:
本申请提供了一种基于多数据源的保单数据智能解析方法和系统,用于解决现有技术中,在保单数据中必传字段完整的前提下,由于各保险公司的保单数据数据格式不统一,导致处理各类保单数据时,费时费力且后续管理维护困难的问题。
根据本申请的一个方面,提供了一种基于多数据源的保单数据智能解析方法,所述方法包括:
s1:获取多数据源的保单数据;
s2:预设数据源解析器工厂,配置有多种解析器;
s3:针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,获取统一数据格式的所述保单数据;
s4:基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,且设置映射字段的优先级;
s5:基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据。
进一步地,在所述s1中,所述多数据源的保单数据为可进行统一保单数据处理的符合必传数据规范的说明文档,且包括但不局限于第三方系统数据源、邮件数据源、用户导入数据源。
进一步地,在所述s2之前,还包括对获取的多数据源的保单数据进行备份处理。
进一步地,在所述s2中,所述数据源解析器工厂的多种解析器,通过采用不同解析方式的所述解析器,对不同数据格式的所述保单数据进行解析处理,,所述解析器包括但不限于excel解析器、word解析器、pdf解析器、zip解析器。
进一步地,在所述s3中,针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,并输出统一数据格式的所述保单数据,进一步包括:excel解析器、word解析器、pdf解析器、zip解析器
利用所述excel解析器对excel格式的保单数据进行解析处理;
利用所述word解析器对word格式的保单数据进行解析处理;
利用所述pdf解析器对pdf格式的保单数据进行解析处理;
利用所述zip解析器对zip格式的保单数据进行解析处理。
进一步地,在所述s5,基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据之后,还包括对缺少必要字段的所述保单数据进行异常提示处理。
根据本申请的另一个方面,提供了一种基于多数据源的保单数据智能解析系统,所述系统包括:
保单数据源模块、数据解析模块、动态映射模块、数据智能处理模块;
所述保单数据源模块用于获取多数据源的保单数据;
所述数据解析模块用于预设数据源解析器工厂,配置有多种解析器;并针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,并输出统一数据格式的所述保单数据;
所述动态映射模块用于基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,并设置映射字段的优先级;
所述数据智能处理模块用于基于正则表达式,筛选并输出标准数据格式的所述保单数据。
进一步地,所述系统还包括数据备份模块、异常处理模块;
所述数据备份模块用于对获取的多数据源的保单数据进行备份处理;
所述异常处理模块用于对缺少必要字段的所述保单数据进行异常提示处理。
根据本申请的另一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如前文任一项所述的基于多数据源的保单数据智能解析方法的步骤。
根据本申请的另一个方面,提供了一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如如前文任一项所述的基于多数据源的保单数据智能解析方法的步骤。
本申请的有益效果在于:本申请针对经代公司难以对合作的各个保险公司进行一体化的服务,提供了一种基于多数据源的保单数据智能解析方法和系统,对后期服务的可扩展性,优服务化的落地实现技术,可实现保单时间备份管理、智能解析、动态映射、数据智能处理、异常管理的一站式服务流程,可帮助经代公司适配并处理各种类型的保单数据,减少公司的人力物力财力的消耗,帮助公司更好的发展。
本发明针对各种数据格式的保单数据,利用可扩展的解析器,避免重复开发对接保险公司保单数据的处理接口。同时,通过智能解析字段名称,统一输出接口的技术方案来实现,具有少配置,智能解析数据,且方便追踪的优点。
附图说明
图1为本发明的基于多数据源的保单数据智能解析方法的流程图;
图2为本发明基于多数据源的保单数据智能解析方法的一种实施例的框架示意图。
具体实施方式
现有技术中,(1)不同保险公司字段名称不统一,导致每次处理一个保险公司数据,就做一个项目;(2)相同保险公司保单数据格式不统一,保单数据格式各种各样,导致每次新出一种格式就要重新开发;(3)同一家保险公司发给不同经代公司的保单数据不统一,格式和字段名称都不统一,导致要开发很多类似的功能,进行保单数据的解析,导致产品臃肿,后续开发维护困难。(4)经代公司解析不同保险公司的保单数据后,每家保险公司一个输出格式,输出格式不统一,导致后续管理和维护困难。(5)保单原始数据分散,导致经代公司解析处理原始数据后,查询追踪原始数据困难。
基于此,本申请提供如下实施方式。且为使本发明实施例的目的、技术方案以及优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚的描述,显然,所描述的实施例是本发明的一部分,而不是全部的实施例。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
实施方式1
在此前提的基础上,本申请提供了一种基于数据源的保单数据智能解析方法,参考图1所示,该方法包括步骤s1、s2、s3、s4、s5、s6。
步骤s1:获取多数据源的保单数据。
本步骤中的多数据源的保单数据为可进行统一保单数据处理的符合必传数据规范的说明文档,且包括但不限于第三方系统数据源、邮件数据源、用户导入数据源。
本发明中的智能解析技术的前提是保单数据规范说明文档,例如,保单数据为word文档,那么word文档中的保单数据源中的必录字段需要规范,具体为确保所需必传字段存在的规范。
本实施例中,多数据源的保单数据包括第三方系统数据源、邮件数据源、用户导入数据源。第三方系统数据源为各家经代公司各自系统中存档的保单数据。邮件数据源为经代公司邮箱保单数据。邮件数据格式包含excel,word,pdf,zip,rar,eml等格式。用户导入数据源为用户导入的各类数据格式的保单数据。在新增经代公司时,不需要新增模块或数据配置,仅配置新的字段映射即可处理。
进一步地,本实施例中的多数据源的保单数据需要满足必录字段需要规范,确保必传字段存在的规范。比如,保单数据中必须满足信息:保单号,险种,保单状态,生效日期,保费,投保人,被保人,业务员等信息。
步骤s2:预设数据源解析器工厂,配置有多种解析器。
在步骤s2之前,本实施例的保单数据解析方法还包括:对获取的多数据源的保单数据进行备份处理。进一步地,通过对解析处理前的保单数据进行备份处理,便于后续查询追踪。
不同保险公司提供各自的保单数据以及不同的字段数据,通过数据源解析器工厂,输出为一套标准的保单格式数据,以便同一家经代公司中不同保险公司的保单数据能够共通,从而实现各经代公司共用的一套体系化工具。
本实施例中,将获取的保单数据处理保存至mongodb数据库中,对获取的保单数据进行备份的同时,提高处理效率以及增加可重复处理的特性。
进一步地,获取的保单数据可到mongodb数据库中去追查,方便快捷;利用mongodb数据库的特性,提高保单数据的处理效率;采用可操作mongodb数据库,可将异常数据的状态设置为未处理,减少对获取的保单数据的影响,同时保证了可重复处理的特性。
在步骤s2中,预设数据源解析器工厂,配置有多种解析器,进一步地,数据源解析器工厂的多种解析器,通过采用不同解析方式的解析器对不同数据格式的保单数据解析处理,解析器包括但不限于excel解析器、word解析器、pdf解析器、zip解析器。
本实施例中的数据源解析器工厂为一种统一保单数据处理的接口,即获取不同数据格式的保单数据,经过数据源解析器工厂后,获取到统一的数据格式。
步骤s3:针对不同数据格式的保单数据,分配不同的解析器进行解析处理,获取统一数据格式的保单数据。
在步骤s3中,针对不同数据格式的保单数据,分配不同的解析器进行解析处理,并输出统一数据格式的保单数据,进一步包括:excel解析器、word解析器、pdf解析器、zip解析器。
利用excel解析器对excel格式的保单数据进行解析处理;利用word解析器对word格式的保单数据进行解析处理;利用pdf解析器对pdf格式的保单数据进行解析处理;利用zip解析器对zip格式的保单数据进行解析处理。
其中,除上述的多种数据格式外,还可以扩展解析,比如针对特定格式的保单数据,采用特定的解析器对特定格式的保单数据进行解析处理。
进一步地,预设用于统一保单数据的处理接口的数据源解析器工厂,包括:
(1)excelparser:专门负责处理excel格式的保单数据,包含.xls和.xlsx两个格式;
(2)wordpareser:专门负责处理word格式的保单数据;
(3)pdfpareser:专门负责处理pdf格式的保单数据。
(4)zippareser:专门负责处理zip压缩包格式的保单数据;
(5)***pareser:其他负责处理特定格式的保单数据,例如:rarparser、emlparser等特定格式的解析器。
因此,为适应不同的保单数据格式,比如excel,word,pdf,zip,rar,eml,json,对象等保单数据格式,数据源解析器工厂需要根据保单数据的数据格式,分配不同的解析器去处理。
例如,excel格式的数据使用excelparser解析器进行解析,部分代码如下:
excellistenerexcellistener=newexcellistener();
excelreader=easyexcel.read(in,null,
excellistener).headrownumber(0).build();
excelreader.read();
该模块采用javaspringboot编写。采用这种开源框架的意义在于,该种开源技术方便实现模块化,启动速度快,编写简单容易上手。它存在的意义是作为各种经代公司保单数据智能解析的接口,不同的保单数据格式采用不同的格式处理器,后续如果有新的数据格式,只需新增对应数据格式的解析器即可,无需改动已有代码逻辑,从而实现对解析器的模块化。进一步地,如果有新的保单数据格式,那么只需要再添加一个对应数据格式的解析器即可,不需要其他操作,即可使用,因此,针对本实施例中的解析器的数据处理格式可以无限部署,且扩展方便。
步骤s4:基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,且设置映射字段的优先级。
本步骤中,基于映射字段库,将获取的保单数据中的众多字段名称映射为标准的字段名称,以便后续进行标准格式输出。
本实施例中的保单号的映射字段库对应的部分别名如下:
保单号->保单号码;
保单号->保单编号;
保单号->保险合同号;
保单号->个单号;
保单号->合同号;
保单号->保单合同号;
保单号->保险单号;
保单号->保单号desc;
保单号->保险合同号码;
保单号->保险单编号。
其他的映射字段有:保险公司名称,产品编码,产品名称,保费,业务员,投保人,被保人,生效日期,险种代码,险种名称,经代公司名称,缴费年期,缴期,银行名称等信息。
步骤s5:基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据。
本步骤中的保单数据,基于正则表达式,正则表达式(regularexpression)为一种字符串匹配的模式(pattern),可以用来检查一个串是否含有某种子串、将匹配的子串替换或者从某个串中取出符合某个条件的子串等。
本实施例中的正则表达式为:处理时间,金额,数字,字符串等格式,可处理名称和代码不匹配的格式。
例如:处理时间的正则表达式如下:
//yyyy-mm-dd格式
stringregex=
"([0-9]{3}[1-9]|[0-9]{2}[1-9][0-9]|[0-9][1-9][0-9]{2}|[1-9][0-9]{3})-(((0[13578]|1[02])-(0[1-9]|[12][0-9]|3[01]))|((0[469]|11)-(0[1-9]|[12][0-9]|30))|(02-(0[1-9]|[1][0-9]|2[0-8])))";
处理名称和代码的正则表达式为:
stringregex="[\u4e00-\u9fa5]"
提起数字的代码如下:
patternp=pattern.compile("[^0-9]");
matcherm=p.matcher(paymentperiod);
......
在步骤s6,基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据之后,还包括对缺少必要字段的保单数据进行异常提示处理。
进一步地,针对保单数据中必要字段的缺少,或者人为原因导致原始数据不全或者错误等情况,需要进行异常处理,保存异常的保单数据记录以及错误的保单数据位置,以便查询,减少对原始数据的影响,同时保证了可重复处理的特性。
实施方式2
在前文基于数据源的保单数据智能解析方法的基础上,本申请提供了一种基
于数据源的保单数据智能解析系统,该系统包括:
保单数据源模块、数据解析模块、动态映射模块、数据智能处理模块。
保单数据源模块用于获取多数据源的保单数据。
数据解析模块用于预设数据源解析器工厂,配置有多种解析器;并针对不同数据格式的保单数据,分配不同的解析器进行解析处理,并输出统一数据格式的保单数据。
动态映射模块用于基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,并设置映射字段的优先级。
数据智能处理模块用于基于正则表达式,筛选并输出标准数据格式的所述保单数据。
进一步地,该系统还包括数据备份模块、异常处理模块;
数据备份模块用于对获取的多数据源的保单数据进行备份处理;
异常处理模块用于对缺少必要字段的保单数据进行异常提示处理。
实施方式3
本实施例提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行实施方式1中的的基于多数据源的保单数据智能解析方法的步骤。
进一步地,在一个实施例中,提出了一种计算机设备,包括存储器和处理器,该存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得该处理器执行计算机可读指令时实现以下步骤:
获取多数据源的保单数据;对获取的多数据源的保单数据进行备份处理;预设数据源解析器工厂,配置有多种解析器;针对不同数据格式的保单数据,分配不同的解析器进行解析处理,获取统一数据格式的保单数据;基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,且设置映射字段的优先级;基于正则表达式,筛选并输出映射出的标准字段的数据格式的保单数据;对缺少必要字段的保单数据进行异常提示处理。
实施方式4
本实施例提供了一种存储有计算机可读指令的存储介质,其特征在于,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行实施方式1中的基于多数据源的保单数据智能解析方法的步骤。
进一步地,在一个实施例中,提出了一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行以下步骤:
获取多数据源的保单数据;对获取的多数据源的保单数据进行备份处理;预设数据源解析器工厂,配置有多种解析器;针对不同数据格式的保单数据,分配不同的解析器进行解析处理,获取统一数据格式的保单数据;基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,且设置映射字段的优先级;基于正则表达式,筛选并输出映射出的标准字段的数据格式的保单数据;对缺少必要字段的保单数据进行异常提示处理。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器(rom,readonlymemory)、随机存取存储器(ram,randomaccessmemory)、磁盘或光盘等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明一些示例性实施例,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
1.基于多数据源的保单数据智能解析方法,其特征在于,所述方法包括:
s1:获取多数据源的保单数据;
s2:预设数据源解析器工厂,配置有多种解析器;
s3:针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,获取统一数据格式的所述保单数据;
s4:基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,且设置映射字段的优先级;
s5:基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据。
2.如权利要求1所述的基于多数据源的保单数据智能解析方法,其特征在于,在所述s1中,所述多数据源的保单数据为可进行统一保单数据处理的符合必传数据规范的说明文档,且包括但不局限于第三方系统数据源、邮件数据源、用户导入数据源。
3.如权利要求1所述的基于多数据源的保单数据智能解析方法,其特征在于,在所述s2之前,还包括对获取的多数据源的保单数据进行备份处理。
4.如权利要求1所述的基于多数据源的保单数据智能解析方法,其特征在于,在所述s2中,所述数据源解析器工厂的多种解析器,通过采用不同解析方式的所述解析器,对不同数据格式的所述保单数据进行解析处理,所述解析器包括但不限于excel解析器、word解析器、pdf解析器、zip解析器。
5.如权利要求4所述的基于多数据源的保单数据智能解析方法,其特征在于,在所述s3中,针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,并输出统一数据格式的所述保单数据,进一步包括:excel解析器、word解析器、pdf解析器、zip解析器;
利用所述excel解析器对excel格式的保单数据进行解析处理;
利用所述word解析器对word格式的保单数据进行解析处理;
利用所述pdf解析器对pdf格式的保单数据进行解析处理;
利用所述zip解析器对zip格式的保单数据进行解析处理。
6.如权利要求1所述的基于多数据源的保单数据智能解析方法,其特征在于,在所述s5,基于正则表达式,筛选并输出映射出的标准字段的数据格式的所述保单数据之后,还包括对缺少必要字段的所述保单数据进行异常提示处理。
7.基于多数据源的保单数据智能解析系统,其特征在于,所述系统包括:
保单数据源模块、数据解析模块、动态映射模块、数据智能处理模块;
所述保单数据源模块用于获取多数据源的保单数据;
所述数据解析模块用于预设数据源解析器工厂,配置有多种解析器;并针对不同数据格式的保单数据,分配不同的所述解析器进行解析处理,并输出统一数据格式的所述保单数据;
所述动态映射模块用于基于映射字段库,配置动态名称映射表,以使标准字段的名称对应配置有别名映射,并设置映射字段的优先级;
所述数据智能处理模块用于基于正则表达式,筛选并输出标准数据格式的所述保单数据。
8.如权利要求7所述的基于多数据源的保单数据智能解析系统,其特征在于,所述系统还包括数据备份模块、异常处理模块;
所述数据备份模块用于对获取的多数据源的保单数据进行备份处理;
所述异常处理模块用于对缺少必要字段的所述保单数据进行异常提示处理。
9.一种计算机设备,包括存储器和处理器,其特征在于,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至6中任一项所述的基于多数据源的保单数据智能解析方法的步骤。
10.一种存储有计算机可读指令的存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至6中任一项所述的基于多数据源的保单数据智能解析方法的步骤。
技术总结