数据处理方法和装置、存储介质和电子装置与流程

专利2022-06-30  48


本申请涉及计算机领域,尤其涉及一种数据处理方法和装置、存储介质和电子装置。



背景技术:

目前,基于大数据与云计算,很多业务常常采用hbase等数据库进行海量数据存储。由于一般的hbase存储中常常用二进制的pb格式进行数据存储,且每个column(列)中存储的信息很多,而在实际业务方使用时,经常需要采用批处理的方式进行读取,如果直接读取整个hbase数据再抽取解析则会造成相当的资源浪费和效率降低,开发和维护成本普遍较高。

因此,在实际应用中,会将业务方使用到的数据部分(可能只占整个hbase数据的很小一部分)预先抽取到hive中,方便业务方使用。

然而,将hbase数据抽取到hive的过程是通过pb硬编码的方式实现的,即,每次需要通过修改代码编译打包等一系列方式来增加或者修改hive中的字段,操作繁琐易出错,导致业务开发效率很低。

因此,相关技术中的数据抽取方式存在由于操作繁琐易出错导致的业务开发效率很低的问题。



技术实现要素:

本申请实施例提供了一种数据处理方法和装置、存储介质和电子装置,以至少解决相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题。

根据本申请实施例的一个方面,提供了一种数据处理方法,包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,在从源数据库中读取源数据格式的源数据之前,上述方法还包括:读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。

可选地,配置信息还包括用于表示目标数据表的数据表信息,在读取配置信息之后,上述方法还包括:根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。

可选地,对中间数据进行解析,提取中间数据的目标字段的目标字段信息包括:使用解析器对中间数据进行解析,按照json路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为json格式,json路径为json格式中与目标业务对应的目标字段的路径。

根据本申请实施例的另一个方面,提供了一种数据处理装置,包括:第一读取单元,用于从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;转换单元,用于将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;提取单元,用于对中间数据进行解析,提取中间数据的目标字段的目标字段信息;组装单元,用于将目标字段信息组装为目标数据格式的目标数据;保存单元,用于将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,上述装置还包括:第二读取单元,用于在从源数据库中读取源数据格式的源数据之前,读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;第一构建单元,用于根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。

可选地,配置信息还包括用于表示目标数据表的数据表信息,上述装置还包括:第二构建单元,用于在读取配置信息之后,根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。

可选地,提取单元包括:使用解析器对中间数据进行解析,按照json路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为json格式,json路径为json格式中与目标业务对应的目标字段的路径。

通过本申请,采用具有层级关系的中间数据格式进行数据转换的方式,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据,由于采用可以方便与其他数据格式转换的中间数据格式(例如,json格式、xml),可以简化数据转换操作,避免转换操作中存在的错误,达到降低业务开发成本和维护成本,提高业务开发效率的技术效果,从而解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是根据本申请实施例的一种可选的服务器的硬件结构框图;

图2是根据本申请实施例的一种可选的数据处理方法的流程图;

图3是根据本申请实施例的一种可选的数据处理方法的示意图;

图4是根据本申请实施例的另一种可选的数据处理方法的示意图;

图5是根据本申请实施例的另一种可选的数据处理方法的流程图;

图6是根据本申请实施例的一种可选的数据处理装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本申请。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。

下面对本申请实施例中涉及到的技术术语进行如下解释说明:

hbase:hadoopdatabase,一种分布式计算数据库;

hdfs:hadoopdistributedfilesystem,hadoop分布式文件系统;

hive:一种基于hadoop的数据仓库工具;

json:javascriptobjectnotation,js对象简谱;

pb格式:protobuf格式。

根据本申请实施例的一个方面,提供了一种数据处理方法。可选地,该方法可以在服务器或者类似的运算装置中执行。以运行在服务器上为例,图1是根据本申请实施例的一种可选的服务器的硬件结构框图。如图1所示,服务器10可以包括一个或多个(图1中仅示出一个)处理器102(处理器102可以包括但不限于mcu(microcontrollerunit,微处理器)或者fpga(fieldprogrammablegatearray,现场可编程逻辑们阵列)等的处理装置)和用于存储数据的存储器104,可选地,上述服务器还可以包括用于通信功能的传输设备106以及输入输出设备108。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述服务器的结构造成限定。例如,服务器10还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

存储器104可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本申请实施例中的数据处理方法对应的计算机程序,处理器102通过运行存储在存储器104内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器104可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器104可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输设备106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器10的通信供应商提供的无线网络。在一个实例中,传输设备106包括一个nic(networkinterfacecontroller,网络适配器),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备106可以为rf(radiofrequency,射频)模块,其用于通过无线方式与互联网进行通讯。

在本实施例中提供了一种运行于上述服务器的数据处理方法,图2是根据本申请实施例的一种可选的数据处理方法的流程图,如图2所示,该流程包括如下步骤:

步骤s202,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;

步骤s204,将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;

步骤s206,对中间数据进行解析,提取中间数据的目标字段的目标字段信息;

步骤s208,将目标字段信息组装为目标数据格式的目标数据;

步骤s210,将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,上述步骤的执行主体可以为服务器等,但不限于此,其他能够进行数据处理的装置,均可以用于执行本申请实施例中的方法。

通过本实施例,采用具有层级关系的中间数据格式进行数据转换的方式,由于采用可以方便与其他数据格式转换的中间数据格式(例如,json、xml),解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题,简化了数据转换操作,避免了转换操作中存在的错误,降低了业务开发成本和维护成本,提高了业务开发效率。

下面结合图2对本申请实施例中的数据处理方法进行说明。

在步骤s202中,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据。

本申请实施例中的数据处理方法可以应用于需要进行数据转换的场景。可以应用于如下场景:源数据库中存储有多个业务的业务数据;从源数据库中提取业务方需要的数据(源数据,与多个业务中的目标业务对应的业务数据)到目标数据表中,业务方需要使用数据时直接从目标数据表中提取数据。例如,从可以表达为json类型的数据源中可配置式地指定输出字段到任意输出数据源。

例如,可以从hbase中可配置式的抽取数据(如视频专辑等meta数据)到hive表中。

作为一种可选的实施例,在从源数据库中读取源数据格式的源数据之前,可以读取配置信息,其中,配置信息包括:用于表示目标字段在中间数据格式中的路径的路径信息;根据路径信息,构建与中间数据格式对应的解析器,其中,解析器用于从中间数据中提取目标字段信息。

用户可以将路径信息存入配置中心,其中,路径信息用于表示目标字段在中间数据格式中的路径(中间数据格式中目标字段的路径),根据路径信息,可以确定出提取中间数据中的哪些信息。

配置中心(或者其他可以从配置中心读取数据的设备)可以读取配置信息,获取配置信息中的路径信息,并根据路径信息构建与中间数据格式对应的解析器。

该解析器可以对中间数据格式的数据进行解析,从而提取出该数据中目标字段中的数据信息。对于中间数据,该解析器可以用于从中间数据中提取目标字段信息。

例如,用户可以将目标字段的jsonpath路径(用于表示目标字段在json格式中的路径)存入到配置中心。配置中心可以根据jsonpath路径生成解析器。

上述路径信息具有可配置化的特征。对于不同的目标数据格式,可以配置不同的路径信息,以限定提取中间数据格式中的不同字段的字段信息,不同的目标数据格式,所提取的字段、字段数量、字段顺顺序等可以不同。

通过本实施例,通过配置信息配置的信息进行解析器的构建,可以提高中间数据解析的准确性和效率;通过可配置化的配置信息,可以适配于不同数据格式之间转换,提高数据格式转换的可扩展性和可替换性。

作为一种可选的实施例,配置信息还包括数据表信息,在读取配置信息之后,可以根据数据表信息,构建目标数据表模式的目标数据表,其中,目标数据表模式与目标数据格式对应。

除了路径信息以外,还可以将数据表信息存入配置中心。该数据表信息可以用于表示目标数据表。例如,目标数据表的地址信息,目标数据表的名称,目标数据表的schema(模式)等,数据表的schema是指数据表的结构信息,例如,数据表中的每一列所表示的属性等。

配置中心(或者其他可以从配置中心读取数据的设备)可以读取配置信息中的数据表信息,根据数据表信息,构建目标数据表(schema)模式的目标数据表。该目标数据表模式与目标数据格式对应,对于目标数据格式的数据,可以根据目标数据格式和目标数据表模式的对应关系,保存到目标数据表中。

例如,用户还可以输出数据表的信息存入到配置中心。配置中心可以根据输出数据表的信息,构建输出表的schema。

通过本实施例,根据配置信息中的数据表信息预先构建目标数据表模式的目标数据表,可以提高目标数据保存的准确性和效率。

除了路径信息(和数据表信息以外),用户还可以将数据源信息存入配置中心。数据源信息用于表示源数据库的数据源信息,例如,源数据库的地址信息,源数据库的名称,源数据库中的数据表的名称,数据表的schema(模式)等,通过读取数据源信息,可以确定从哪个源数据库读取源数据,以及如何读取源数据。

例如,源数据以pb的格式存在hbase中,中间数据为json格式的数据。用户可以将数据源信息、输出数据表的信息(数据表信息)和字段对应jsonpath路径存入配置中心。服务器可以构建parser解析器,读取上述配置,放入内存,构建输出表的schema。其中,json格式为具有层级关系的数据格式,json格式不同字段对应于不同的路径,jsonpath为json格式中与目标业务对应的目标字段的路径,即,用于指定目标字段在与json格式中所在的位置。目标字段可以有一个或多个,对应地,jsonpath可以是一个或多个字段路径的组合。

源数据可以以源数据格式保存在源数据库中。源数据库中存储有多个业务的业务数据。不同业务的业务数据可以通过不同的业务标识来区分,不同业务方的业务数据可以通过不同的业务方标识来区分。

在接收到业务方的数据请求之后,或者,根据业务方的数据需求,在接收到业务方的数据请求之前,将业务方使用到的数据部分预先抽取到目标数据表(例如,hive)中,方便业务方使用。

在进行数据抽取时,可以从源数据库中读取源数据格式的源数据。上述源数据可以是某一业务方(目标业务方)的全部业务数据,可以是某一业务方(目标业务方)的某一个业务的业务数据,还可以是多个业务方的某一个业务的业务数据,相应地,读取源数据格式的源数据的方式可以是:根据业务标识、业务方标识中的至少一个,从源数据库中读取源数据。读取的源数据可以是具有相同业务标识和/或相同业务方标识的数据。

作为一种可选的实施例,从源数据库中读取源数据格式的源数据包括:从hbase数据库中读取pb格式的源数据,其中,源数据库为hbase数据库,源数据格式为pb格式。

源数据可以以pb格式保存到hbase中,这种数据可以很方便的转换为中间数据格式(例如,json格式)。

通过本实施例,通过pb格式将源数据保存到hbase中,可以提高数据保存的效率,以及数据转换的效率。

在步骤s204中,将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式。

在获取到源数据后,可以将获取的源数据转换为中间数据格式的中间数据。不同的源数据格式和目标数据格式,转换的方式可以不同。

作为一种可选的实施例,将源数据转换为中间数据格式的中间数据包括:将pb格式的源数据转换为json格式的中间数据,其中,源数据格式为pb格式,中间数据格式为json格式。

对于pb格式的源数据,可以将其转换为json格式的中间数据,json格式可以与多种数据格式之间进行互相转换,具有转换操作简单,转换速度快的特点,可以快速进行pb格式的数据和json格式的数据的转换。

例如,将复杂的原始数据(原始pb数据)读入内存,并转为json格式。pb格式转换为json格式使用已有的方法,例如,google公司实现的方法(com.googlecode.protobuf-java-format)。

通过本实施例,通过将pb格式的数据转换为json格式的数据,可以提高数据转换的效率。

在步骤s206中,对中间数据进行解析,提取中间数据的目标字段的目标字段信息。

对于中间数据格式的中间数据,可以采用对应的解析器进行数据解析,从中间数据中提取出特定字段的字段信息,以便进行目标数据格式的组装。

作为一种可选的实施例,对中间数据进行解析,提取中间数据的目标字段的目标字段信息包括:使用解析器对中间数据进行解析,按照json路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为json格式,json路径为json格式中与目标业务对应的目标字段的路径。

可以使用parser解析器来解析数据,利用jsonpath路径或自定义解析方法将数据源中的json格式数据抽取转换成适配目标表(目标数据表)的数据格式。

此外,parse解析器不仅可以支持jsonpath转换,还可以支持自定义解析方法,也就是编写java方法,然后通过java反射的方法来调用java方法,以实现带有复杂逻辑的、个性化的解析方案。

例如,可以通过配置输出的hive表和hive表中每个字段对应的jsonpath路径或自定义函数,使用配置的jsonpath路径或自定义函数,进行json格式的中间数据的解析。

通过本实施例,通过jsonpath对json格式的中间数据进行数据解析,可以提高数据解析的效率。

在步骤s208中,将目标字段信息组装为目标数据格式的目标数据。

在动态地将源数据(hbase数据)中业务需求的字段部分解析出来之后,可以将解析出的字段信息按照目标数据格式进行数据组装,得到目标数据格式的目标数据。

在步骤s210中,将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可以将组装的目标数据保存到目标数据表,其中,该目标数据表可以是hive表。

作为一种可选的实施例,将目标数据保存到目标数据表中包括:将目标数据输出到hive表对应的分布式文件系统目录,并构建对应的日期分区,其中,目标数据表为hive表。

可以将目标数据格式的目标数据输出到hive表对应的hdfs目录,(hive绝大多数都是保存在hdfs中,这里hdfs是hive的存储形式/介质,hive也可以存在amazons3等中),并构建对应的日期分区。将hive表存储为日期分区,每天一个快照,可以方便进行历史数据追溯。

在将目标数据保存到目标数据表之后,可以根据业务方的请求,从目标数据表中提取所请求的数据,并将所请求的数据发送给业务方,保证业务方的数据需求,提高业务方的使用体验。

通过本实施例,通过hive表进行目标数据存储,可以提高数据处理的效率,保证业务方的使用体验。

下面结合可选示例对本申请实施例中的数据处理方法进行说明。本示例中的数据处理方法可以应用于内容数据仓库系统中。通过本示例中的数据处理方法。将hbase中存储的较为庞大的数据根据业务方特定需求转化为低成本易使用的hive表数据,极大地降低了开发和维护成本。

在本示例中,将多个技术方案(pb/json/jsonpath/hive)组合到一起使用,实现pb格式->json格式-(jsonpath抽取转换)>适配hive的格式,以取代原有比较低效的方式(写代码实现pb->hive),同时,上述技术方案(pb/json/jsonpath/hive)都是可扩展可替换的。

结合图3、图4和图5,本示例中的数据处理方法可以包括以下步骤:

步骤s502,用户将数据源信息、输出数据表和字段对应jsonpath路径存入配置中心。

步骤s504,构建parser解析器,读取配置,放入内存,构建输出表的schema;

步骤s506,将复杂的原始数据读入内存,并转为json格式。

步骤s508,将任务提交到执行器,在大数据计算框架下进行计算。

根据提交的任务,使用parser解析器来解析数据,利用jsonpath路径或自定义parser方法将数据源中的json格式数据抽取转换成适配目标表的数据格式。输出数据到hive表对应的hdfs目录,并构建对应的日期分区。

通过本实施例,用json格式将pb格式存储的hbase数据与输出到hive表中的数据通过jsonpath这种可配置的方式连接起来,极大地降低编码开发成本和维护成本。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。

根据本申请实施例的另一个方面,提供了一种用于实施上述实施例中的数据处理方法的数据处理装置。可选地,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本申请实施例的一种可选的数据处理装置的结构框图,如图6所示,该装置包括:

(1)第一读取单元62,用于从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;

(2)转换单元64,与第一读取单元62相连,用于将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;

(3)提取单元66,与转换单元64相连,用于对中间数据进行解析,提取中间数据的目标字段的目标字段信息;

(4)组装单元68,与提取单元66相连,用于将目标字段信息组装为目标数据格式的目标数据;

(5)保存单元610,与组装单元68相连,用于将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,第一读取单元62可以用于上述实施例中的步骤s202,转换单元64可以用于上述实施例中的步骤s204,提取单元66可以用于上述实施例中的步骤s206,组装单元68可以用于上述实施例中的步骤s208,保存单元610可以用于上述实施例中的步骤s210。

通过本实施例,采用具有层级关系的中间数据格式进行数据转换的方式,由于采用可以方便与其他数据格式转换的中间数据格式(例如,json格式),解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题,简化了数据转换操作,避免了转换操作中存在的错误,降低了业务开发成本和维护成本,提高了业务开发效率。

作为一种可选的实施例,上述装置还包括:

(1)第二读取单元,用于在从所述源数据库中读取所述源数据格式的所述源数据之前,读取配置信息,其中,所述配置信息包括:用于表示所述目标字段在所述中间数据格式中的路径的路径信息;

(2)第一构建单元,用于根据所述路径信息,构建与所述中间数据格式对应的解析器,其中,所述解析器用于从所述中间数据中提取所述目标字段信息。

作为一种可选的实施例,所述配置信息还包括用于表示所述目标数据表的数据表信息,上述装置还包括:

(1)第二构建单元,用于在所述读取配置信息之后,根据所述数据表信息,构建目标数据表模式的所述目标数据表,其中,所述目标数据表模式与所述目标数据格式对应。

作为一种可选的实施例,提取单元66包括:

(1)提取模块,用于使用解析器对中间数据进行解析,按照json路径提取中间数据的目标字段的目标字段信息,其中,中间数据格式为json格式,json路径为json格式中与目标业务对应的目标字段的路径。

需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。

根据本申请实施例的又一个方面,提供了一种计算机可读的存储介质。可选地,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:

s1,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;

s2,将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;

s3,对中间数据进行解析,提取中间数据的目标字段的目标字段信息;

s4,将目标字段信息组装为目标数据格式的目标数据;

s5,将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随机存取存储器)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。

根据本申请实施例的又一个方面,提供了一种电子装置,包括:处理器(该存储器可以是图1中的处理器102)和存储器(该存储器可以是图1中的存储器104),该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行本申请实施例中所提供的上述任一项方法中的步骤。

可选地,上述电子装置还可以包括传输设备(该传输设备可以是图1中的传输设备106)以及输入输出设备(该输入输出设备可以是图1中的输入输出设备108),其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。

可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:

s1,从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;

s2,将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;

s3,对中间数据进行解析,提取中间数据的目标字段的目标字段信息;

s4,将目标字段信息组装为目标数据格式的目标数据;

s5,将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。

可选地,本实施例中的可选示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。

显然,本领域的技术人员应该明白,上述的本申请的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本申请不限制于任何特定的硬件和软件结合。

以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。


技术特征:

1.一种数据处理方法,其特征在于,包括:

从源数据库中读取源数据格式的源数据,其中,所述源数据库中存储有多个业务的业务数据,所述源数据为与所述多个业务中的目标业务对应的业务数据;

将所述源数据转换为中间数据格式的中间数据,其中,所述中间数据格式为具有层级关系的数据格式;

对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息;

将所述目标字段信息组装为目标数据格式的目标数据;

将所述目标数据保存到目标数据表中,其中,所述目标数据表用于保存所述目标数据格式的数据。

2.根据权利要求1所述的方法,其特征在于,在从所述源数据库中读取所述源数据格式的所述源数据之前,所述方法还包括:

读取配置信息,其中,所述配置信息包括:用于表示所述目标字段在所述中间数据格式中的路径的路径信息;

根据所述路径信息,构建与所述中间数据格式对应的解析器,其中,所述解析器用于从所述中间数据中提取所述目标字段信息。

3.根据权利要求2所述的方法,其特征在于,所述配置信息还包括用于表示所述目标数据表的数据表信息,在所述读取配置信息之后,所述方法还包括:

根据所述数据表信息,构建目标数据表模式的所述目标数据表,其中,所述目标数据表模式与所述目标数据格式对应。

4.根据权利要求2或3所述的方法,其特征在于,对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息包括:

使用所述解析器对所述中间数据进行解析,按照json路径提取所述中间数据的目标字段的目标字段信息,其中,所述中间数据格式为json格式,所述json路径为所述json格式中与所述目标业务对应的所述目标字段的路径。

5.一种数据装置,其特征在于,包括:

第一读取单元,用于从源数据库中读取源数据格式的源数据,其中,所述源数据库中存储有多个业务的业务数据,所述源数据为与所述多个业务中的目标业务对应的业务数据;

转换单元,用于将所述源数据转换为中间数据格式的中间数据,其中,所述中间数据格式为具有层级关系的数据格式;

提取单元,用于对所述中间数据进行解析,提取所述中间数据的目标字段的目标字段信息;

组装单元,用于将所述目标字段信息组装为目标数据格式的目标数据;

保存单元,用于将所述目标数据保存到目标数据表中,其中,所述目标数据表用于保存所述目标数据格式的数据。

6.根据权利要求5所述的装置,其特征在于,所述装置还包括:

第二读取单元,用于在从所述源数据库中读取所述源数据格式的所述源数据之前,读取配置信息,其中,所述配置信息包括:用于表示所述目标字段在所述中间数据格式中的路径的路径信息;

第一构建单元,用于根据所述路径信息,构建与所述中间数据格式对应的解析器,其中,所述解析器用于从所述中间数据中提取所述目标字段信息。

7.根据权利要求6所述的装置,其特征在于,所述配置信息还包括用于表示所述目标数据表的数据表信息,所述装置还包括:

第二构建单元,用于在所述读取配置信息之后,根据所述数据表信息,构建目标数据表模式的所述目标数据表,其中,所述目标数据表模式与所述目标数据格式对应。

8.根据权利要求6或7所述的装置,其特征在于,所述提取单元包括:

使用所述解析器对所述中间数据进行解析,按照json路径提取所述中间数据的目标字段的目标字段信息,其中,所述中间数据格式为json格式,所述json路径为所述json格式中与所述目标业务对应的所述目标字段的路径。

9.一种计算机可读的存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行权利要求1至4中任一项所述的方法。

10.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为通过所述计算机程序执行权利要求1至4中任一项所述的方法。

技术总结
本申请提供了一种数据处理方法和装置、存储介质和电子装置,其中,该方法包括:从源数据库中读取源数据格式的源数据,其中,源数据库中存储有多个业务的业务数据,源数据为与多个业务中的目标业务对应的业务数据;将源数据转换为中间数据格式的中间数据,其中,中间数据格式为具有层级关系的数据格式;对中间数据进行解析,提取中间数据的目标字段的目标字段信息;将目标字段信息组装为目标数据格式的目标数据;将目标数据保存到目标数据表中,其中,目标数据表用于保存目标数据格式的数据。通过本申请,解决了相关技术中的数据抽取方式存在的由于操作繁琐易出错所导致的业务开发效率很低的问题,简化了数据转换操作,提高了业务开发效率。

技术研发人员:祝梦遥;李仓良;杨学毅
受保护的技术使用者:北京奇艺世纪科技有限公司
技术研发日:2020.01.19
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57880.html

最新回复(0)