数据处理方法以及装置与流程

专利2022-06-30  73


本说明书实施例涉及计算机
技术领域
,特别涉及一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
:数据仓库(datawarehouse,可简写为dw或dwh)是一种结构化数据环境。数据仓库可以为数据分析、数据报表以及数据挖掘等应用提供数据支持,数据仓库管理是数据仓库运维的一个核心内容,且数据仓库管理通常包括数据维护以及数据仓库的建设评价等,数据仓库的任务主要是把信息加以整理归纳和重组,并及时提供给决策人员。技术实现要素:有鉴于此,本说明书实施例提供了一种数据处理方法。本说明书一个或者多个实施例同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本说明书实施例的第一方面,提供了一种数据处理方法,包括:根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。可选地,所述根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表,包括:对所述历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为所述业务主题;根据所述业务主题查询与所述业务主题对应的业务数据表;以所述业务数据表中的主题关键字为目标字段构建所述初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。可选地,所述初始数据仓库表通过以下方式进行构建:以所述目标主题表中的主题关键字以及所述业务属性字段下的各个属性类别为目标字段构建所述初始数据仓库表。可选地,所述初始数据仓库表通过以下方式进行构建:根据预设筛选规则对所述目标主题表中所述业务属性字段下的各个属性类别进行筛选处理;将筛选获得的目标属性类别以及所述目标主题表的主题关键字作为目标字段构建所述初始数据仓库表。可选地,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表,包括:在所述第一数据仓库表中新增初始字段生成第二数据仓库表,其中,新增的所述初始字段的数目根据所述业务数据表中包含的字段数目确定;确定所述业务数据表中主题关键字与各个字段中数据的映射关系;基于所述第二数据仓库表的表结构,将所述业务数据表中的数据按照所述映射关系进行同步处理,生成所述目标数据仓库表。可选地,若所述初始主题表为分区表,则所述将分析结果插入所述初始主题表的数据单元,包括:根据所述初始主题表的分区策略确定分析结果中不同类别的属性数据与所述初始主题表中各个分区的对应关系;根据所述对应关系将所述不同类别的属性数据依次插入对应的分区下的数据单元。可选地,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表步骤执行之后,还包括:接收数据查询指令,所述数据查询指令中携带有待查询的数据分析维度以及目标主题关键字;将所述目标主题关键字作为索引信息,并根据所述目标数据仓库表中主题关键字与数据分析维度字段下数据的映射关系进行数据索引处理;将索引结果作为数据查询结果输出。可选地,所述将索引结果作为数据查询结果输出步骤执行之后,还包括:将所述待查询的数据分析维度与所述数据查询结果中包含的数据分析维度信息进行比对;在根据比对结果确定所述待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则将查询结果为空的数据分析维度确定为待处理的数据分析维度;根据预设数据分析粒度以及所述待处理的数据分析维度对所述历史业务数据进行数据分析;将分析结果插入所述目标主题表的数据单元。可选地,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表步骤执行之后,还包括:在检测到所述目标主题表中存在增量数据的情况下,则基于所述增量数据对所述目标数据仓库表进行更新。根据本说明书实施例的第二方面,提供了一种数据处理装置,包括:构建模块,被配置为根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;数据处理模块,被配置为根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;数据同步模块,被配置为将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;字段合并模块,被配置为对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。根据本说明书实施例的第三方面,提供了一种计算设备,包括:存储器和处理器;所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现所述数据处理方法的步骤。本说明书一个实施例实现了根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。通过先生成目标主题表,再将目标主题表转化为目标数据仓库表的方式进行数据处理,初始主题表为表的开发提供了便利性,有利于降低开发成本,通过表转化的方式生成目标数据仓库表,并通过目标数据仓库表为用户提供数据查询服务,有利于为用户提供多类别数据查询的便利性。附图说明图1是本说明书一个实施例提供的一种数据处理方法的处理流程图;图2是本说明书一个实施例提供的一种数据处理过程的示意图;图3是本说明书一个实施例提供的一种数据处理方法应用于实际场景的处理过程流程图;图4是本说明书一个实施例提供的一种数据处理装置的示意图;图5是本说明书一个实施例提供的一种计算设备的结构框图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。在本说明书中,提供了一种数据处理方法,本说明书同时涉及一种数据处理装置,一种计算设备,以及一种计算机可读存储介质,在下面的实施例中逐一进行详细说明。图1示出了根据本说明书一个实施例提供的一种数据处理方法的处理流程图,包括步骤102至步骤108。步骤102,根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表。数据仓库是为用户的决策制定过程提供所有类型数据支持的战略集合,是一个提供用户用于决策支持的当前和历史数据的环境,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作型数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称,其最终的目的是为了让用户更快更方便查询所需要的信息,以及提供决策支持。在传统的基于大数据的数据仓库的建模的方式中,一般按照分层分主题域的方式建设,而主题域的划分按照业务来划分,另外,在建模过程中,一般按照主题来建设相应的表,模型一般选用维度模型。本说明书实施例提供了一种数据处理方法,用于数据仓库的建模,在获取到目标业务的历史业务数据后,先根据目标业务的历史业务数据确定业务主题,查询所述业务主题对应的业务数据表,然后基于业务数据表中的主题关键字构建初始主题表;在根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析并获得分析结果后,将分析结果插入所述初始主题表的数据单元,生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表,最后对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。具体的,由于数据仓库的目的是为了让用户更快更方便查询的所需要的信息,以及提供决策支持,因此,本说明书实施例所述的业务即为用户需要进行决策信息查询的业务,包括商品交易业务、理财业务等;另外,所述业务主题就是指用户所要分析的具体方面,主要是根据分析的要求来确定,由于数据库的数据组织面向事务处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主题域进行组织的,主题是与传统数据库的面向应用相对应的,是一个抽象概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利用的抽象,每一个主题对应一个宏观的分析领域,例如:某年某月某地区某机型的交易情况;主题有两个元素:一是各个分析角度(维度),如时间维度和地理位置维度;二是要分析的具体量度,该量度一般通过数值体现,如交易量;所述主题关键字可以看作是业务数据表的索引,若业务主题为某商品的交易情况,则主题关键字可以是某商品的商品id,若业务主题为用户的消费情况,则主题关键字可以是用户id;所述初始主题表为一张空表,初始主题表中的字段可根据业务主题确定。具体实施时,在获取了目标业务的历史业务数据后,需根据历史业务数据确定业务主题,并基于业务主题对应业务数据表中的主题关键字构建初始主题表。以所述目标业务为商品交易业务为例,由于越来越多的商家开通了线上交易平台,用户可通过在线上交易平台进行注册成为会员,从而享受线上交易的优惠和便捷,在用户完成注册后,平台可将各个用户的注册信息进行整合生成业务数据表并存储,并且通常情况下,所述业务数据表为宽表;根据商品交易业务的历史业务数据可确定业务主题即为用户的商品交易情况,由于与这一业务主题对应的业务数据表中仅包含用户的基本属性信息(注册信息),如:年龄、性别、联系方式等,因此需要基于业务数据表中的主题关键字(用户id)构建初始主题表。进一步的,根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表,具体可通过以下方式实现:对所述历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为所述业务主题;根据所述业务主题查询与所述业务主题对应的业务数据表;以所述业务数据表中的主题关键字为目标字段构建所述初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。具体的,主题域是对某个主题进行分析后确定的主题的边界。在进行数据仓库设计时,一般是一次先建立一个主题或全部主题中的一部分,因此在大多数数据仓库的设计过程中都有一个主题域的选择过程。主题域通常是联系较为紧密的数据主题的集合,若所述目标业务为交易业务,对交易业务的历史交易数据进行主题域的划分,可划分为用户域和商品域,则两个主题域对应的需要分析的主题分别为用户主题和商品主题;其中,商品主题的内容包括记录超市商品的采购情况、商品的销售情况和商品的存储情况;客户主题包括的内容可能有客户购买商品的情况等;若将用户域确定为目标主题域,则用户域对应的用户主题即为业务主题,用户主题对应的业务数据表中的用户id即为主题关键字。另外,由于业务数据表是一个基础表,它包含用户的一些基本信息,比如用户id、属性名称、性别、年龄等,而在将本说明书实施例所述的数据处理方法用于建立用户画像的话,会在用户的基本信息的基础上增加很多扩展信息,比如地理位置,商品购买次数、购买的商品种类等等,而这些信息不在业务数据表里,为了将需要用到的用户的多种扩展信息均存于同一张表中,以便于数据查询,则可新建一个初始主题表,并把所需用到的用户的多种扩展信息抽象成属性名称和属性值插入所述初始主题表中。仍以所述目标业务为商品交易业务为例,业务主题为用户的商品交易情况,主题关键字为用户id,所述业务属性字段的字段名称用key来表示,属性值字段的字段名称用value来表示,构建的初始主题表如表1所示。表1用户idkeyvalue12………………表1中用户id所在字段下存储的数据即为不同用户的用户id(表1中的用户id以1和2为例进行示意性说明),每一个用户id可表征唯一的用户,且用户id与key和value之间存在映射关系。通过先生成目标主题表,再将目标主题表转化为目标数据仓库表的方式进行数据处理,初始主题表为表的开发提供了便利性,有利于降低开发成本。步骤104,根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表。具体的,所述数据分析粒度即指数据仓库中数据的细化和综合程度,根据数据粒度细化标准,细化程度越高,粒度越小,细化程度越低,粒度越大。数据仓库就是整合多个数据源的历史数据进行细粒度的、多维的分析,帮助用户(业务分析人员)做出战略决策或数据报表。当数据集规模较大、数据粒度丰富时,我们可以选择多种时间序列的预测模式,时间序列的数据粒度可分为小时、天、周、月、季度、年等,还可细分至分和秒,不同的粒度都可以用来做时间序列预测。考虑到量度的聚合程度不同,我们将采用“最小粒度原则”,即将量度的粒度设置到最小。例如如果知道某些数据细分到天就好了,那么设置其粒度到天;但是如果不确定的话,就将粒度设置为最小,即毫秒级别的。仍以所述目标业务为商品交易业务为例,业务主题为用户的商品交易情况,预设数据分析粒度设置为天,则需按天对历史业务数据进行数据分析,确定用户每天的商品交易情况,另外,上述业务主题的数据分析维度可以包括地理位置,收入情况等,对历史业务数据进行分析后,将分析结果插入所述初始主题表(表1)的数据单元,生成的目标主题表如表2所示。表2用户idkeyvalue1key1v11key2v2………………2keynvn………………表2中key(业务属性)字段下的数据即为用户的属性名称,包括地理位置和收入情况等,(表2中以key1、key2、keyn为例进行示意性说明,其中用户id为1的用户的一个属性名称“地理位置”用key1表示,用户id为1的用户的另一个属性名称“收入情况”用key2表示,用户id为2的用户的一个属性名称“地理位置”用keyn表示),value(属性值)字段下的数据即为用户的不同属性名称对应的属性值,如用户id为1的用户的“地理位置”key1对应的属性值为“北京市”(表2中用v1表示),用户id为1的用户的“收入情况”key2对应的属性值为“xx元”(表2中用v2表示),用户id为2的用户的“地理位置”key3对应的属性值为“上海市”(表2中用vn表示)。表2中仅以两个用户、两个数据分析维度为例进行示意性说明,实际应用中,表2可包含不同用户的多个维度的数据,在此不做任何限制。进一步的,若所述初始主题表为分区表,则所述将分析结果插入所述初始主题表的数据单元,包括:根据所述初始主题表的分区策略确定分析结果中不同类别的属性数据与所述初始主题表中各个分区的对应关系;根据所述对应关系将所述不同类别的属性数据依次插入对应的分区下的数据单元。具体的,分区表是将大表的数据分成称为分区的许多小的子集,划分依据主要是表的内部属性。在构建所述初始主题表时,可将其定义为分区表,若将各个属性名称作为不同的分区,那分区下存的数据即为用户id和属性值;例如将性别作为一个分区,则这个分区下存的数据即为用户id和性别对应的属性值(男或女)。将所述初始主题表构建为分区表,有利于提升数据访问的性能,提升目标主题表的可维护性。步骤106,将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表。具体的,所述初始数据仓库表为一张空的宽表,并且所述初始数据仓库表基于目标主题表中的主题关键字以及目标主题表中包含的属性名称进行构建。在生成所述目标主题表,并且在所述初始数据仓库表构建完成后,即可将目标主题表中的属性值数据同步至初始数据仓库表中,由于目标主题表中的主题关键字与业务属性字段以及属性值字段下的数据存在映射关系,因此,根据上述映射关系,将目标主题表中的数据插入初始数据仓库表的相应数据单元即可生成所述第一数据仓库表。具体实施时,初始数据仓库表可通过以下方式进行构建:以所述目标主题表中的主题关键字以及所述业务属性字段下的各个属性类别为目标字段构建所述初始数据仓库表。具体的,所述目标主题表中的主题关键字即为所述业务数据表中的主题关键字,以所述目标主题表中的主题关键字以及所述业务属性字段下的各个属性类别为目标字段构建的初始数据仓库表如表3所示。表3用户idkey1key2……keyn……12……另外,在实际应用中,可利用映射归约(mapreduce)程序自动将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构(表3)进行同步处理,生成的第一数据仓库表如表4所示。表4用户idkey1key2……keyn……1v1v2………………2………………vn……………………………………先构建目标主题表,再基于目标主题表中的主题关键字以及各个属性类别构建初始数据仓库表,有利于灵活应对业务变更的数据处理需求,提升表稳定性,缩短前期建表的时间,提升建表效率。本说明书实施例中,具体的数据处理过程的示意图如图2所示,获取目标业务的历史业务数据后,先对历史业务数据进行主题域划分,确定目标主题域后,根据目标主题域中业务主题对应的业务数据表中的主题关键字构建初始主题表,并将对历史业务数据进行数据分析后获得的属性数据插入所述初始主题表生成目标主题表,然后将目标主题表转化为第一数据仓库表。如图2所示,数据处理过程中还涉及筛选属性类别的过程,由于目标主题表中的部分属性数据可能存在暂时无法对用户提供数据查询服务的情况,因此,需要对目标主题表中的属性名称进行筛选。进一步的,初始数据仓库表还可以通过以下方式进行构建:根据预设筛选规则对所述目标主题表中所述业务属性字段下的各个属性类别进行筛选处理;将筛选获得的目标属性类别以及所述目标主题表的主题关键字作为目标字段构建所述初始数据仓库表。具体实施时,如前所述,目标主题表在开发过程中,表中的部分属性数据可能存在分析结果的不确定性,从而暂时无法对用户提供数据查询服务的情况,因此,需要为所述部分属性数据设置一定的灰度时长,在灰度时长内所述部分属性数据中的属性名称将不作为目标字段构建初始数据仓库表。步骤108,对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。具体的,由于业务数据表中的数据与第一数据仓库表中的数据不同,为了保证为用户提供数据查询服务的数据仓库表中包含的数据的全面性,则需将业务数据表中的数据与第一数据仓库表中的数据进行合并生成目标数据仓库表。具体实施时,对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表,具体可通过以下方式实现:在所述第一数据仓库表中新增初始字段生成第二数据仓库表,其中,新增的所述初始字段的数目根据所述业务数据表中包含的字段数目确定;确定所述业务数据表中主题关键字与各个字段中数据的映射关系;基于所述第二数据仓库表的表结构,将所述业务数据表中的数据按照所述映射关系进行同步处理,生成所述目标数据仓库表。具体的,由于业务数据表中只包含基本属性数据,因此,将业务数据表以及第一数据仓库表中的字段进行合并处理,可通过在第一数据仓库表中新增字段,并将业务数据表中的数据同步至第一数据仓库表中新增字段下的数据单元的方式实现。通过在第一数据仓库表中新增字段,并将业务数据表中的数据插入新增字段下的数据单元的方式实现业务数据表与第一数据仓库表间数据的合并,有利于降低表的开发难度。另外,生成目标数据仓库表后,即可为用户提供数据查询服务,具体可通过以下方式实现:接收数据查询指令,所述数据查询指令中携带有待查询的数据分析维度以及目标主题关键字;将所述目标主题关键字作为索引信息,并根据所述目标数据仓库表中主题关键字与数据分析维度字段下数据的映射关系进行数据索引处理;将索引结果作为数据查询结果输出。具体的,由于数据仓库是为用户的决策制定过程提供所有类型数据支持的战略集合,能够让用户更快更方便查询所需要的信息,并为用户提供决策支持,因此,在生成目标数据仓库表后,可接收用户的数据查询指令,并将数据查询指令中的目标关键字作为索引信息进行数据索引处理,并将索引结果输出。仍以所述目标业务为交易业务为例,若所述数据查询指令为查询用户id为1的用户所在的地理位置,则将用户id“1”作为索引信息,并根据所述目标数据仓库表中用户id“1”与地理位置(key1)字段下数据的映射关系进行数据索引处理,并输出索引结果(v1),根据索引结果可确定用户id为1的用户所在的地理位置为北京市。通过目标数据仓库表为用户提供数据查询服务,有利于为用户提供多类别数据查询的便利性。进一步的,将索引结果作为数据查询结果输出之后,还需将索引结果中包含的数据分析维度与待查询的数据分析维度进行比对处理,具体可通过以下方式实现:将所述待查询的数据分析维度与所述数据查询结果中包含的数据分析维度信息进行比对;在根据比对结果确定所述待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则将查询结果为空的数据分析维度确定为待处理的数据分析维度;根据预设数据分析粒度以及所述待处理的数据分析维度对所述历史业务数据进行数据分析;将分析结果插入所述目标主题表的数据单元。具体的,由于初始数据仓库表是以目标主题表中的主题关键字以及业务属性字段下的各个属性类别为目标字段构建的,而在构建初始数据仓库表时,目标数据仓库表中包含的属性类别可能并不全面,因此构建初始数据仓库表,并将目标主题表中的数据同步至初始数据仓库表,生成目标数据仓库表并通过所述目标数据仓库表为用户提供数据查询服务时,可能存在目标数据仓库表中不包含待查询的数据分析维度对应的待查询数据的情况,因此,需将索引结果中包含的数据分析维度与待查询的数据分析维度进行比对处理;在根据比对结果确定待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则需基于查询结果为空的数据分析维度对目标业务的历史业务数据进行分析,并将分析结果插入所述目标主题表的数据单元。另外,在检测到所述目标主题表中存在增量数据的情况下,则需基于所述增量数据对所述目标数据仓库表进行更新。仍以所述目标业务为交易业务为例,若所述数据查询指令为查询用户id为1的用户在2019年购买商品s的数量,而表4中仅包含用户id为1的用户的“地理位置”和“收入情况”两个属性类别的数据,因此,需要基于购买商品s的数量这一数据分析维度对交易业务的历史业务数据进行分析,并将分析结果插入目标主题表,再根据目标数据仓库表的表结构将“购买商品s的数量”这一数据分析维度的数据进行同步,同步完成后,可根据前述数据查询指令进行数据索引并输出。本说明书实施例通过先生成目标主题表,再将目标主题表转化为目标数据仓库表(宽表)的方式进行数据处理,初始主题表为表的开发提供了便利性,有利于降低开发成本,通过表转化的方式生成目标数据仓库表,并通过目标数据仓库表为用户提供数据查询服务,有利于为用户提供多类别数据查询的便利性。下述结合附图3,以本说明书提供的数据处理方法在实际场景的应用为例,对所述数据处理方法进行进一步说明。其中,图3示出了本说明书一个实施例提供的一种数据处理方法应用于实际场景的处理过程流程图,具体步骤包括步骤302至步骤316。步骤302,对目标业务的历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为业务主题。步骤304,根据所述业务主题查询与所述业务主题对应的业务数据表。步骤306,以所述业务数据表中的主题关键字为目标字段构建初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。步骤308,根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表。步骤310,将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表。具体的,所述初始数据仓库表通过以下方式进行构建:根据预设筛选规则对所述目标主题表中所述业务属性字段下的各个属性类别进行筛选处理;将筛选获得的目标属性类别以及所述目标主题表的主题关键字作为目标字段构建所述初始数据仓库表。另外,若所述初始主题表为分区表,则将分析结果插入所述初始主题表的数据单元,具体可通过以下方式实现:根据所述初始主题表的分区策略确定分析结果中不同类别的属性数据与所述初始主题表中各个分区的对应关系;根据所述对应关系将所述不同类别的属性数据依次插入对应的分区下的数据单元。步骤312,在所述第一数据仓库表中新增初始字段生成第二数据仓库表,其中,新增的所述初始字段的数目根据所述业务数据表中包含的字段数目确定。步骤314,确定所述业务数据表中主题关键字与各个字段中数据的映射关系。步骤316,基于所述第二数据仓库表的表结构,将所述业务数据表中的数据按照所述映射关系进行同步处理,生成所述目标数据仓库表。具体的,在生成目标数据仓库表后,还可通过目标数据仓库表为用户提供数据查询服务,具体可通过以下方式实现:接收数据查询指令,所述数据查询指令中携带有待查询的数据分析维度以及目标主题关键字;将所述目标主题关键字作为索引信息,并根据所述目标数据仓库表中主题关键字与数据分析维度字段下数据的映射关系进行数据索引处理;将索引结果作为数据查询结果输出。进一步的,将索引结果作为数据查询结果输出后,还需将索引结果中包含的数据分析维度与待查询的数据分析维度进行比对,具体可通过以下方式实现:将所述待查询的数据分析维度与所述数据查询结果中包含的数据分析维度信息进行比对;在根据比对结果确定所述待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则将查询结果为空的数据分析维度确定为待处理的数据分析维度;根据预设数据分析粒度以及所述待处理的数据分析维度对所述历史业务数据进行数据分析;将分析结果插入所述目标主题表的数据单元。进一步的,在检测到所述目标主题表中存在增量数据的情况下,则基于所述增量数据对所述目标数据仓库表进行更新。通过先生成目标主题表,再将目标主题表转化为目标数据仓库表的方式进行数据处理,初始主题表为表的开发提供了便利性,有利于降低开发成本,通过表转化的方式生成目标数据仓库表,并通过目标数据仓库表为用户提供数据查询服务,有利于为用户提供多类别数据查询的便利性。与上述方法实施例相对应,本说明书还提供了数据处理装置实施例,图4示出了本说明书一个实施例提供的一种数据处理装置的结构示意图。如图4所示,该装置包括:构建模块402,被配置为根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;数据处理模块404,被配置为根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;数据同步模块406,被配置为将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;字段合并模块408,被配置为对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。可选地,所述构建模块402,包括:业务主题确定子模块,被配置为对所述历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为所述业务主题;业务数据表查询子模块,被配置为根据所述业务主题查询与所述业务主题对应的业务数据表;初始主题表构建子模块,被配置为以所述业务数据表中的主题关键字为目标字段构建所述初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。可选地,所述数据处理装置,还包括:初始数据仓库表构建模块,被配置为:以所述目标主题表中的主题关键字以及所述业务属性字段下的各个属性类别为目标字段构建所述初始数据仓库表。可选地,所述初始数据仓库表构建模块,进一步被配置为:根据预设筛选规则对所述目标主题表中所述业务属性字段下的各个属性类别进行筛选处理;将筛选获得的目标属性类别以及所述目标主题表的主题关键字作为目标字段构建所述初始数据仓库表。可选地,所述字段合并模块408,包括:初始字段新增子模块,被配置为在所述第一数据仓库表中新增初始字段生成第二数据仓库表,其中,新增的所述初始字段的数目根据所述业务数据表中包含的字段数目确定;映射关系确定子模块,被配置为确定所述业务数据表中主题关键字与各个字段中数据的映射关系;数据同步子模块,被配置为基于所述第二数据仓库表的表结构,将所述业务数据表中的数据按照所述映射关系进行同步处理,生成所述目标数据仓库表。可选地,若所述初始主题表为分区表,则所述数据处理模块,包括:对应关系确定子模块,被配置为根据所述初始主题表的分区策略确定分析结果中不同类别的属性数据与所述初始主题表中各个分区的对应关系;数据处理子模块,被配置为根据所述对应关系将所述不同类别的属性数据依次插入对应的分区下的数据单元。可选地,所述数据处理装置,还包括:指令接收模块,被配置为接收数据查询指令,所述数据查询指令中携带有待查询的数据分析维度以及目标主题关键字;数据索引模块,被配置为将所述目标主题关键字作为索引信息,并根据所述目标数据仓库表中主题关键字与数据分析维度字段下数据的映射关系进行数据索引处理;数据输出模块,被配置为将索引结果作为数据查询结果输出。可选地,所述数据处理装置,还包括:信息比对模块,被配置为将所述待查询的数据分析维度与所述数据查询结果中包含的数据分析维度信息进行比对;维度确定模块,被配置为在根据比对结果确定所述待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则将查询结果为空的数据分析维度确定为待处理的数据分析维度;数据分析模块,被配置为根据预设数据分析粒度以及所述待处理的数据分析维度对所述历史业务数据进行数据分析;数据插入模块,被配置为将分析结果插入所述目标主题表的数据单元。可选地,所述数据处理装置,还包括:更新模块,被配置为在检测到所述目标主题表中存在增量数据的情况下,则基于所述增量数据对所述目标数据仓库表进行更新。上述为本实施例的一种数据处理装置的示意性方案。需要说明的是,该数据处理装置的技术方案与上述的数据处理方法的技术方案属于同一构思,数据处理装置的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。图5示出了根据本说明书一个实施例提供的一种计算设备500的结构框图。该计算设备500的部件包括但不限于存储器510和处理器520。处理器520与存储器510通过总线530相连接,数据库550用于保存数据。计算设备500还包括接入设备540,接入设备540使得计算设备500能够经由一个或多个网络560通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备540可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。在本说明书的一个实施例中,计算设备500的上述部件以及图5中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图5所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。计算设备500可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备500还可以是移动式或静止式的服务器。其中,所述存储器510用于存储计算机可执行指令,处理器520用于执行如下计算机可执行指令:根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的数据处理方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时以用于实现所述数据处理方法的步骤。上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的数据处理方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述数据处理方法的技术方案的描述。上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属
技术领域
技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。当前第1页1 2 3 
技术特征:

1.一种数据处理方法,包括:

根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;

根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;

将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;

对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。

2.根据权利要求1所述的数据处理方法,所述根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表,包括:

对所述历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为所述业务主题;

根据所述业务主题查询与所述业务主题对应的业务数据表;

以所述业务数据表中的主题关键字为目标字段构建所述初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。

3.根据权利要求2所述的数据处理方法,所述初始数据仓库表通过以下方式进行构建:

以所述目标主题表中的主题关键字以及所述业务属性字段下的各个属性类别为目标字段构建所述初始数据仓库表。

4.根据权利要求2所述的数据处理方法,所述初始数据仓库表通过以下方式进行构建:

根据预设筛选规则对所述目标主题表中所述业务属性字段下的各个属性类别进行筛选处理;

将筛选获得的目标属性类别以及所述目标主题表的主题关键字作为目标字段构建所述初始数据仓库表。

5.根据权利要求1所述的数据处理方法,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表,包括:

在所述第一数据仓库表中新增初始字段生成第二数据仓库表,其中,新增的所述初始字段的数目根据所述业务数据表中包含的字段数目确定;

确定所述业务数据表中主题关键字与各个字段中数据的映射关系;

基于所述第二数据仓库表的表结构,将所述业务数据表中的数据按照所述映射关系进行同步处理,生成所述目标数据仓库表。

6.根据权利要求1所述的数据处理方法,若所述初始主题表为分区表,则所述将分析结果插入所述初始主题表的数据单元,包括:

根据所述初始主题表的分区策略确定分析结果中不同类别的属性数据与所述初始主题表中各个分区的对应关系;

根据所述对应关系将所述不同类别的属性数据依次插入对应的分区下的数据单元。

7.根据权利要求1所述的数据处理方法,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表步骤执行之后,还包括:

接收数据查询指令,所述数据查询指令中携带有待查询的数据分析维度以及目标主题关键字;

将所述目标主题关键字作为索引信息,并根据所述目标数据仓库表中主题关键字与数据分析维度字段下数据的映射关系进行数据索引处理;

将索引结果作为数据查询结果输出。

8.根据权利要求7所述的数据处理方法,所述将索引结果作为数据查询结果输出步骤执行之后,还包括:

将所述待查询的数据分析维度与所述数据查询结果中包含的数据分析维度信息进行比对;

在根据比对结果确定所述待查询的数据分析维度中存在任意一个数据分析维度对应的查询结果为空的情况下,则将查询结果为空的数据分析维度确定为待处理的数据分析维度;

根据预设数据分析粒度以及所述待处理的数据分析维度对所述历史业务数据进行数据分析;

将分析结果插入所述目标主题表的数据单元。

9.根据权利要求8所述的数据处理方法,所述对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表步骤执行之后,还包括:

在检测到所述目标主题表中存在增量数据的情况下,则基于所述增量数据对所述目标数据仓库表进行更新。

10.一种数据处理装置,包括:

构建模块,被配置为根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;

数据处理模块,被配置为根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;

数据同步模块,被配置为将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;

字段合并模块,被配置为对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。

11.根据权利要求10所述的数据处理装置,所述构建模块,包括:

业务主题确定子模块,被配置为对所述历史业务数据进行主题域划分,将划分结果中目标主题域对应的主题确定为所述业务主题;

业务数据表查询子模块,被配置为根据所述业务主题查询与所述业务主题对应的业务数据表;

初始主题表构建子模块,被配置为以所述业务数据表中的主题关键字为目标字段构建所述初始主题表,其中,所述初始主题表还包括业务属性字段以及属性值字段。

12.一种计算设备,包括:

存储器和处理器;

所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令:

根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;

根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析,将分析结果插入所述初始主题表的数据单元,生成目标主题表;

将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行同步处理,生成第一数据仓库表;

对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。

13.一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现权利要求1至9任意一项所述数据处理方法的步骤。

技术总结
本说明书实施例提供数据处理方法以及装置,其中所述数据处理方法包括:根据目标业务的历史业务数据确定业务主题,并基于与所述业务主题对应的业务数据表中的主题关键字构建初始主题表;将根据预设数据分析粒度以及所述业务主题的至少一个数据分析维度对所述历史业务数据进行数据分析获得的分析结果插入所述初始主题表的数据单元,以生成目标主题表;将所述目标主题表中的数据按照预先建立的初始数据仓库表的表结构进行数据同步处理,生成第一数据仓库表;再对所述业务数据表以及所述第一数据仓库表中包含的字段进行合并处理,生成目标数据仓库表。

技术研发人员:王潘安
受保护的技术使用者:浙江网商银行股份有限公司
技术研发日:2020.04.26
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57864.html

最新回复(0)