银行客户资产图谱构建方法和装置与流程

专利2022-06-29  81


本发明涉及金融
技术领域
,尤其涉及一种银行客户资产图谱构建方法和装置。
背景技术
:银行业是一个数据驱动的行业,数据也一直是银行信息化发展的主题词。银行业每天都要都要产生海量的交易数据。有研究统计,经过多年的发展与积累,国内商业银行的数据量已经达到100tb以上级别,并且正在以更快的速度增长。银行业务中有很多投资理财产品,各类投资理财产品都有单独的交易系统来提供服务,产生的交易数据也分布在不同的交易系统中。随着时代的发展,零售业务在银行业务中所占的比例越来越高,很多银行也已将零售业务作为战略目标。对于银行业来说,亟需整合分析散落在各种投资理财产品交易系统中的数据,用于辅助零售业务中的营销和推荐。技术实现要素:针对现有技术中的问题,本发明提供一种银行客户资产图谱构建方法和装置、电子设备以及计算机可读存储介质,能够至少部分地解决现有技术中存在的问题。为了实现上述目的,本发明采用如下技术方案:第一方面,提供一种银行客户资产图谱构建方法,包括:根据客户数据以及产品数据抽取图谱实体数据;根据业务数据抽取各实体之间的关系数据;将该图谱实体数据以及该关系数据存入预设存储模型。进一步地,该根据客户数据以及产品数据抽取图谱实体数据,包括:根据预设实体抽取规则抽取客户数据以及产品数据中的实体;判断客户数据以及产品数据是否有效;若否,将无效数据对应的失效时间改为当前时间。进一步地,该根据客户数据以及产品数据抽取图谱实体数据,还包括:判断抽取出的实体在图谱实体数据中是否已经存在;若是,刷新图谱实体数据中该实体的属性;若否,在图谱实体数据中增加该实体。进一步地,在该根据预设实体抽取规则抽取客户数据以及产品数据中的实体之前,该根据客户数据以及产品数据抽取图谱实体数据,还包括:根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;若否,则舍弃该数据或将该数据存储错误数据表中。进一步地,在该根据预设实体抽取规则抽取客户数据以及产品数据中的实体之前,该根据客户数据以及产品数据抽取图谱实体数据,还包括:根据预设本体模式中配置的属性类型对该客户数据以及产品数据进行类型转换。进一步地,该根据业务数据抽取各实体之间的关系数据,包括:根据预设关系抽取规则抽取业务数据中的关系;判断业务数据是否有效;若否,将无效数据对应的失效时间改为当前时间。进一步地,该根据业务数据抽取各实体之间的关系数据,还包括:判断抽取出的关系在图谱实体数据中是否已经存在;若是,刷新图谱实体数据中该关系的属性;若否,在图谱实体数据中增加该关系。进一步地,在根据预设关系抽取规则抽取业务数据中的关系之前,该根据业务数据抽取各实体之间的关系数据,还包括:根据预设本体模式中的约束判断业务数据是否符合要求;若否,则舍弃该数据或将该数据存储错误数据表中。进一步地,在根据预设关系抽取规则抽取业务数据中的关系之前,该根据业务数据抽取各实体之间的关系数据,还包括:根据预设本体模式中配置的属性类型对该业务数据进行类型转换。进一步地,该预设存储模型为hbase实体数据表。进一步地,该预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;该将该图谱实体数据以及该关系数据存入预设存储模型,包括:将该图谱实体数据以及该关系数据存入该hbase实体数据表中;根据预设本体模式中配置的属性是否需要被索引将该图谱实体数据以及该关系数据加载进elasticsearch实体索引。第二方面,提供一种银行客户资产图谱构建装置,包括:实体抽取模块,根据客户数据以及产品数据抽取图谱实体数据;关系抽取模块,根据业务数据抽取各实体之间的关系数据;图谱数据存储模块,将该图谱实体数据以及该关系数据存入预设存储模型。进一步地,该实体抽取模块包括:实体抽取单元,根据预设实体抽取规则抽取客户数据以及产品数据中的实体;无效数据判断单元,判断客户数据以及产品数据是否有效;无效实体数据逻辑删除单元,将无效数据对应的失效时间改为当前时间。进一步地,该实体抽取模块还包括:实体逻辑判断单元,判断抽取出的实体在图谱实体数据中是否已经存在;实体属性刷新单元,若抽取出的实体在图谱实体数据中已经存在,刷新图谱实体数据中该实体的属性;实体新建单元,若抽取出的实体在图谱实体数据中不存在,在图谱实体数据中增加该实体。进一步地,该实体抽取模块还包括:数据预处理单元,根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;数据删减单元,舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。进一步地,该实体抽取模块还包括:第一类型转换单元,根据预设本体模式中配置的属性类型对该客户数据以及产品数据进行类型转换。进一步地,该关系抽取模块包括:关系抽取单元,根据预设关系抽取规则抽取业务数据中的关系;业务数据判断单元,判断业务数据是否有效;无效业务数据逻辑删除单元,将无效数据对应的失效时间改为当前时间。进一步地,该关系抽取模块还包括:关系逻辑判断单元,判断抽取出的关系在图谱实体数据中是否已经存在;关系属性刷新单元,若抽取出的关系在图谱实体数据中已经存在,刷新图谱实体数据中该关系的属性;关系新建单元,若抽取出的关系在图谱实体数据中不存在,在图谱实体数据中增加该关系。进一步地,该关系抽取模块还包括:业务数据预处理单元,根据预设本体模式中的约束判断业务数据是否符合要求;业务数据异常处理单元,舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。进一步地,该关系抽取模块还包括:第二类型转换单元,根据预设本体模式中配置的属性类型对该业务数据进行类型转换。进一步地,该预设存储模型为hbase实体数据表。进一步地,该预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;该图谱数据存储模块包括:图谱数据存储单元,将该图谱实体数据以及该关系数据存入该hbase实体数据表中;索引数据加载单元,根据预设本体模式中配置的属性是否需要被索引将该图谱实体数据以及该关系数据加载进elasticsearch实体索引。第三方面,提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,该处理器执行该程序时实现上述的银行客户资产图谱构建方法的步骤。第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述的银行客户资产图谱构建方法的步骤。本发明提供的银行客户资产图谱构建方法和装置、电子设备以及计算机可读存储介质,该方法包括:根据客户数据以及产品数据抽取图谱实体数据;根据业务数据抽取各实体之间的关系数据;将该图谱实体数据以及该关系数据存入预设存储模型,其中,通过上述方案,将客户在银行持有的各类投资理财产品如储蓄国债、基金产品、理财产品等数据以关系图谱的方式进行加工后形成的知识图谱,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。为让本发明的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1是本发明实施例中的银行客户资产图谱构建方法的流程示意图;图2示出了图1中步骤s100的具体步骤;图3示出了图1中步骤s200的具体步骤;图4示出了图1中步骤s300的具体步骤;图5示出了本发明实施例中的银行客户资产图谱构建方法所包含的对明细数据进行处理的流程;图6示出了本发明实施例中的银行客户资产图谱构建方法所包含的统计分析中间结果的流程;图7是本发明实施例中的银行客户资产图谱构建装置的结构框图;图8为本发明实施例电子设备的结构图。具体实施方式为了使本
技术领域
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。名词解释:客户资产:主要是指客户在银行中的存款、持有的投资理财产品份额等。客户资产图谱:将客户在银行持有的各类投资理财产品如储蓄国债、基金产品、理财产品等数据以关系图谱的方式进行加工后形成的知识图谱。该图谱包含所有银行客户、相关投资理财产品以及产品和产品、产品和机构等的关系数据。知识图谱:知识图谱以结构化的三元组方式存放了实体与实体之间的关系,并且保存了实体属性和边属性。本体模式:本体模式是对领域知识进行形式化描述的一种方式。在知识图谱中本体模式对概念、关系、属性、约束进行了规范和定义。对于银行业来说,亟需整合分析散落在各种投资理财产品交易系统中的数据,用于辅助零售业务中的营销和推荐。为至少部分解决现有技术中的上述技术问题,本发明实施例提供了一种银行客户资产图谱构建方法,知识图谱的优势在于能够融合多源异构数据,有灵活统一的数据模型(实体、关系、属性),客户资产图谱主要包含的实体类型为银行客户和各类投资理财产品;关系主要包括持有、关注、曾经持有、咨询等等。基于构建好的图谱可以从不同多角度进行数据分析,有力支持产品的营销和推广。图1是本发明实施例中的银行客户资产图谱构建方法的流程示意图。如图1所示,该银行客户资产图谱构建方法可以包括以下内容:步骤s100:根据客户数据以及产品数据抽取图谱实体数据;其中,该客户数据可由客户信息系统提供,该产品数据可由银行各种投资理财产品交易系统提供。步骤s200:根据业务数据抽取各实体之间的关系数据;其中,业务数据可包括各种投资理财产品交易系统中的持仓数据、交易数据等。客户与投资理财产品的关系包括最基本如“当前持有”、“曾持有”、“关注”、“收藏”等。另外,关系数据也可以称为边数据,针对投资理财领域客户的各类资产交易份额、金额是统计分析的重要指标,各类持仓交易关系往往需要不同粒度的统计汇总并提供查询服务。步骤s300:将所述图谱实体数据以及所述关系数据存入预设存储模型。具体地,通过构建统一的数据模型存储图谱实体数据以及所述关系数据。值得说明的是,银行客户资产图谱数据包括图谱实体数据以及关系数据。通过采用上述技术方案,以大数据作为基础平台,构建统一灵活的图谱数据模型,处理银行上亿级别的客户投资理财交易和持仓记录数据,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。在一个可选的实施例中,参见图2,该步骤s100可以包括以下内容:步骤s110:根据预设实体抽取规则抽取客户数据以及产品数据中的实体;其中,实体抽取规则由研发人员根据系统实际情况进行限定。实体包括:客户以及理财产品等。步骤s120:判断客户数据以及产品数据是否有效;若否,执行步骤s130;若是,结束;步骤s130:将无效数据对应的失效时间改为当前时间。其中,失效时间是根据业务含义来确定的,比如就一条持仓数据而言如果客户已卖空该持仓则该条数据就失效,失效时间就为卖空持仓的时间。针对失效实体数据不做物理删除,修改实体属性的失效时间为当前时间表示失效,实现逻辑删除。一般实体属性的失效时间默认为99991231235959。其中,各类实体数据是否失效判断方式一样,从业务含义中判断已失效,比如一个产品生命周期结束已下线。一条持仓已卖空。比如基金产品根据产品有效标志判断,客户数据根据客户失效时间判断。值得说明的是,实体数据的抽取受本体模式的约束。在本体模式中约定了图谱所涉及的概念和实体间的关系类型以及概念属性和关系属性。本体模式约定了概念和关系的通用属性以及各自独有的属性。其中,通用属性如表1所示:表1属性中文名称属性英文名称类型实体idprimary_idstring实体所属概念idconcept_idsstring实体名称entity_namestring实体别名entity_aliasstring生效时间effective_timestring失效时间expriry_timestring除了通用属性之外本体模式定义了每个概念对应的实体和每个关系对应的边的特有属性及其约束,主要包含属性名称、属性类型、是否可以为空、是否被索引、是否为日期字段、日期字段日期模板等。值得说明的是,概念就是一类实体的抽象,比如产品就是一个概念,人也是一个概念。每个概念可以包含子概念,比如客户是顶层概念,高端客户可以是其子概念,每个具体的客户实体是属于这些概念下的。另外,在知识图谱中不同概念下的实体所具备的属性是不一样的。比如属于客户概念下的实体具有年龄这个属性,但是属于产品概念下的国债产品是不具有年龄属性的。针对不同关系的属性也是类似的。这里说的特有属性就是指每个概念下自己独有的属性。而通用属性就是指那些所有概念下实体都具备的属性比如id编号。通过采用上述技术方案,能够有效抽取实体数据,进而高效构建银行客户资产图谱。在一个进一步地实施例中,该步骤s100还可以包括以下内容:步骤i:判断抽取出的实体在图谱实体数据中是否已经存在;若是,执行步骤ii;若否,执行步骤iii。步骤ii:刷新图谱实体数据中所述实体的属性;步骤iii:在图谱实体数据中增加所述实体。具体地,在第一次进行实体抽取时,所有实体都是第一次抽取到,不存在重复问题,因此不需要执行步骤i至步骤iii;对于非第一次进行实体抽取,比如,在第一次构建了银行客户资产图谱后,间隔一段时间会再次进行构建(也可称为更新),此时,在抽取实体时,只需要抽取那些存在变动的实体,比如新增实体、属性等修改了的实体以及删除了的实体,因此,对实体进行抽取时需要根据已有的实体数据判断当前处理的实体是新增、修改还是删除。落实到具体过程,就需要首先判断抽取出的实体在历史图谱实体数据中是否已经存在;若是,刷新图谱实体数据中所述实体的属性;若否,在图谱实体数据中增加所述实体。通过采用上述技术方案,能够有效防止图谱数据冗余杂乱,提高了银行客户资产图谱的精度。在一个进一步地实施例中,该步骤s100还可以包括以下步骤:根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;若否,则舍弃该数据或将该数据存储错误数据表中;若是,则进行实体抽取步骤。值得说明的是,本体模式中的约束是用来在抽取时进行数据校验;比如约束只有客户和产品之间能具有持有关系,那么不能出现一条一个客户持有另一个客户的情况。另一方面,约束也规范一些关键属性是否为空,是否能够被用于索引等,还有就是关系之间是否可逆等。具体地,根据本体模式中的约束判断原始接入数据是否存在数据不规范和数据错误,如存在则进入错误处理逻辑。错误处理分为两种方式,第一种就是直接舍弃判断为有误的数据;另一种是将有误的数据存入特定的错误数据表。表中会记录数据来源、处理时间、错误原因等。后续可以通过界面或者导出的方式提供给业务人员进行错误确认和修改操作。通过采用上述技术方案,能够有效滤除错误数据以及不规范数据等,减少后续流程的负担,并且避免错误数据以及不规范数据对银行客户资产图谱的精度产生影响。在另一个进一步地实施例中,该步骤s100还可以包括以下内容:根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换。具体地,本体模式中预先配置了不同属性的类型,比如字符串、整型、浮点型等,通过根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换,使得抽取之前的数据整齐规范。在一个可选的实施例中,参见图3,该步骤s200可以包括以下内容:步骤s210:根据预设关系抽取规则抽取业务数据中的关系;其中,关系抽取规则由研发人员根据系统实际情况进行限定。步骤s220:判断业务数据是否有效;若否,执行步骤s230;若是,结束。步骤s230:将无效数据对应的失效时间改为当前时间。其中,失效时间是根据业务含义来确定的,比如就一条持仓数据而言如果客户已卖空该持仓则该条数据就失效,失效时间就为卖空持仓的时间。针对失效实体数据不做物理删除,修改实体属性的失效时间为当前时间表示失效,实现逻辑删除。对于关系的抽取同样受到本体模式中关系模型的约束。各类关系具有如表2所示的通用属性:表2属性中文名称属性英文名称类型边idprimary_idstring边所属关系idrelation_idstring生效时间effective_timestring失效时间expriry_timestring资金astdouble份额sharedouble关系抽取同样需要经过数据预处理判断出关系是否已失效,如持仓份额已卖空,具体参见实体抽取中的描述,在此不再赘述。通过采用上述技术方案,能够有效抽取关系数据,进而高效构建银行客户资产图谱。在一个可选的实施例中,该步骤s200还可以包括以下内容:步骤a:判断抽取出的关系在图谱实体数据中是否已经存在;若是,执行步骤b;若否,执行步骤c,步骤b:刷新图谱实体数据中所述关系的属性;步骤c:在图谱实体数据中增加所述关系。关系抽取同样需要判断关系是新增还是更新,具体参见实体抽取中的描述,在此不再赘述通过采用上述技术方案,能够有效防止图谱数据冗余杂乱,提高了银行客户资产图谱的精度。在一个进一步地实施例中,该步骤s200还可以包括以下内容:根据预设本体模式中的约束判断业务数据是否符合要求;若否,则舍弃该数据或将该数据存储错误数据表中。值得说明的是,本体模式中的约束是用来在抽取时进行数据校验;比如约束只有客户和产品之间能具有持有关系,那么不能出现一条一个客户持有另一个客户的情况。另一方面,约束也规范一些关键属性是否为空,是否能够被用于索引等,还有就是关系之间是否可逆等。具体地,根据本体模式中的约束判断原始接入数据是否存在数据不规范和数据错误,如存在则进入错误处理逻辑。错误处理分为两种方式,第一种就是直接舍弃判断为有误的数据;另一种是将有误的数据存入特定的错误数据表。表中会记录数据来源、处理时间、错误原因等。后续可以通过界面或者导出的方式提供给业务人员进行错误确认和修改操作。通过采用上述技术方案,能够有效滤除错误数据以及不规范数据等,减少后续流程的负担,并且避免错误数据以及不规范数据对银行客户资产图谱的精度产生影响。在另一个进一步地实施例中,该步骤s200还可以包括以下内容:根据预设本体模式中配置的属性类型对所述业务数据进行类型转换。具体地,本体模式中预先配置了不同属性的类型,比如字符串、整型、浮点型等,通过根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换,使得抽取之前的数据整齐规范。在一个可选的实施例中,该预设存储模型为hbase实体数据表。具体地,当不需要对图谱数据进行索引查询时,直接将图谱数据加载至hbase实体数据表进行存储即可实现数据的有效保存。在另一个可选的实施例中,给预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;参见图4,该步骤s300可以包括以下内容:步骤s310:将所述图谱实体数据以及所述关系数据存入所述hbase实体数据表中;其中,将数据存储hbase实体数据表为本领域常用的技术,在此不再对详细过程进行描述。步骤s320:根据预设本体模式中配置的属性是否需要被索引将所述图谱实体数据以及所述关系数据加载进elasticsearch实体索引。其中,根据本体模型中配置的属性是否需要被索引来指导实体索引构建。属性是否需要被索引主要从业务需求出发。在银行业务中各类实体数据和关系数据的属性都比较多,但是不是每个属性都会用于作为查询检索的条件。从系统性能考虑,在elasticsearch中为那些会被用作查询条件的属性构建索引性价比最高。当然,也可以给所有属性字段构建索引。举例来说,假设一个实体的属性有200个,其中只有5个会被索引,此时,只要要将这5个属性加载至elasticsearch实体索引即可。值得说明的是,在获取到图谱数据后,对数据进行持久化也是提高业务可靠性的一个重要部分。通过采用上述技术方案,在利用大数据平台构建进行实体和关系数据抽取后,存入hbase和elasticsearch用于基于图谱的挖掘分析和对外提供实体和关系数据查询,能利用分布式存储和分布式搜索引擎对外提供查询服务,提高了应用灵活性。在一个可选的实施例中,客户针对每类产品都会存在不断的买入和卖空的情况,所以客户与固定产品之间的关系是具有时效性的。客户曾经买入过的产品均会建立对应的关系数据,每条关系数据可能对应多条数据明细。在对明细数据加工时主要考虑将明细数据与对应的关系数据也就是边数据进行对应。基于此,参见图5,该银行客户资产图谱构建方法还可以包含对明细数据进行处理的流程;具体地,将明细数据以及已有关系数据输入hadoop中获取各关系对应的明细,并将获取到的数据存入hbase明细数据表中。其中,在获取到关系数据后,根据已有的关系数据以及来自各个交易系统的明细数据后,获取各关系对应的明细,比如,对于张三与某一基金产品的关系,可能存在多笔交易,该关系对应多个名词,通过采用明细数据处理流程,得到各关系对应的明细,能够进一步挖掘各关系的详细信息,有效辅助零售业务中的营销和推荐。比如,虽然张三与某一基金产品的关系对应多笔明细,但是多笔的总交易额不满1000元,李四与某一基金产品的关系对应一笔明细,但是总交易额达到百万,此时,仅可以帮助零售业务进行营销和推荐,可重点向李四推荐金融理财产品。在一个进一步地的实施例中,参见图6,该银行客户资产图谱构建方法还可以包含的统计分析中间结果的流程;具体地,将明细数据处理得到的hbase明细数据表输入hadoop中进行统计分析中间结果,统计结果可存入hbase统计分析结果表,还可以加载进elasticsearch实体索引中。针对客户资产业务方往往需要得到不同时间窗口类的各类统计值。统计分析主要针对客户、投资理财产品之间的关系数据,比如客户在某个时间窗口范围内曾经买入的份额总额,卖出的份额总额等。借助大数据分布式计算能力,对各类关系数据明细按照不同粒度进行初步加工并将加工结果保存在分布式存储中以及写入对应的关系属性中。统计分析的粒度按每天、每月、每年进行处理。本发明实施例提供的银行客户资产图谱构建方法,基于客户在各产品交易系统生成的持仓,交易明细数据构建客户资产图谱,有效整合分析散落在各种投资理财产品交易系统中的数据,并利用分布式搜索引擎elasticsearch实现了图谱的节点和关系的查询,另外,还可以建立图谱中关系数据与其对应明细数据之间的关联,提供关系数据明细查询。另外,本发明实施例还可对客户资产关系明细数据按不同粒度进行汇总加工,完成不同时间窗口的明细数据统计分析并写入关系图谱属性中,兼容不同种类的投资理财产品交易系统数据。基于同一发明构思,本申请实施例还提供了一种银行客户资产图谱构建装置,可以用于实现上述实施例所描述的方法,如下面的实施例所述。由于银行客户资产图谱构建装置解决问题的原理与上述方法相似,因此银行客户资产图谱构建装置的实施可以参见上述方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图7是本发明实施例中的银行客户资产图谱构建装置的结构框图一。如图7所示,该银行客户资产图谱构建装置具体包括:实体抽取模块10、关系抽取模块20以及图谱数据存储模块30。实体抽取模块10根据客户数据以及产品数据抽取图谱实体数据;关系抽取模块20根据业务数据抽取各实体之间的关系数据;图谱数据存储模块30将所述图谱实体数据以及所述关系数据存入预设存储模型。通过采用上述技术方案,以大数据作为基础平台,构建统一灵活的图谱数据模型,处理银行上亿级别的客户投资理财交易和持仓记录数据,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。在一个可选的实施例中,实体抽取模块10可以包括:实体抽取单元、无效数据判断单元以及无效实体数据逻辑删除单元。实体抽取单元根据预设实体抽取规则抽取客户数据以及产品数据中的实体;无效数据判断单元判断客户数据以及产品数据是否有效;无效实体数据逻辑删除单元将无效数据对应的失效时间改为当前时间。在一个进一步地实施例中,实体抽取模块10还可以包括:实体逻辑判断单元、实体属性刷新单元以及实体新建单元。实体逻辑判断单元判断抽取出的实体在图谱实体数据中是否已经存在;实体属性刷新单元若抽取出的实体在图谱实体数据中已经存在,刷新图谱实体数据中所述实体的属性;实体新建单元若抽取出的实体在图谱实体数据中不存在,在图谱实体数据中增加所述实体。在一个可选的实施例中,所述实体抽取模块还可以包括:数据预处理单元以及数据删减单元。数据预处理单元根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;数据删减单元舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。在一个可选的实施例中,实体抽取模块还可以包括:第一类型转换单元,根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换。在一个可选的实施例中,关系抽取模块还可以包括:关系抽取单元、业务数据判断单元以及无效业务数据逻辑删除单元。关系抽取单元根据预设关系抽取规则抽取业务数据中的关系;业务数据判断单元判断业务数据是否有效;无效业务数据逻辑删除单元将无效数据对应的失效时间改为当前时间。在一个可选的实施例中,关系抽取模块还可以包括:关系逻辑判断单元、关系属性刷新单元以及关系新建单元。关系逻辑判断单元判断抽取出的关系在图谱实体数据中是否已经存在;关系属性刷新单元若抽取出的关系在图谱实体数据中已经存在,刷新图谱实体数据中所述关系的属性;关系新建单元若抽取出的关系在图谱实体数据中不存在,在图谱实体数据中增加所述关系。在一个可选的实施例中,关系抽取模块还可以包括:业务数据预处理单元以及业务数据异常处理单元。业务数据预处理单元根据预设本体模式中的约束判断业务数据是否符合要求;业务数据异常处理单元舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。在一个可选的实施例中,关系抽取模块还可以包括:第二类型转换单元,根据预设本体模式中配置的属性类型对所述业务数据进行类型转换。在一个可选的实施例中,所述预设存储模型为hbase实体数据表。在另一个可选的实施例中,所述预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;所述图谱数据存储模块包括:图谱数据存储单元以及索引数据加载单元。图谱数据存储单元将所述图谱实体数据以及所述关系数据存入所述hbase实体数据表中;索引数据加载单元根据预设本体模式中配置的属性是否需要被索引将所述图谱实体数据以及所述关系数据加载进elasticsearch实体索引。上述实施例阐明的装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为电子设备,具体的,电子设备例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。在一个典型的实例中电子设备具体包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现下述步骤:根据客户数据以及产品数据抽取图谱实体数据;根据业务数据抽取各实体之间的关系数据;将所述图谱实体数据以及所述关系数据存入预设存储模型。从上述描述可知,本发明实施例提供的电子设备,可用于银行客户资产图谱构建,将客户在银行持有的各类投资理财产品如储蓄国债、基金产品、理财产品等数据以关系图谱的方式进行加工后形成的知识图谱,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。下面参考图8,其示出了适于用来实现本申请实施例的电子设备600的结构示意图。如图8所示,电子设备600包括中央处理单元(cpu)601,其可以根据存储在只读存储器(rom)602中的程序或者从存储部分608加载到随机访问存储器(ram))603中的程序而执行各种适当的工作和处理。在ram603中,还存储有系统600操作所需的各种程序和数据。cpu601、rom602、以及ram603通过总线604彼此相连。输入/输出(i/o)接口605也连接至总线604。以下部件连接至i/o接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如lan卡,调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至i/o接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便于从其上读出的计算机程序根据需要被安装如存储部分608。特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现下述步骤:根据客户数据以及产品数据抽取图谱实体数据;根据业务数据抽取各实体之间的关系数据;将所述图谱实体数据以及所述关系数据存入预设存储模型。从上述描述可知,本发明实施例提供的计算机可读存储介质,可用于银行客户资产图谱构建,将客户在银行持有的各类投资理财产品如储蓄国债、基金产品、理财产品等数据以关系图谱的方式进行加工后形成的知识图谱,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。在这样的实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。为了描述的方便,描述以上装置时以功能分为各种单元分别描述。当然,在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。当前第1页1 2 3 
技术特征:

1.一种银行客户资产图谱构建方法,其特征在于,包括:

根据客户数据以及产品数据抽取图谱实体数据;

根据业务数据抽取各实体之间的关系数据;

将所述图谱实体数据以及所述关系数据存入预设存储模型。

2.根据权利要求1所述的银行客户资产图谱构建方法,其特征在于,所述根据客户数据以及产品数据抽取图谱实体数据,包括:

根据预设实体抽取规则抽取客户数据以及产品数据中的实体;

判断客户数据以及产品数据是否有效;

若否,将无效数据对应的失效时间改为当前时间。

3.根据权利要求2所述的银行客户资产图谱构建方法,其特征在于,所述根据客户数据以及产品数据抽取图谱实体数据,还包括:

判断抽取出的实体在图谱实体数据中是否已经存在;

若是,刷新图谱实体数据中所述实体的属性;

若否,在图谱实体数据中增加所述实体。

4.根据权利要求2所述的银行客户资产图谱构建方法,其特征在于,在所述根据预设实体抽取规则抽取客户数据以及产品数据中的实体之前,所述根据客户数据以及产品数据抽取图谱实体数据,还包括:

根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;

若否,则舍弃该数据或将该数据存储错误数据表中。

5.根据权利要求2所述的银行客户资产图谱构建方法,其特征在于,在所述根据预设实体抽取规则抽取客户数据以及产品数据中的实体之前,所述根据客户数据以及产品数据抽取图谱实体数据,还包括:

根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换。

6.根据权利要求1所述的银行客户资产图谱构建方法,其特征在于,所述根据业务数据抽取各实体之间的关系数据,包括:

根据预设关系抽取规则抽取业务数据中的关系;

判断业务数据是否有效;

若否,将无效数据对应的失效时间改为当前时间。

7.根据权利要求6所述的银行客户资产图谱构建方法,其特征在于,所述根据业务数据抽取各实体之间的关系数据,还包括:

判断抽取出的关系在图谱实体数据中是否已经存在;

若是,刷新图谱实体数据中所述关系的属性;

若否,在图谱实体数据中增加所述关系。

8.根据权利要求6所述的银行客户资产图谱构建方法,其特征在于,在根据预设关系抽取规则抽取业务数据中的关系之前,所述根据业务数据抽取各实体之间的关系数据,还包括:

根据预设本体模式中的约束判断业务数据是否符合要求;

若否,则舍弃该数据或将该数据存储错误数据表中。

9.根据权利要求6所述的银行客户资产图谱构建方法,其特征在于,在根据预设关系抽取规则抽取业务数据中的关系之前,所述根据业务数据抽取各实体之间的关系数据,还包括:

根据预设本体模式中配置的属性类型对所述业务数据进行类型转换。

10.根据权利要求1所述的银行客户资产图谱构建方法,其特征在于,所述预设存储模型为hbase实体数据表。

11.根据权利要求1所述的银行客户资产图谱构建方法,其特征在于,所述预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;

所述将所述图谱实体数据以及所述关系数据存入预设存储模型,包括:

将所述图谱实体数据以及所述关系数据存入所述hbase实体数据表中;

根据预设本体模式中配置的属性是否需要被索引将所述图谱实体数据以及所述关系数据加载进elasticsearch实体索引。

12.一种银行客户资产图谱构建装置,其特征在于,包括:

实体抽取模块,根据客户数据以及产品数据抽取图谱实体数据;

关系抽取模块,根据业务数据抽取各实体之间的关系数据;

图谱数据存储模块,将所述图谱实体数据以及所述关系数据存入预设存储模型。

13.根据权利要求12所述的银行客户资产图谱构建装置,其特征在于,所述实体抽取模块包括:

实体抽取单元,根据预设实体抽取规则抽取客户数据以及产品数据中的实体;

无效数据判断单元,判断客户数据以及产品数据是否有效;

无效实体数据逻辑删除单元,将无效数据对应的失效时间改为当前时间。

14.根据权利要求13所述的银行客户资产图谱构建装置,其特征在于,所述实体抽取模块还包括:

实体逻辑判断单元,判断抽取出的实体在图谱实体数据中是否已经存在;

实体属性刷新单元,若抽取出的实体在图谱实体数据中已经存在,刷新图谱实体数据中所述实体的属性;

实体新建单元,若抽取出的实体在图谱实体数据中不存在,在图谱实体数据中增加所述实体。

15.根据权利要求13所述的银行客户资产图谱构建装置,其特征在于,所述实体抽取模块还包括:

数据预处理单元,根据预设本体模式中的约束判断客户数据以及产品数据是否符合要求;

数据删减单元,舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。

16.根据权利要求13所述的银行客户资产图谱构建装置,其特征在于,所述实体抽取模块还包括:

第一类型转换单元,根据预设本体模式中配置的属性类型对所述客户数据以及产品数据进行类型转换。

17.根据权利要求12所述的银行客户资产图谱构建装置,其特征在于,所述关系抽取模块包括:

关系抽取单元,根据预设关系抽取规则抽取业务数据中的关系;

业务数据判断单元,判断业务数据是否有效;

无效业务数据逻辑删除单元,将无效数据对应的失效时间改为当前时间。

18.根据权利要求17所述的银行客户资产图谱构建装置,其特征在于,所述关系抽取模块还包括:

关系逻辑判断单元,判断抽取出的关系在图谱实体数据中是否已经存在;

关系属性刷新单元,若抽取出的关系在图谱实体数据中已经存在,刷新图谱实体数据中所述关系的属性;

关系新建单元,若抽取出的关系在图谱实体数据中不存在,在图谱实体数据中增加所述关系。

19.根据权利要求17所述的银行客户资产图谱构建装置,其特征在于,所述关系抽取模块还包括:

业务数据预处理单元,根据预设本体模式中的约束判断业务数据是否符合要求;

业务数据异常处理单元,舍弃不符合要求的数据或将不符合要求的数据存储错误数据表中。

20.根据权利要求17所述的银行客户资产图谱构建装置,其特征在于,所述关系抽取模块还包括:

第二类型转换单元,根据预设本体模式中配置的属性类型对所述业务数据进行类型转换。

21.根据权利要求12所述的银行客户资产图谱构建装置,其特征在于,所述预设存储模型为hbase实体数据表。

22.根据权利要求12所述的银行客户资产图谱构建装置,其特征在于,所述预设存储模型包括:hbase实体数据表以及elasticsearch实体索引;

所述图谱数据存储模块包括:

图谱数据存储单元,将所述图谱实体数据以及所述关系数据存入所述hbase实体数据表中;

索引数据加载单元,根据预设本体模式中配置的属性是否需要被索引将所述图谱实体数据以及所述关系数据加载进elasticsearch实体索引。

23.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至11任一项所述的银行客户资产图谱构建方法的步骤。

24.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至11任一项所述的银行客户资产图谱构建方法的步骤。

技术总结
本发明提供一种银行客户资产图谱构建方法和装置,该方法包括:根据客户数据以及产品数据抽取图谱实体数据;根据业务数据抽取各实体之间的关系数据;将该图谱实体数据以及该关系数据存入预设存储模型,其中,通过上述方案,将客户在银行持有的各类投资理财产品如储蓄国债、基金产品、理财产品等数据以关系图谱的方式进行加工后形成的知识图谱,利于整合分析散落在各种投资理财产品交易系统中的数据,可辅助零售业务中的营销和推荐。

技术研发人员:李斌;郭涵;游屹;谢鸣晓;陈凯
受保护的技术使用者:中国建设银行股份有限公司;建信金融科技有限责任公司
技术研发日:2020.01.23
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-50078.html

最新回复(0)