一种基于稀疏图的用户身份识别方法及装置与流程

专利2022-06-30  88


本公开涉及知识图谱数据处理领域,具体涉及一种基于稀疏图的用户身份识别方法及装置。



背景技术:

在基于图谱数据的欺诈团伙识别系统中,欺诈团伙的识别可以通过不同类型的算法实现,但其核心的本质均是通过社会关系来判断一个人是否是诈骗罪犯的概率。图谱数据的获取依赖于实体之间的关系,例如一个申请人与其他申请人之间存在社会关系,则在图数据库中存在对应的节点和边。其中,当图中的节点之间具有较多的边时,一个图谱可以被认为是稠密的。然而,出于保护个人隐私及信息安全等考虑,越来越多的社交数据将无法被大数据图谱所获取和使用,此时图谱中的边将变少,进而导致图谱变为稀疏图谱。在识别用户身份、发现欺诈团伙系统中,变量的提取是通过图中的关系数据获得相关的图谱数据,例如通过一度或二度关系数据查询,得到对应的数据,进而计算风控变量的。当图谱为较为稀疏时,很多节点的有效关系很少甚至变成孤立节点,无法与其他节点建立有效连接,也就无法提取有效的变量,导致无法快速精确地识别用户身份、发现欺诈团伙。也就是说,在稀疏图中,基于图谱数据的发现欺诈团伙系统可能实质处在不工作状态。因此,亟需发明一种基于稀疏图的用户身份识别方法。



技术实现要素:

针对现有技术中的上述技术问题,本公开实施例提出了一种基于稀疏图的用户身份识别方法及装置,以解决现有技术中无法根据稀疏图中的孤立节点获取任何有效变量,继而无法进行身份识别的问题。

本公开实施例的第一方面提供了一种基于稀疏图的用户身份识别方法,包括:

根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;

将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

根据所述评估分数识别用户身份。

在一些实施例中,根据稀疏图中的图谱数据生成规则变量具体包括:使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

在一些实施例中,所述规则变量是基于所述节点信息中的用户信息计算生成的。

在一些实施例中,根据稀疏图中的图谱数据生成图关系类变量具体包括:根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

本公开实施例的第二方面提供了一种识别模型训练方法,包括:

获取图谱并判断所述图谱是否是稀疏图;

若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

本公开实施例的第三方面提供了一种基于稀疏图的用户身份识别装置,包括:

第一数据生成模块,用于根据稀疏图中的图谱数据生成规则变量和图关系类变量;

第二数据生成模块,用于将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

身份识别模块,用于根据所述评估分数识别用户身份。

在一些实施例中,所述第一数据生成模块,具体用于使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

在一些实施例中,所述第一数据生成模块生成的所述规则变量是基于所述节点信息中的用户信息计算生成的。

在一些实施例中,所述第一数据生成模块,具体用于根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

本公开实施例的第四方面提供了一种识别模型训练装置,包括:

获取判断模块,用于获取图谱并判断所述图谱是否是稀疏图;

训练模块,若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

模型建立模块,根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

本公开实施例的第五方面提供了一种电子设备,包括:

存储器以及一个或多个处理器;

其中,所述存储器与所述一个或多个处理器通信连接,所述存储器中存储有可被所述一个或多个处理器执行的指令,所述指令被所述一个或多个处理器执行时,所述电子设备用于实现如前述各实施例所述的方法。

本公开实施例的第六方面提供了一种计算机可读存储介质,其上存储有计算机可执行指令,当所述计算机可执行指令被计算装置执行时,可用来实现如前述各实施例所述的方法。

本公开实施例的第七方面提供了一种计算机程序产品,所述计算机程序产品包括存储在计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,可用来实现如前述各实施例所述的方法。

本公开实施例中,通过根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;并将规则变量和图关系类变量输入至预先训练好的识别模型中,生成评估分数;根据评估分数识别用户身份;实现当图谱为稀疏图时,采用规则变量和图关系类变量相融合的识别模式,大大提高了识别度和识别效率,为发现欺诈团伙节省了时间和精力。

附图说明

通过参考附图会更加清楚的理解本公开的特征和优点,附图是示意性的而不应理解为对本公开进行任何限制,在附图中:

图1是根据本公开的一些实施例所示的稠密图和稀疏图的示例图;

图2是根据本公开的一些实施例所示的一种基于知识图谱和人工智能的风险控制系统示意图;

图3是根据本公开的一些实施例所示的一种基于稀疏图的用户身份识别方法的流程图;

图4是根据本公开的一些实施例所示的一种识别模型训练方法的流程图;

图5是根据本公开的一些实施例所示的一种基于稀疏图的用户身份识别装置的结构框图;

图6是根据本公开的一些实施例所示的一种识别模型训练装置的结构框图;

图7是根据本公开的一些实施例所示的一种电子设备的结构示意图。

具体实施方式

在下面的详细描述中,通过示例阐述了本公开的许多具体细节,以便提供对相关披露的透彻理解。然而,对于本领域的普通技术人员来讲,本公开显而易见的可以在没有这些细节的情况下实施。应当理解的是,本公开中使用“系统”、“装置”、“单元”和/或“模块”术语,是用于区分在顺序排列中不同级别的不同部件、元件、部分或组件的一种方法。然而,如果其他表达式可以实现相同的目的,这些术语可以被其他表达式替换。

应当理解的是,当设备、单元或模块被称为“在……上”、“连接到”或“耦合到”另一设备、单元或模块时,其可以直接在另一设备、单元或模块上,连接或耦合到或与其他设备、单元或模块通信,或者可以存在中间设备、单元或模块,除非上下文明确提示例外情形。例如,本公开所使用的术语“和/或”包括一个或多个相关所列条目的任何一个和所有组合。

本公开所用术语仅为了描述特定实施例,而非限制本公开范围。如本公开说明书和权利要求书中所示,除非上下文明确提示例外情形,“一”、“一个”、“一种”和/或“该”等词并非特指单数,也可包括复数。一般说来,术语“包括”与“包含”仅提示包括已明确标识的特征、整体、步骤、操作、元素和/或组件,而该类表述并不构成一个排它性的罗列,其他特征、整体、步骤、操作、元素和/或组件也可以包含在内。

参看下面的说明以及附图,本公开的这些或其他特征和特点、操作方法、结构的相关元素的功能、部分的结合以及制造的经济性可以被更好地理解,其中说明和附图形成了说明书的一部分。然而,可以清楚地理解,附图仅用作说明和描述的目的,并不意在限定本公开的保护范围。可以理解的是,附图并非按比例绘制。

本公开中使用了多种结构图用来说明根据本公开的实施例的各种变形。应当理解的是,前面或下面的结构并不是用来限定本公开。本公开的保护范围以权利要求为准。

随着大数据和人工智能技术的发展,尤其是认知智能技术在近年来的突破,基于关系型数据库的知识图谱技术已经可以在很多应用领域中为用户提供更为专业更加精准的智能分析服务。典型地,利用知识图谱可以为多种基于关系来识别信息的人工智能模型提供支持,比如个性化推荐、关联信息搜索、地图数据处理、社交网络服务、专业知识库、用户身份验证或互联网金融等应用中均可利用知识图谱来进行优化。

其中,在基于知识图谱的人工智能模型中,利用知识图谱构建的关系图,应用标签传播算法(labelpropagationalgorithm,lpa)能够将种子数据(白名单、黑名单)进行标签传播,进而得到整个网络的概率/置信度情况。对于用户身份/可靠性识别这一应用来说,用户组织/社团的识别有特殊的现实意义,除常规的用户社交、组织关系识别外,作为反欺诈识别中的一项具体任务,欺诈团伙识别是一项必要但难度较大的工作。在一种常见的方法中,通过一度或二度关系数据查询,得到对应的数据,继而来识别潜在的欺诈人员,从而确认某一社团是否为欺诈团伙,可帮助系统或其他用户提升互联网应用的安全性。

但是传统方法只适用于图谱较为稠密的情况,近年来,出于保护个人隐私及信息安全等考虑,越来越多的社交数据将无法被大数据图谱所获取和使用,此时图谱中的边将变少,进而导致图谱由之前的稠密图谱变为稀疏图谱。如图1所述,当图谱为较为稀疏时,很多节点的有效关系很少甚至变成孤立节点,无法与其他节点建立有效连接。在如图2所示的一种基于知识图谱和人工智能的风险控制系统示意图中,可看到变量的提取是通过图中的关系数据获得相关的图谱数据,例如通过一度或二度关系数据查询,得到对应的数据,进而计算风控变量的。然而,在稀疏图中,由于一个节点很可能缺少有效的关系数据,则在欺诈团伙识别系统中将无法提取到任何有效变量。也就是说,在稀疏图中,基于图谱数据的发现欺诈团伙系统图谱的金融反欺诈系统可能实质处在不工作状态。为解决此问题,本公开实施例提供了一种基于稀疏图的用户身份识别方法,如图3所示,具体包括:

s301、根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;

s302、将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

s303、根据所述评估分数识别用户身份。

在一些实施例中,生成规则变量具体包括:使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

具体地,所述规则变量是基于所述节点信息中的用户信息计算生成的。

可选地,所述规则变量可以是根据用户申请服务时在app端填写的个人信息计算得到的规则变量;其中个人信息包括姓名、年龄、身份证号、手机号、学历及收入等。

在一些实施例中,所述生成图关系类变量具体包括:根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

具体地,所述图关系类变量是根据图数据库中各个节点的一度或二度关系得到的数据计算的变量。

例如,通过标签传播算法,将不同的节点将与一组属性相关联(例如一个简单的属性为该节点诚信和欺诈的概率值);进一步,节点之间的不同连接类型将包含一个权重值,有表现值的节点的属性值在算法中通过权重值的计算向未知节点传播,进而实现标签在整个社交网络中的传播;获取图数据库中各个节点的一度或二度关系进行计算。

在一些实施例中,当稀疏图中某个节点是孤立节点、与图中其他节点无连接关系时,仅需根据稀疏图中的图谱数据生成规则变量即可;相应地,仅将规则变量输入至预先训练好的识别模型中生成评估分数,根据评估分数识别用户身份。

在一些实施例中,方法还包括:计算获取到的图谱的稀疏性;当图谱为稀疏图时,采用规则变量和图关系类变量相融合的识别模式;当图谱为稠密图时,可采用规则变量和图关系类变量相融合的识别模式,也可以仅采用图关系变量或规则变量的识别模式。需要说明的是,仅采用图关系变量的识别模式,能够提高模型训练和系统部署的效率;采用规则变量和图关系类变量相融合的识别模式,能够获得较准的识别度和较高的覆盖效果。

公开实施例还提供了一种识别模型训练方法,如图4所示,具体包括:

s401、获取图谱并判断所述图谱是否是稀疏图;

s402、若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

s403、根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

在一些实施例中,还可以通过训练一个或两个变量模型,通过一个或两个变量模型对当前进项进行处理,筛选出较优的图谱数据,根据筛选后的图谱数据生成规则变量和/或图关系类变量,将规则变量和/或图关系类变量输入至预先训练好的识别模型中,生成评估分数;根据所述评估分数识别用户身份。

可选的,还可以训练一个或两个模型用来根据图谱数据自动生成规则变量或图关系类变量。

公开实施例还提供了一种基于稀疏图的用户身份识别装置500,包括第一数据生成模块501、第二数据生成模块502和身份识别模块503;如图5所示,具体包括:

第一数据生成模块501,用于根据稀疏图中的图谱数据生成规则变量和图关系类变量;

第二数据生成模块502,用于将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

身份识别模块503,用于根据所述评估分数识别用户身份。

在一些实施例中,所述第一数据生成模块501,具体用于使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

在一些实施例中,所述第一数据生成模块501生成的所述规则变量是基于所述节点信息中的用户信息计算生成的。

在一些实施例中,所述第一数据生成模块501,具体用于根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

公开实施例还提供了一种识别模型训练装置600,包括获取判断模块601、训练模块602和模型建立模块603,如图6所示,具体包括:

获取判断模块601,用于获取图谱并判断所述图谱是否是稀疏图;

训练模块602,若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

模型建立模块603,根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

参考附图7,为本申请一个实施例提供的电子设备示意图。如图7所示,该电子设备700包括:

存储器730以及一个或多个处理器710;

其中,所述存储器730与所述一个或多个处理器710通信连接,所述存储器730中存储有可被所述一个或多个处理器执行的指令732,所述指令732被所述一个或多个处理器710执行,以使所述一个或多个处理器710执行本申请前述实施例中的方法。

具体地,处理器710和存储器730可以通过总线或者其他方式连接,图7中以通过总线740连接为例。处理器710可以为中央处理器(centralprocessingunit,cpu)。处理器710还可以为其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现场可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。

存储器730作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本申请实施例中的级联渐进网络等。处理器710通过运行存储在存储器730中的非暂态软件程序、指令以及模块732,从而执行处理器的各种功能应用以及数据处理。

存储器730可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器710所创建的数据等。此外,存储器730可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器730可选包括相对于处理器710远程设置的存储器,这些远程存储器可以通过网络(比如通过通信接口720)连接至处理器710。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

本申请的一个实施例还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被执行后执行本申请前述实施例中的方法。

前述的计算机可读取存储介质包括以存储如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方式或技术来实现的物理易失性和非易失性、可移动和不可移动介质。计算机可读取存储介质具体包括,但不限于,u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、可擦除可编程只读存储器(eprom)、电可擦可编程只读存储器(eeprom)、闪存或其他固态存储器技术、cd-rom、数字多功能盘(dvd)、hd-dvd、蓝光(blue-ray)或其他光存储设备、磁带、磁盘存储或其他磁性存储设备、或能用于存储所需信息且可以由计算机访问的任何其他介质。

尽管此处所述的主题是在结合操作系统和应用程序在计算机系统上的执行而执行的一般上下文中提供的,但本领域技术人员可以认识到,还可结合其他类型的程序模块来执行其他实现。一般而言,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、组件、数据结构和其他类型的结构。本领域技术人员可以理解,此处所述的本主题可以使用其他计算机系统配置来实践,包括手持式设备、多处理器系统、基于微处理器或可编程消费电子产品、小型计算机、大型计算机等,也可使用在其中任务由通过通信网络连接的远程处理设备执行的分布式计算环境中。在分布式计算环境中,程序模块可位于本地和远程存储器存储设备的两者中。

本领域普通技术人员可以意识到,结合本文中所本申请的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对原有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。

综上所述,本公开提出了一种基于稀疏图的用户身份识别方法、装置、电子设备及其计算机可读存储介质。通过根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;并将规则变量和图关系类变量输入至预先训练好的识别模型中,生成评估分数;根据评估分数识别用户身份;实现当图谱为稀疏图时,采用规则变量和图关系类变量相融合的识别模式,大大提高了识别度和识别效率,为发现欺诈团伙节省了时间和精力。

应当理解的是,本公开的上述具体实施方式仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。


技术特征:

1.一种基于稀疏图的用户身份识别方法,其特征在于,包括:

根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;

将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

根据所述评估分数识别用户身份。

2.根据权利要求1所述的方法,其特征在于,根据稀疏图中的图谱数据生成规则变量具体包括:使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

3.根据权利要求2所述的方法,其特征在于,所述规则变量是基于所述节点信息中的用户信息计算生成的。

4.根据权利要求1所述的方法,其特征在于,根据稀疏图中的图谱数据生成图关系类变量具体包括:根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

5.一种识别模型训练方法,其特征在于,包括:

获取图谱并判断所述图谱是否是稀疏图;

若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

6.一种基于稀疏图的用户身份识别装置,其特征在于,包括:

第一数据生成模块,用于根据稀疏图中的图谱数据生成规则变量和图关系类变量;

第二数据生成模块,用于将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;

身份识别模块,用于根据所述评估分数识别用户身份。

7.根据权利要求6所述的装置,其特征在于,所述第一数据生成模块,具体用于使用规则引擎获取所述稀疏图中的节点信息生成所述规则变量。

8.根据权利要求7所述的装置,其特征在于,所述第一数据生成模块生成的所述规则变量是基于所述节点信息中的用户信息计算生成的。

9.根据权利要求6所述的装置,其特征在于,所述第一数据生成模块,具体用于根据所述稀疏图中各节点之间的关系生成所述图关系类变量。

10.一种识别模型训练装置,其特征在于,包括:

获取判断模块,用于获取图谱并判断所述图谱是否是稀疏图;

训练模块,若所述图谱是稀疏图,获取规则变量、图关系类变量在内的训练数据及对应的评估分数进行训练,识别所述训练数据的特征;

模型建立模块,根据所述特征建立训练数据及对应的评估分数的关联,得到训练后所述识别模型。

技术总结
本公开实施例公开了一种基于稀疏图的用户身份识别方法及装置,涉及知识图谱数据处理领域;其中,该方法包括:根据稀疏图中的图谱数据分别生成规则变量和图关系类变量;将所述规则变量和所述图关系类变量输入至预先训练好的识别模型中,生成评估分数;根据所述评估分数识别用户身份。

技术研发人员:不公告发明人
受保护的技术使用者:广州拉卡拉信息技术有限公司
技术研发日:2020.01.06
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57439.html

最新回复(0)