一种交易异常检测方法、装置、电子设备及存储介质与流程

专利2023-04-08  11



1.本公开涉及数据处理技术领域,具体而言,涉及一种交易异常检测方法、装置、电子设备及存储介质。


背景技术:

2.随着互联网技术在金融领域的渗透,金融业务日益增多,其中,金融异常交易检测是互联网金融必不可少的一部分。随着大数据技术的迅速发展,使得积累金融交易信息变得越来越容易,例如,可以通过人工方式给交易信息标记标签信息并训练相应的异常检测模型来实现有关异常交易行为的检测。
3.然而,考虑到目前所训练的异常检测模型仅依赖于金融交易信息等结构化信息,而实际应用中,存在一些复杂的异常交易情况,而仅依赖于金融交易信息所训练的异常检测模型进行异常检测可能存在不全面、不充分等误检的问题。


技术实现要素:

4.本公开实施例至少提供一种交易异常检测方法、装置、电子设备及存储介质,以提升异常检测的准确率。
5.第一方面,本公开实施例提供了一种交易异常检测方法,包括:
6.获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;
7.基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。
8.在一种可能的实施方式中,在所述异常检测结果包括检测分值的情况下,所述基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果,包括:
9.基于所述当前舆情数据和所述当前交易数据对所述当前交易任务进行至少一个增益赋值,确定赋值后的增益系数;以及,基于所述预训练好的异常检测模型对所述当前交易数据进行异常检测,确定初始检测分值;
10.基于所述增益系数对所述初始检测分值进行更新,得到更新后的检测分值。
11.在一种可能的实施方式中,按照如下至少一种方式对所述当前交易任务进行增益赋值:
12.在所述当前舆情数据和所述当前交易数据属于同一个时间窗口的情况下,为所述当前交易任务赋予第一增益系数;
13.确定所述当前舆情数据和所述当前交易数据之间的相关度,并基于所述相关度为所述当前交易任务赋予第二增益系数;
14.在所述当前舆情数据指向所述当前交易数据所对应交易用户的风险标签的情况下,为所述当前交易任务赋予第三增益系数;
15.确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据,并基于所述扩展交易数据以及对应的扩展舆情数据之间的相关度为所述当前交易任务赋予第四增益系数。
16.在一种可能的实施方式中,所述确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据,包括:
17.按照时间先后顺序将所述当前舆情数据所属时间窗口之前的预设数量个历史时间窗口对应的历史交易数据以及当前交易数据进行组合,得到扩展交易数据;以及,
18.按照时间先后顺序将每个所述历史时间窗口下的历史舆情数据以及所述当前舆情数据进行组合,得到扩展舆情数据。
19.在一种可能的实施方式中,按照如下步骤确定所述扩展交易数据以及对应的扩展舆情数据之间的相关度:
20.对所述扩展舆情数据包括的每个舆情数据进行离散化编码,确定与每个舆情数据对应的编码值,并得到与所述扩展舆情数据对应的编码序列信号;以及,从所述扩展交易数据包括的每个交易数据中提取交易特征,并得到与所述扩展交易数据对应的交易特征信号;
21.确定所述编码序列信号与所述交易特征信号之间的信号相关度;
22.将所述信号相关度确定为所述扩展交易数据以及对应的扩展舆情数据之间的相关度。
23.在一种可能的实施方式中,所述确定所述当前舆情数据和所述当前交易数据之间的相关度,包括:
24.提取所述当前舆情数据中的当前舆情特征,以及提取所述当前交易数据中的当前交易特征;
25.确定所述当前舆情特征与所述当前交易特征之间的特征相关度;
26.将所述特征相关度确定为所述当前舆情数据和所述当前交易数据之间的相关度。
27.在一种可能的实施方式中,所述基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,包括:
28.将所述当前舆情数据和所述当前交易数据进行数据对齐,得到对齐后的当前舆情数据和当前交易数据;
29.基于所述对齐后的当前舆情数据和当前交易数据、以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。
30.在一种可能的实施方式中,所述将所述当前舆情数据和所述当前交易数据进行数据对齐,包括:
31.基于预设特征框架对所述当前交易数据进行字段拆分,得到拆分后的多个交易特征字段;以及针对所述当前舆情数据进行语义识别,并从识别后的当前舆情数据中确定多个舆情字段内容;
32.针对每个交易特征字段,从多个舆情字段内容中确定与所述交易特征字段匹配的舆情字段内容;
33.基于每个交易特征字段匹配的舆情字段内容进行数据对齐。
34.在一种可能的实施方式中,按照如下步骤对异常检测模型进行预训练:
35.获取多条历史交易数据以及与每条历史交易数据对应的风险标签;
36.将所述多条历史交易数据作为所述预训练的异常检测模型的输入数据,将与每条历史交易数据对应的风险标签作为所述预训练的异常检测模型的输出结果的监督数据,对所述异常检测模型进行预训练,得到预训练好的异常检测模型。
37.第二方面,本公开还提供了一种交易异常检测装置,包括:
38.获取模块,用于获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;
39.检测模块,用于基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。
40.第三方面,本公开还提供了一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如第一方面及其各种实施方式任一所述的交易异常检测方法。
41.第四方面,本公开还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如第一方面及其各种实施方式任一所述的交易异常检测方法。
42.采用上述交易异常检测方法、装置、电子设备及存储介质,在获取到针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型的情况下,可以基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测。本公开在进行交易异常检测的过程中,不仅参考了当前交易数据,还参考了具有实时和准实时价值的舆情数据,这能够更为准确的挖掘出交易过程中存在的异常行为,及时的为交易用户提供更为安全性的交易服务。
43.本公开的其他优点将配合以下的说明和附图进行更详细的解说。
44.应当理解,上述说明仅是本公开技术方案的概述,以便能够更清楚地了解本公开的技术手段,从而可依照说明书的内容予以实施。为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举例说明本公开的具体实施方式。
附图说明
45.为了更清楚地说明本公开实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,此处的附图被并入说明书中并构成本说明书中的一部分,这些附图示出了符合本公开的实施例,并与说明书一起用于说明本公开的技术方案。应当理解,以下附图仅示出了本公开的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
46.而且在整个附图中,用相同的标号表示相同的部件。在附图中:
47.图1示出了本公开实施例所提供的一种交易异常检测方法的流程图;
48.图2示出了本公开实施例所提供的一种交易异常检测方法中,生成预训练模型的具体示意图;
49.图3示出了本公开实施例所提供的一种交易异常检测方法中,确定增益系数的具体示意图;
50.图4示出了本公开实施例所提供的一种交易异常检测方法中,对齐交易数据的具体示意图;
51.图5示出了本公开实施例所提供的交易异常检测方法的具体应用示意图;
52.图6示出了本公开实施例所提供的一种交易异常检测装置的示意图;
53.图7示出了本公开实施例所提供的一种电子设备的示意图。
具体实施方式
54.下面将参照附图更详细地描述本公开的示例性实施方式。虽然附图中显示了本公开的示例性实施方式,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
55.在本公开实施方式的描述中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。
56.除非另有说明,“/”表示或的意思,例如,a/b可以表示a或b;本文中的“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。
57.术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个这一特征。在本公开实施方式的描述中,除非另有说明,“多个”的含义是两个或两个以上。
58.经研究发现,考虑到目前所训练的异常检测模型仅依赖于金融交易信息,而实际应用中,存在一些复杂的异常交易情况,而仅依赖于金融交易信息所训练的异常检测模型进行异常检测可能存在误检的问题。
59.为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个,本公开提供了至少一种交易异常检测方案,该方案主要是通过增添对风险及态势有很好的感知作用的舆情数据进行异常检测,以提升检测的准确度。
60.为便于对本实施例进行理解,首先对本公开实施例所公开的一种交易异常检测方法进行详细介绍,本公开实施例所提供的交易异常检测方法的执行主体一般为具有一定计算能力的电子设备,该电子设备例如包括:终端设备或服务器或其它处理设备,终端设备可以为用户设备(user equipment,ue)、移动设备、用户终端、蜂窝电话、手持设备等。在一些可能的实现方式中,该交易异常检测方法可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。
61.参见图1所示,为本公开实施例提供的交易异常检测方法的流程图,所述方法包括步骤s101~s102,其中:
62.s101:获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;
63.s102:基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测,得到异常检测结果。
64.为了便于理解本公开实施例提供的交易异常检测方法,接下来首先对该方法的应用场景进行简单描述。本公开中的交易异常检测方法主要可以应用于金融领域,例如可以应用于互联网金融交易中,还可以应用于其他任何具有交易活动的场景中,在此不做具体的限制。考虑到互联网金融交易的广泛应用,接下来多以互联网金融交易场景进行示例说明。这里,在异常检测结果指示当前交易任务存在风险的情况下,可以及时对交易用户进行安全提醒,例如,可以在用户客户端上设置的相关应用程序(application,app)中推送诸如“当前交易存在较高风险,请再次确认是否继续交易”等提醒信息。
65.本公开实施例提供的交易异常检测方法可以结合当前舆情数据、当前交易数据以及预训练好的异常检测模型实现异常检测,尽可能的挖掘出了舆情数据的实时和准实时价值,从而可以得到更为准确的异常检测结果。
66.其中,上述当前舆情数据和当前交易数据可以是针对当前交易任务产生的相关数据。当前舆情数据一般指的是互联网上实时产生的公开数据,例如全网声量、敏感信息、热点信息、发展走势等等,在实际应用中,可以是相关短视频平台收集的用户评论信息、推广信息等,这里不做具体的限制;当前交易数据可以是在相关交易平台实时收集的交易数据。举例而言,当前舆情数据可以是“2022年6月1日早上10点,去a商户刷单,优惠金额50元,速速前往”,当前交易数据可以是“2022年6月2日a商户入账金额10万元”。
67.需要说明的是,这里的当前舆情数据和当前交易数据可以是同一时间点或同一时间段内产生的,在实际应用中,两份数据(即当前舆情数据和当前交易数据)可以是不同的时间点产生的,也可以是不同的时间窗口产生的,这主要是考虑到舆情数据通常会有一段时间的发酵才会对交易活动带来直接的影响,在针对当前交易任务进行异常检测的过程中,可以捕捉距离当前交易任务较近的一条或多条当前舆情数据,并可以分析在每条舆情数据的影响下,当前交易任务所存在的异常情况。
68.针对不同的应用场景,这里的当前交易任务也不同,以互联网金融为例,这里的当前交易任务可以是在一定交易时间内产生的所有交易行为,还可以是针对特定的主体、特定的交易事项的交易行为,在实际应用中,这里的当前交易任务可以是针对一个商户的交易情况,也可以是针对多个商户的交易情况,这里不做具体的限制。
69.本公开实施例中的异常检测模型可以是基于历史交易数据预训练完成的,训练的可以是交易数据与风险标签之间的对应关系。针对每条历史交易数据可以预先标注有风险标签,这样,将多条历史交易数据作为预训练的异常检测模型的输入数据,将与每条历史交易数据对应的风险标签作为预训练的异常检测模型的输出结果的监督数据,对异常检测模型进行预训练,得到预训练好的异常检测模型。在实际进行网络训练的过程中,可以将历史交易数据输入到预训练的异常检测模型,这时,可以确定异常检测模型的输出结果,在将输出结果与历史交易数据对应的风险标签进行比对的情况下,可以基于比对结果对异常检测模型的网络参数值进行调整,直至达到网络收敛条件,可以得到预训练好的异常检测模型。这里的网络收敛条件可以是达到预设训练次数,还可以是遍历完所有的历史交易数据,还可以是其它收敛条件,这里不做具体的限制。
70.需要说明的是,在进行网络训练之前,需要从历史交易数据中提取出对应的历史交易特征,以能够更好的被异常检测模型学习。
71.其中,有关历史交易数据的具体内容可以参见当前交易数据的相关描述,在此不
做赘述,有关风险标签可以设置为有风险、无风险两种标签,还可以设置有高风险、中风险、低风险、无风险这四种标签,在此不做具体的限制。
72.在实际应用中,可以结合时间窗口进行异常检测模型的训练。例如,针对一个交易实体的具体交易信息,选取某固定时间段长度,分成n个时间窗口,时间窗口宽度固定为dt,对应时间段:t0-t1,t1-t2,

tn-1~tn,对每一个时间窗口,抽取其交易特征,第n个时间窗口下的交易特征可表示为fn。这样,对每个时间窗口下的历史交易数据进行风险标注,形成样本标签。
73.结合交易特征及样本标签,构建异常检测模型,通过交易特征及样本标签进行预训练,达到对未标注交易进行预测的目的。这里时间窗口宽度dt可以是1小时,这样1天即可以划分为24个时间窗口,还可以设置成其它窗口宽度,例如,每3个小时划分一个时间窗口等,在此不做具体的限制,可以结合具体的应用需求来设置。另外,有关异常检测模型可以是逻辑回归模型,还可以是其他具有上述异常检测功能的神经网络模型,在此不做具体的限制。
74.为了便于进一步理解有关异常检测模型的训练过程,可以结合图2进行示例说明。
75.如图2所示,在获取到各条历史交易数据以及针对各条历史交易记录的预训练标签的情况下,可以生成预训练模型(即异常检测模型)。其中,不同的商户可以对应不同的交易时间,在实际应用中,可以实现所有交易时间段内的异常检测模型的训练,还可以针对不同的交易时间段训练不同的异常检测模型。
76.在获取到针对当前交易任务的当前舆情数据、当前交易数据以及上述预训练好的异常检测模型的情况下,基于当期舆情数据可以对异常检测结果带来更为准确的影响,具体可以通过如下步骤来实现:
77.步骤一、基于当前舆情数据和当前交易数据对当前交易任务进行至少一个增益赋值,确定赋值后的增益系数;以及,基于预训练好的异常检测模型对当前交易数据进行异常检测,确定初始检测分值;
78.步骤二、基于增益系数对初始检测分值进行更新,得到更新后的检测分值。
79.这里,考虑到当前舆情数据对于交易异常检测的关键作用,可以在基于预训练好的异常检测模型对当前交易数据进行初始检测的过程中,基于当前舆情数据和当前交易数据对当前交易任务进行至少一个增益赋值,而后基于赋值后的增益系数以及初始检测得到的初始检测分值确定更新后的检测分值,检测分值越高,一定程度上说明存在交易风险的可能性越大,反之,检测分值越低,一定程度上说明存在交易风险的可能性越小。
80.其中,上述增益赋值的过程主要是从各个维度综合考量舆情数据对交易数据的影响程度,在影响程度比较大的情况下,可以赋予更大的增益系数值,在影响程度比较小的情况下,可以赋予更小的增益系数值。
81.这里,其一可以基于时间窗口这一维度来确定第一增益系数,也即,在当前舆情数据和当前交易数据属于同一个时间窗口的情况下,为当前交易任务赋予第一增益系数。在本公开实施例中,通过解析获取当前舆情数据的时间信息,并将该时间信息对应至当前划分的dt时间窗口(标为第n个窗口),对该时间窗口下出现的一条或多条当前交易数据进行风险评分增益,增益系数可以标记为at。
82.其二,可以基于两份数据之间的相关度来确定第二增益系数,在两份数据之间的
相关度比较大的情况下,可以赋予更大的增益系数,反之,在两份数据之间的相关度比较小的情况下,可以赋予更小的增益系数。
83.本公开实施例中可以基于从当前舆情数据中提取的当前舆情特征以及从当前交易数据中提取的当前交易特征之间的特征相关度确定两份数据之间的相关度。例如,当前舆情信息关联至具体商户id及对应当前交易特征fn,则对该商户对应特征的相关性进行增益,如文本“付款50元”为舆情与交易金额字段关联特征,则针对该时段交易接近50元的交易进行特征增益,增益系数为af。
84.其三,可以在当前舆情数据指向当前交易数据所对应交易用户的风险标签的情况下,为当前交易任务赋予第三增益系数,也即,这里的第三增益系数可以是在当前舆情涉及到具体交易用户的风险预测结果才进行增益,增益系数可以记为as,as越大一定程度上说明当前舆情数据的风险指向性更为明确。
85.其四,可以基于历史交易关联的多个历史时间窗口所对应的扩展交易数据以及对应的扩展舆情数据之间的相关度来确定第四增益系数。这里主要是想从更多时间窗口维度考量当前舆情数据对交易数据的影响,例如,异常交易的产生与当前时间窗口是否出现过舆情之间是否存在实质关联,如果存在关联,则可以赋予更大的增益系数值,如果不存在关联或者关联程度较小,则可以赋予更小的增益系数值。
86.其中,这里的扩展交易数据可以是按照时间先后顺序将当前舆情数据所属时间窗口之前的预设数量个历史时间窗口对应的历史交易数据以及当前交易数据进行组合得到的,这里的扩展舆情数据可以是将每个历史时间窗口下的历史舆情数据以及当前舆情数据进行组合得到的。
87.在实际应用中,针对当前时间窗口,可以拓展关联其前置n-1个dt长度的时间窗口,获得对应扩展交易数据的交易特征序列(f1~fn),对应追溯该交易时间前置n-1个dt长度时间窗口下的扩展舆情数据,形成舆情数据序列。
88.这里,可以按照如下步骤可以确定扩展交易数据以及对应的扩展舆情数据之间的相关度:
89.步骤一、对扩展舆情数据包括的每个舆情数据进行离散化编码,确定与每个舆情数据对应的编码值,并得到与扩展舆情数据对应的编码序列信号;以及,从扩展交易数据包括的每个交易数据中提取交易特征,并得到与扩展交易数据对应的交易特征信号;
90.步骤二、确定编码序列信号与交易特征信号之间的信号相关度;
91.步骤三、将信号相关度确定为扩展交易数据以及对应的扩展舆情数据之间的相关度。
92.这里,在确定扩展交易数据以及对应的扩展舆情数据之间的相关度之前,可以对扩展舆情数据包括的每个舆情数据进行离散化编码以得到编码序列信号,还可以从扩展交易数据包括的每个交易数据中提取交易特征以得到交易特征信号,通过两个信号(即编码序列信号和交易特征信号)之间的信号相关度即可以确定出上述扩展交易数据以及对应的扩展舆情数据之间的相关度。
93.在对各个舆情数据进行离散化编码的过程中,对出现舆情的编码为1,未出现舆情的编码为0.5,形成舆情波动序列(对应编码序列信号),而后可以比较f1~fn特征序列(对应交易特征信号)波动的相关性,获得相关性系数,而后将这一相关性系数作为第四增益系
数,记为ar。
94.在实际应用中,上述四个增益系数可以是直接影响检测分值的,也即,在确定初始检测分值为y的情况下,更新后的检测分值可以是y*at*af*as*ar,其中,在上述四个增益系数对检测分值起到正向作用的情况下,可以赋予高于1的系数值,在上述三个增益系数对检测分值起到负向作用的情况下,可以赋予小于1的系数值。
95.需要说明的是,在实际应用中,上述四个增益系数还可以是间接影响检测分值的。本公开实施例中,考虑到有关特征增益对于交易特征本身的影响,可以将第二增益系数af作用于交易特征本身,例如,在交易金额为x1的情况下,经过增益后的交易金额可以是x1*af,而后可以将x1*af作为输入到训练好的异常检测模型中的交易特征参与到后续的异常检测,与此同时其他三个增益系数可以直接作用于初始检测分值,并最后输出得到更新后的检测分值。
96.为了便于进一步理解上述四个增益系数对检测分值的影响,这里仍以当前舆情数据为“2022年6月1日早上10点,去a商户刷单,优惠金额50元”为例,结合图3进行具体说明。
97.如图3所示,在当前舆情信息中指向的对应商户a的风险的情况下,可以确定第三有关明确样本增益,即第三增益系数as;在当前舆情数据确定的舆情特征“优惠50元”与交易数据中确定的交易特征x2具有很高的相关度的情况下,可以确定特征特点增益,即第二增益系数af;在锁定的是相关时间窗口的情况下,可以确定时间窗口样本风险评分增益,即第一增益系数at;第四增益系数ar对应的是两个信号之间的相关性系数。而后,可以确定每条交易数据所对应的最终的欺诈评分,即更新后的检测分值,该分值越高,一定程度上说明对应交易的风险越高。
98.考虑到舆情数据大多数为非结构化数据,为了更好的结合舆情数据和交易数据进行异常检测,在进行异常检测之前,本公开实施例可以先将当前舆情数据和当前交易数据进行数据对齐,具体可以通过如下步骤来实现:
99.步骤一、基于预设特征框架对当前交易数据进行字段拆分,得到拆分后的多个交易特征字段;以及针对当前舆情数据进行语义识别,并从识别后的当前舆情数据中确定多个舆情字段内容;
100.步骤二、针对每个交易特征字段,从多个舆情字段内容中确定与交易特征字段匹配的舆情字段内容;
101.步骤三、基于每个交易特征字段匹配的舆情字段内容进行数据对齐。
102.这里,可以参照预设特征框架对当前交易数据进行交易特征字段的提取,而后将针对语义分割后的舆情字段内容与上述交易特征字段进行配对,由于交易特征字段是按照预设特征框架得到的,这样所确定的舆情字段内容也具备了一定的框架结构,从而可以得到对齐后数据。
103.在实际应用中,首先可以利用同一特征框架抽取当前交易数据中的字段,这里的统一框架可以分为以下几类:用户身份标识号(identity document,id)、特征值、标签值、时间戳,实际可以拆分出如交易样本id、交易金额特征、优惠特征、时间特征、风险标签等字段。
104.另外,后续交易及舆情数据将均可以解析抽取至统一框架下。
105.针对当前舆情数据包含的不同信息元素,可以基于语义识别模型,切分信息词向
量,划分时间类信息、不同类型对象标签信息等,并进行标准化编码,落入数据表及对应字段,这里仍以当前舆情数据为“2022年6月1日早上10点,去a商户刷单,优惠金额50元,速速前往”进行示例,可以得到样本id:a商户,优惠金额:50元,交易金额:未涉及,时间信息:2022-0601-10:00,风险标签:1(有欺诈风险)等具体的舆情字段内容。
106.为了便于进一步理解上述舆情数据与交易数据的对齐操作,这里仍以舆情数据为“2022年6月1日早上10点,去a商户刷单,优惠金额50元”为例,结合图4进行具体说明。
107.如图4所示,可以将舆情数据的各个字段依照交易数据所设置的框架统一起来,使得难以进行结构化处理的舆情数据能够最大程度的发挥其舆情价值。
108.在按照上述方法实现当前交易数据和当前舆情数据对齐的情况下,可以将当前交易数据和当前舆情数据作为预训练好的异常检测模型的输入数据,利用上述通过增益赋值的各个增益系数可以更大程度的挖掘出当前交易数据的隐藏价值,从而为当前交易数据的异常检测提供有力的支撑,得到更为准确的检测结果。
109.为了便于进一步理解本公开实施例提供的交易异常检测方法,接下来可以结合图5以及一个实例进行说明。
110.如图5所示,当前营销活动中存在大量黑产舆情,其中类似群聊等存在较多欺诈用户套利组织的舆情信息和话术,可通过当前情报舆情系统进行关联分析,具体分析框架如下:
111.(1)首先根据团伙组织舆情,解析舆情发布时间,对应映射舆情信息所涉时间对应的交易异动监控时间窗口,以及关联其对应的历史时间窗口。
112.本案例关联2022年6月1日10点时间,设定时间窗口宽度为1小时,则10-11点参与交易的商户增加风险系数增益at。
113.(2)解析舆情数据具体元素,挖掘具体主id信息、特征信息、标签信息等,如该舆情对应主id商户a,特征交易优惠金额50元,“刷单”关联风险标签信息。
114.(3)将映射的特征信息对应训练好的异常检测模型的特征部分进行加权增益,输出风险预测结果。本公开实施例中,涉及具体优惠金额特征50元,通过构建相关性判据:商户时段下优惠金额平均值与50元的接近程度,增加风险加权增益。
115.即:特征加权增益系数af=|优惠金额平均值-50|/优惠金额平均值
116.(4)将映射的标签和主id信息用于对风险预测评分进行再次加权增益。
117.本舆情中明确指出id=商户a的商户涉及了舆情风险,则对该确定商户的风险评分增加风险系数增益as。
118.(5)结合当前时间窗口信息,对应追溯历史窗口信息,对舆情波动信号和窗口交易下的信号趋势进行相关性分析,作为风险评分的加权增益系数。
119.本案例涉及舆情信号为2022年6月1日10点,即其舆情信号波动在该时间窗口下存在信号波动,追溯各商户交易波动,通过归一化将舆情信号和交易信号归一至(0,1)之间,其函数分别为y(t)和j(t)(舆情波动与交易波动)。
120.通过欧式距离,定义相关性系数函数:
[0121][0122]
其中ti表示前述划分的各个时间窗口。
[0123]
结合前置的预测模型、后置的风险评分增益,输出最终交易监控的评分,辅助交易监控决策,例如,可以在评分较高的情况下,确定存在较高的交易风险,此时可以对商户a的交易行为进行限制。
[0124]
在本说明书的描述中,参考术语“一些可能的实施方式”、“一些实施方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施方式或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施方式或示例以及不同实施方式或示例的特征进行结合和组合。
[0125]
关于本公开实施方式的方法流程图,将某些操作描述为以一定顺序执行的不同的步骤。这样的流程图属于说明性的而非限制性的。可以将在本文中所描述的某些步骤分组在一起并且在单个操作中执行、可以将某些步骤分割成多个子步骤、并且可以以不同于在本文中所示出的顺序来执行某些步骤。可以由任何电路结构和/或有形机制(例如,由在计算机设备上运行的软件、硬件(例如,处理器或芯片实现的逻辑功能)等、和/或其任何组合)以任何方式来实现在流程图中所示出的各个步骤。
[0126]
本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。
[0127]
基于同一发明构思,本公开实施例中还提供了与交易异常检测方法对应的交易异常检测装置,由于本公开实施例中的装置解决问题的原理与本公开实施例上述交易异常检测方法相似,因此装置的实施可以参见方法的实施,重复之处不再赘述。
[0128]
参照图6所示,为本公开实施例提供的一种交易异常检测装置的示意图,装置包括:获取模块601、检测模块602;其中,
[0129]
获取模块601,用于获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;
[0130]
检测模块602,用于基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测,得到异常检测结果。
[0131]
采用上述交易异常检测装置,在获取到针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型的情况下,可以基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测。本公开在进行交易异常检测的过程中,不仅参考了当前交易数据,还参考了具有实时和准实时价值的舆情数据,这能够更为准确的挖掘出交易过程中存在的异常行为,及时的为交易用户提供更为安全性的交易服务。
[0132]
在一种可能的实施方式中,在异常检测结果包括检测分值的情况下,检测模块602,用于按照以下步骤基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测,得到异常检测结果:
[0133]
基于当前舆情数据和当前交易数据对当前交易任务进行至少一个增益赋值,确定赋值后的增益系数;以及,基于预训练好的异常检测模型对当前交易数据进行异常检测,确
定初始检测分值;
[0134]
基于增益系数对初始检测分值进行更新,得到更新后的检测分值。
[0135]
在一种可能的实施方式中,检测模块602,用于按照如下至少一种方式对当前交易任务进行增益赋值:
[0136]
在当前舆情数据和当前交易数据属于同一个时间窗口的情况下,为当前交易任务赋予第一增益系数;
[0137]
确定当前舆情数据和当前交易数据之间的相关度,并基于相关度为当前交易任务赋予第二增益系数;
[0138]
在当前舆情数据指向当前交易数据所对应交易用户的风险标签的情况下,为当前交易任务赋予第三增益系数;
[0139]
确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据,并基于扩展交易数据以及对应的扩展舆情数据之间的相关度为当前交易任务赋予第四增益系数。
[0140]
在一种可能的实施方式中,检测模块602,用于按照以下步骤确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据:
[0141]
按照时间先后顺序将当前舆情数据所属时间窗口之前的预设数量个历史时间窗口对应的历史交易数据以及当前交易数据进行组合,得到扩展交易数据;以及,
[0142]
按照时间先后顺序将每个历史时间窗口下的历史舆情数据以及当前舆情数据进行组合,得到扩展舆情数据。
[0143]
在一种可能的实施方式中,检测模块602,用于按照如下步骤确定扩展交易数据以及对应的扩展舆情数据之间的相关度:
[0144]
对扩展舆情数据包括的每个舆情数据进行离散化编码,确定与每个舆情数据对应的编码值,并得到与扩展舆情数据对应的编码序列信号;以及,从扩展交易数据包括的每个交易数据中提取交易特征,并得到与扩展交易数据对应的交易特征信号;
[0145]
确定编码序列信号与交易特征信号之间的信号相关度;
[0146]
将信号相关度确定为扩展交易数据以及对应的扩展舆情数据之间的相关度。
[0147]
在一种可能的实施方式中,检测模块602,用于按照以下步骤确定当前舆情数据和当前交易数据之间的相关度:
[0148]
提取当前舆情数据中的当前舆情特征,以及提取当前交易数据中的当前交易特征;
[0149]
确定当前舆情特征与当前交易特征之间的特征相关度;
[0150]
将特征相关度确定为当前舆情数据和当前交易数据之间的相关度。
[0151]
在一种可能的实施方式中,检测模块602,用于按照以下步骤基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测:
[0152]
将当前舆情数据和当前交易数据进行数据对齐,得到对齐后的当前舆情数据和当前交易数据;
[0153]
基于对齐后的当前舆情数据和当前交易数据、以及预训练好的异常检测模型对当前交易任务进行异常检测,得到异常检测结果。
[0154]
在一种可能的实施方式中,检测模块602,用于按照以下步骤将当前舆情数据和当
前交易数据进行数据对齐:
[0155]
基于预设特征框架对当前交易数据进行字段拆分,得到拆分后的多个交易特征字段;以及针对当前舆情数据进行语义识别,并从识别后的当前舆情数据中确定多个舆情字段内容;
[0156]
针对每个交易特征字段,从多个舆情字段内容中确定与交易特征字段匹配的舆情字段内容;
[0157]
基于每个交易特征字段匹配的舆情字段内容进行数据对齐。
[0158]
在一种可能的实施方式中,获取模块601,用于按照如下步骤对异常检测模型进行预训练:
[0159]
获取多条历史交易数据以及与每条历史交易数据对应的风险标签;
[0160]
将多条历史交易数据作为预训练的异常检测模型的输入数据,将与每条历史交易数据对应的风险标签作为预训练的异常检测模型的输出结果的监督数据,对异常检测模型进行预训练,得到预训练好的异常检测模型。
[0161]
需要说明的是,本技术实施方式中的装置可以实现前述方法的实施方式的各个过程,并达到相同的效果和功能,这里不再赘述。
[0162]
本公开实施例还提供了一种电子设备,如图7所示,为本公开实施例提供的电子设备结构示意图,包括:处理器701、存储器702、和总线703。存储器702存储有处理器701可执行的机器可读指令(比如,图6中的装置中获取模块601、检测模块602对应的执行指令等),当电子设备运行时,处理器701与存储器702之间通过总线703通信,机器可读指令被处理器701执行时执行如下处理:
[0163]
获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;
[0164]
基于当前舆情数据、当前交易数据以及预训练好的异常检测模型对当前交易任务进行异常检测,得到异常检测结果。
[0165]
本公开实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的交易异常检测方法的步骤。其中,该存储介质可以是易失性或非易失的计算机可读取存储介质。
[0166]
本公开实施例还提供一种计算机程序产品,该计算机程序产品承载有程序代码,所述程序代码包括的指令可用于执行上述方法实施例中所述的交易异常检测方法的步骤,具体可参见上述方法实施例,在此不再赘述。
[0167]
其中,上述计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(software development kit,sdk)等等。
[0168]
本技术中的各个实施方式均采用递进的方式描述,各个实施方式之间相同相似的部分互相参见即可,每个实施方式重点说明的都是与其他实施方式的不同之处。尤其,对于装置、设备和计算机可读存储介质实施方式而言,由于其基本相似于方法实施方式,所以其描述进行了简化,相关之处可参见方法实施方式的部分说明即可。
[0169]
本技术实施方式提供的装置、设备和计算机可读存储介质与方法是一一对应的,
因此,装置、设备和计算机可读存储介质也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述装置、设备和计算机可读存储介质的有益技术效果。
[0170]
本领域内的技术人员应明白,本公开的实施方式可提供为方法、装置(设备或系统)、或计算机可读存储介质。因此,本公开可采用完全硬件实施方式、完全软件实施方式、或结合软件和硬件方面的实施方式的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机可读存储介质的形式。
[0171]
本公开是参照根据本公开实施方式的方法、装置(设备或系统)、和计算机可读存储介质的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0172]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0173]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0174]
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
[0175]
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flash ram)。内存是计算机可读介质的示例。
[0176]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。此外,尽管在附图中以特定顺序描述了本公开方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。
[0177]
虽然已经参考若干具体实施方式描述了本公开的精神和原理,但是应该理解,本
公开并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本公开旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

技术特征:
1.一种交易异常检测方法,其特征在于,包括:获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。2.根据权利要求1所述的方法,其特征在于,在所述异常检测结果包括检测分值的情况下,所述基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果,包括:基于所述当前舆情数据和所述当前交易数据对所述当前交易任务进行至少一个增益赋值,确定赋值后的增益系数;以及,基于所述预训练好的异常检测模型对所述当前交易数据进行异常检测,确定初始检测分值;基于所述增益系数对所述初始检测分值进行更新,得到更新后的检测分值。3.根据权利要求2所述的方法,其特征在于,按照如下至少一种方式对所述当前交易任务进行增益赋值:在所述当前舆情数据和所述当前交易数据属于同一个时间窗口的情况下,为所述当前交易任务赋予第一增益系数;确定所述当前舆情数据和所述当前交易数据之间的相关度,并基于所述相关度为所述当前交易任务赋予第二增益系数;在所述当前舆情数据指向所述当前交易数据所对应交易用户的风险标签的情况下,为所述当前交易任务赋予第三增益系数;确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据,并基于所述扩展交易数据以及对应的扩展舆情数据之间的相关度为所述当前交易任务赋予第四增益系数。4.根据权利要求3所述的方法,其特征在于,所述确定针对当前舆情数据所属时间窗口进行窗口扩展后的扩展交易数据以及对应的扩展舆情数据,包括:按照时间先后顺序将所述当前舆情数据所属时间窗口之前的预设数量个历史时间窗口对应的历史交易数据以及当前交易数据进行组合,得到扩展交易数据;以及,按照时间先后顺序将每个所述历史时间窗口下的历史舆情数据以及所述当前舆情数据进行组合,得到扩展舆情数据。5.根据权利要求3或4所述的方法,其特征在于,按照如下步骤确定所述扩展交易数据以及对应的扩展舆情数据之间的相关度:对所述扩展舆情数据包括的每个舆情数据进行离散化编码,确定与每个舆情数据对应的编码值,并得到与所述扩展舆情数据对应的编码序列信号;以及,从所述扩展交易数据包括的每个交易数据中提取交易特征,并得到与所述扩展交易数据对应的交易特征信号;确定所述编码序列信号与所述交易特征信号之间的信号相关度;将所述信号相关度确定为所述扩展交易数据以及对应的扩展舆情数据之间的相关度。6.根据权利要求3所述的方法,其特征在于,所述确定所述当前舆情数据和所述当前交易数据之间的相关度,包括:提取所述当前舆情数据中的当前舆情特征,以及提取所述当前交易数据中的当前交易
特征;确定所述当前舆情特征与所述当前交易特征之间的特征相关度;将所述特征相关度确定为所述当前舆情数据和所述当前交易数据之间的相关度。7.根据权利要求1所述的方法,其特征在于,所述基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,包括:将所述当前舆情数据和所述当前交易数据进行数据对齐,得到对齐后的当前舆情数据和当前交易数据;基于所述对齐后的当前舆情数据和当前交易数据、以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。8.根据权利要求7所述的方法,其特征在于,所述将所述当前舆情数据和所述当前交易数据进行数据对齐,包括:基于预设特征框架对所述当前交易数据进行字段拆分,得到拆分后的多个交易特征字段;以及针对所述当前舆情数据进行语义识别,并从识别后的当前舆情数据中确定多个舆情字段内容;针对每个交易特征字段,从多个舆情字段内容中确定与所述交易特征字段匹配的舆情字段内容;基于每个交易特征字段匹配的舆情字段内容进行数据对齐。9.根据权利要求1所述的方法,其特征在于,按照如下步骤对异常检测模型进行预训练:获取多条历史交易数据以及与每条历史交易数据对应的风险标签;将所述多条历史交易数据作为所述预训练的异常检测模型的输入数据,将与每条历史交易数据对应的风险标签作为所述预训练的异常检测模型的输出结果的监督数据,对所述异常检测模型进行预训练,得到预训练好的异常检测模型。10.一种交易异常检测装置,其特征在于,包括:获取模块,用于获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;检测模块,用于基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。11.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至9任一所述的交易异常检测方法。12.一种计算机可读存储介质,其特征在于,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至9任一所述的交易异常检测方法。

技术总结
本公开提供了一种交易异常检测方法、装置、电子设备及存储介质,其中,该方法包括:获取针对当前交易任务的当前舆情数据、当前交易数据、以及基于历史交易数据预训练好的异常检测模型;基于所述当前舆情数据、所述当前交易数据以及所述预训练好的异常检测模型对所述当前交易任务进行异常检测,得到异常检测结果。本公开在进行交易异常检测的过程中,不仅参考了当前交易数据,还参考了具有实时和准实时价值的舆情数据,这能够更为准确的挖掘出交易过程中存在的异常行为,及时的为交易用户提供更为安全性的交易服务。供更为安全性的交易服务。供更为安全性的交易服务。


技术研发人员:汤韬 赵金涛 杨燕明 高鹏飞 郑建宾 艾博轩
受保护的技术使用者:中国银联股份有限公司
技术研发日:2022.08.05
技术公布日:2022/12/1
转载请注明原文地址: https://bbs.8miu.com/read-334390.html

最新回复(0)