本发明涉及金融欺诈行为的识别方法,具体讲是基于互联网数据的金融欺诈行为的识别方法。
背景技术:
在合规监管的当前时期,消费金融从业机构面临着新的机遇与挑战,包括如何实现从野蛮扩张阶段到稳健发展阶段的平稳过渡,如何面临正常客户消费降级及信贷客户严重多头等,都是消费金融机构不可回避的难题。基于这种行业背景,需全面把握银行风险,从而构建有效预警系统,以便减小风险,避免危机发生。
现有对金融欺诈识别的方法一般是针对欺诈后进行处理,而这样既不能预防欺诈发生,相对欺诈发生后的反应也较慢,往往造成重大的损失。也有在金融欺诈发生时,通过识别身份方面做欺诈行为识别、通过识别用户的指纹等信息,也能有效的识别出部分欺诈行为。但上述的两种方式都不能对突发的薅羊毛式的黑产进行识别,当系统出现突发问题或者其他漏洞时,不法分子借助系统漏洞对系统进行攻击,往往会造成很大的损失。
技术实现要素:
本发明提供了一种基于互联网数据的金融欺诈行为的识别方法,通过对互联网上存在的欺诈行为进行监控,及时的对网络社区或论坛中存在的中介攻击、黑产攻击等进行预警。
本发明基于互联网数据的金融欺诈行为的识别方法,包括:
a.对互联网上的数据进行实时采集,至少包括新闻门户网站、金融论坛和金融社区的数据;
b.对采集的数据进行清洗,将异构多源的脏数据进行归一化处理,得到结构化数据;所述的结构化数据即为关系模型数据。
c.通过基于深度学习的情感分析方法,识别出所述结构化数据中的负面舆情。传统的情感分析技术是使用svm、crf等传统机器学习算法根据手工标注情感特征对文本情感进行分析,但是有监督学习依赖于大量人工标注的数据,使得基于有监督学习的系统需要付出很高的标注代价。而基于深度学习的情感分析方法,是采用递归神经网络来发现与任务相关的特征,避免依赖于具体任务的人工特征设计,并根据句子词语间前后的关联性引入情感极性转移模型加强对文本关联性的捕获。基于深度学习的方法在性能上与当前采用手工标注情感特征的方法相当,但节省了大量人工标注的工作量。在现有技术中,基于深度学习的情感分析方法已有大量的公开文献,例如专利申请号为201711417352.7、201811617266.5、201810290094.9等多件公开专利申请文件,并且基于深度学习也是一种成熟的情感分析方式,该方法不是本发明的创新点所在,在此不做详述。
d.根据配置信息计算舆情指数,实现了不同类型的舆情指数的计算,如欺诈攻击指数、平台暴雷指数、黑产动态指数等;
e.根据舆情指数识别互联网上的金融欺诈行为,并进行预警,将该金融欺诈行为通知给相关管理人员,从而采取适当手段,及时制止欺诈行为的发生。
本发明的识别方法是通过对外部爬取公开的互联网数据来进行实时监控,并生成对应的舆情指数,当舆情指数异常时进行实时预警通知,实现了黑产攻击识别、暴雷舆情监控、欺诈攻击指数计算等功能。通过实时预警不仅能够提前预知风险,更能够提前采取措施,调整策略,将损失降至最低。
进一步的,步骤a中在对互联网上的数据进行实时采集时,先对互联网上的动态网页进行分布式抓取,在抓取时,由分布式架构中的主节点负责调度,从节点负责抓取;然后对抓取得到的html代码进行结构化数据提取,将半结构化的html代码转化为需要的结构化数据。其中半结构化数据为非关系模型的、有基本固定结构模式的数据。通过分布式架构能够提升抓取速度,并且还支持水平扩展,由此快速定位不同网站的字段信息,根据不同来源提取不同的信息,最终保存至关系型数据库中。
进一步的,所述的对动态网页分布式抓取是通过js引擎渲染动态网页,从而获取最终展现页面的html代码。
进一步的,步骤b中在进行数据清洗时,将非结构化数据转化为结构化数据,并进行数据去重和数据清洗。非结构化数据指的是没有固定模式的数据,如word、pdf、ppt、exl,各种格式的图片、视频等。
具体的,所述的数据去重是通过基于bloomfilter(一种二进制向量数据结构)的数据结构实现基于url的去重;所述的数据清洗是基于配置,将json格式数据转换为格式化的数据。json数据是一种按照特定格式组装的数据结构,通过这个数据结构可以很好的将数据最小化,将有用的数据尽可能的压缩,但是想查看json数据格式需要对数据进行格式化,通过格式化之后,才可以对数据进行查看。
进一步的,步骤d包括:
d1.设置与金融欺诈相关的关键词列表,当采集的数据中有与关键词列表中的关键词相同的,标记出该数据对应的文章;
d2.计算当前文章的舆情指数:当前文章的舆情指数=截距 评分,所述的截距为当前文章通过步骤c的基于深度学习的情感分析方法得到的情感指数,评分为将当前文章的各种属性经预定的计算方式得到的数值;
d3.计算平台的舆情指数:在设定的时间范围内循环的计算平台的舆情指数,计算该时间范围内在该平台搜索到的n篇文章各自的舆情指数ai,i为文章编号,i≤n,舆情指数ai最高的文章设置权重为n,舆情指数ai最低的文章设置权重为1,则平台的舆情指数=sum([n-top(ai)]×ai)/(1 2 … n),其中top(ai)为当前第i篇文章的舆情指数ai的排序值。
在此基础上,步骤e中,当单篇文章的舆情指数或平台的舆情指数达到设定阈值后,通过短信和/或邮件方式通知相关管理人员。
本发明基于互联网数据的金融欺诈行为的识别方法能够在不优化智能化配置的前提下,对互联网上的公开网站、社区、论坛等进行实时监控,对其中的金融欺诈行为第一时间进行预警,并且通过配置监控的内容,能够对不同领域、不同平台进行监控和金融欺诈行为的识别。
以下结合实施例的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。在不脱离本发明上述技术思想情况下,根据本领域普通技术知识和惯用手段做出的各种替换或变更,均应包括在本发明的范围内。
附图说明
图1为本发明基于互联网数据的金融欺诈行为的识别方法的流程图。
图2为对互联网上的数据进行实时采集的流程图。
具体实施方式
如图1所示本发明基于互联网数据的金融欺诈行为的识别方法,包括:
a.如图2所示,通过网络爬虫算法对互联网上的数据进行实时采集,至少包括新闻门户网站、金融论坛和金融社区的数据。在对数据采集时,通过js引擎渲染动态网页来对互联网上的动态网页进行分布式抓取,从而获取最终展现页面的html代码。在抓取时,由分布式架构中的主节点负责调度,从节点负责抓取。然后对抓取得到的html代码进行结构化数据提取,将半结构化的html代码转化为需要的结构化数据,得到web页面源文件及对应的url。通过分布式架构能够提升抓取速度,并且还支持水平扩展,由此快速定位不同网站的字段信息,根据不同来源提取不同的信息,最终保存至关系型数据库中。
b.对采集的数据进行清洗,将异构多源的脏数据进行归一化处理,将非结构化数据转化为结构化数据,并进行数据去重和数据清洗。其中数据去重是通过基于bloomfilter(一种二进制向量数据结构)的数据结构实现基于url的去重。数据清洗是基于配置将json格式数据转换为格式化的数据。
c.由于在金融风控领域中,对自然语言处理最重要的应用场景是舆情分析。通过文本聚类和情感分析等技术对文本进行分析挖掘,实现负面舆情的发现和跟踪。负面舆情分析识别时需要考虑规模和负面程度两方面,需要找出在一段时间内上升较快,或参与规模较大的负面舆情。规模可以通过文本聚类后的相关网页数来判断,负面程度通过对文本的情感分析技术识别。
通过基于深度学习的情感分析方法,识别出所述结构化数据中的负面舆情。基于深度学习的情感分析方法,是采用递归神经网络来发现与任务相关的特征,避免依赖于具体任务的人工特征设计,并根据句子词语间前后的关联性引入情感极性转移模型加强对文本关联性的捕获。基于深度学习的方法在性能上与当前采用手工标注情感特征的方法相当,但节省了大量人工标注的工作量。在现有技术中,基于深度学习的情感分析方法已有大量的公开文献,例如专利申请号为201711417352.7、201811617266.5、201810290094.9等多件公开专利申请文件,并且基于深度学习也是一种成熟的情感分析方式,该方法不是本发明的创新点所在,在此不做详述。
d.根据配置信息计算舆情指数,实现了不同类型的舆情指数的计算,如欺诈攻击指数、平台暴雷指数、黑产动态指数等。具体包括:
d1.设置与金融欺诈相关的关键词列表,当采集的数据中有与关键词列表中的关键词相同的,标记出该数据对应的文章。关键词列表例如为:
“(好人贷||xx银行||全国第三家互联网银行||滴水贷||今日头条||借呗||支付宝||微粒贷||趣店大额||来分期||季得利||好事贷)&&(口子||撸||套路||下款||大额借款||盗用||冒用||套现||转让||bug||漏洞||投诉||薅||羊毛||失联||高利贷||撸钱||洗钱||诈骗||中介||挤兑||伪冒||非本人交易||没有借款||被骗||骗贷||套路贷||诱骗||投诉||丢失身份证||身份证丢失||银行卡丢失||丢失银行卡||被盗||新型诈骗||被点名||砍头息||714高炮||高额利息||撞库盗号||中介欺诈||赌博洗钱||撞库||密码泄露||破解密码||密码破解||拖库)”。
d2.计算当前文章的舆情指数:当前文章的舆情指数=截距 评分,所述的截距为当前文章通过步骤c的基于深度学习的情感分析方法得到的情感指数,评分为将当前文章的各种属性经预定的计算方式得到的数值。其中属性包括:阅读量、评论量、类型(原创或转载)、该文章发布距今天数等,以及文章中包含关键词的个数。计算当前文章的舆情指数为:
a.例如,该文中包含关键字“口子”的个数为n,当n<1,“口子”项得分=0;n=1,“口子”项得分=20;n>=2,“口子”项得分=100;
b.是否包含关键字“撸”的个数为n,当n>=1,“撸”项得分=100;n<1,“撸”项得分=0分。
c.该文的访问量为n,当n<10,该项得分=5分;100>n>=10,该项得分=20分;1000>n>=100,该项得分=50;n>=1000,该项得分=100;
d.该文的评论量为n,当n<10,该项得分=5分;n>=10,该项得分=100分;
e.该文发布距今天数为n,当n<2,该项得分=100分;7>n>=2,该项得分=70;n>=7,该项得分=20分。
在计算时:
(1)可以定义多个关键词,每定义一个关键词,则需要统计当前文章中包含这个关键词的个数。
(2)截距限制为(0,30)分,最高分为30分;
(3)评分限制为(0,70)分,最高分为70分;
d3.计算平台的舆情指数:每天每小时生成一个平台的舆情指数。计算每小时内在该平台搜索到的n篇文章各自的舆情指数ai,i为文章编号,i≤n,舆情指数ai最高的文章设置权重为n,舆情指数ai最低的文章设置权重为1,则平台的舆情指数=sum([n-top(ai)]×ai)/(1 2 … n),其中top(ai)为当前第i篇文章的舆情指数ai的排序值。
e.根据舆情指数识别互联网上的金融欺诈行为,当单篇文章的舆情指数、评分、情感指数其中之一达到设定阈值,或平台的舆情指数达到阈值,或平台的舆情指数异常,如:当前这小时平台的舆情指数>昨天时平台的舆情指数最大值×1.5;当前这小时平台的舆情指数>前7日时平台的舆情指数的平均值×1.5,均通过短信和/或邮件方式通知相关管理人员,从而采取适当手段,及时制止欺诈行为的发生。
针对单篇文章,报警内容包括:时间,报警内容和文章链接,例如:【xx银行】[2019-01-1812:39:40][金融欺诈攻击提示:金融欺诈攻击指数为80分]https://xx.cc.com。
针对平台,报警内容包括:时间,内容,单篇文章排名前三的链接,例如:【xx银行】[2019-01-1812:39:40][金融欺诈攻击提示:金融欺诈攻击指数为80分]https://xx.cc.com,https://pp.mm.com,https://gg.uu.com。
1.基于互联网数据的金融欺诈行为的识别方法,其特征包括:
a.对互联网上的数据进行实时采集,至少包括新闻门户网站、金融论坛和金融社区的数据;
b.对采集的数据进行清洗,将异构多源的脏数据进行归一化处理,得到结构化数据;
c.通过基于深度学习的情感分析方法,识别出所述结构化数据中的负面舆情;
d.根据配置信息计算舆情指数;
e.根据舆情指数识别互联网上的金融欺诈行为,并进行预警。
2.如权利要求1所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:步骤a中在对互联网上的数据进行实时采集时,先对互联网上的动态网页进行分布式抓取,在抓取时,由分布式架构中的主节点负责调度,从节点负责抓取;然后对抓取得到的html代码进行结构化数据提取,将半结构化的html代码转化为需要的结构化数据。
3.如权利要求2所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:所述的对动态网页分布式抓取是通过js引擎渲染动态网页,从而获取最终展现页面的html代码。
4.如权利要求1所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:步骤b中在进行数据清洗时,将非结构化数据转化为结构化数据,并进行数据去重和数据清洗。
5.如权利要求4所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:所述的数据去重是通过基于bloomfilter的数据结构实现基于url的去重;所述的数据清洗是基于配置,将json格式数据转换为格式化的数据。
6.如权利要求1所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:步骤d包括:
d1.设置与金融欺诈相关的关键词列表,当采集的数据中有与关键词列表中的关键词相同的,标记出该数据对应的文章;
d2.计算当前文章的舆情指数:当前文章的舆情指数=截距 评分,所述的截距为当前文章通过步骤c的基于深度学习的情感分析方法得到的情感指数,评分为将当前文章的各种属性经预定的计算方式得到的数值;
d3.计算平台的舆情指数:在设定的时间范围内循环的计算平台的舆情指数,计算该时间范围内在该平台搜索到的n篇文章各自的舆情指数ai,i为文章编号,i≤n,舆情指数ai最高的文章设置权重为n,舆情指数ai最低的文章设置权重为1,则平台的舆情指数=sum([n-top(ai)]×ai)/(1 2 … n),其中top(ai)为当前第i篇文章的舆情指数ai的排序值。
7.如权利要求6所述的基于互联网数据的金融欺诈行为的识别方法,其特征为:步骤e中,当单篇文章的舆情指数或平台的舆情指数达到设定阈值后,通过短信和/或邮件方式通知相关管理人员。
技术总结