风险识别方法、电子装置及存储介质与流程

专利2022-06-29  82


本发明涉及计算机技术领域,尤其涉及一种风险识别方法、电子装置及计算机可读存储介质。



背景技术:

随着经济发展,车辆在用户的生活中已经成为不可或缺的一部分,为了控制风险,越来越多的用户购买车险。而对于车险企业,在理赔过程中,一般是根据交通事故责任认定书的内容判断出险原因从而确定出险风险类型。然而,传统的判断出险风险类型是通过工作人员人为判断的,一方面,耗时很大,另一方面,准确率得不到保证。且现有技术中暂未对出险风险类型进行深入的数据挖掘与分析。

因此,亟需提供一种能基于已有信息自动、准确识别出险风险类型的方法。



技术实现要素:

本发明提供一种风险识别方法、电子装置及计算机可读存储介质,其主要目的在于提高风险识别的准确性。

为实现上述目的,本发明提供一种风险识别方法,该方法包括:

步骤s1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据;

步骤s2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片;

步骤s3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息;

步骤s4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;

步骤s5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;及

步骤s6,若是,则根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

此外,为实现上述目的,本发明还提供一种电子装置,该装置包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的风险识别程序程序,该程序被所述处理器执行时实现如上所述的风险识别方法的任意步骤。

此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有风险识别程序,该程序被处理器执行时实现如上所述的风险识别方法的任意步骤。

相较于现有技术,本发明提出的风险识别方法、电子装置及计算机可读存储介质,通过对预设类型待识别风险图片进行和别、切词及词频统计确定其对应的关键词集合,将关键词集合与预设的预设风险类型及目标关键词集合的映射数据进行匹配分析,根据匹配分析结果自动识别待识别风险图片的风险类别;在对待识别风险图片进行ocr识别确定文本信息过程中,通过利用两个模型进行识别,并根据两个模型的识别结果分析并确定最终的文本信息,提高了文本信息的准确率,为准确识别关键词奠定基础;通过采用基于词频统计的关键词提取规则确定文本信息的关键词,相较于一般的关键词提取规则,提高了关键词提取的准确性,提高后续识别风险类别的客观性、准确性。

附图说明

图1为本发明电子装置较佳实施例的示意图;

图2为图1中风险识别程序的程序模块示意图;

图3为本发明风险识别方法较佳实施例的流程图。

本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。

具体实施方式

应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

本发明提供一种风险识别方法,该方法应用于一种电子装置1。参照图1所示,为本发明电子装置1较佳实施例的示意图。

在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。

该电子装置1包括存储器11、处理器12,通信总线13,以及网络接口14。

其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如风险识别程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。

处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如风险识别程序10等。

通信总线13用于实现这些组件之间的连接通信。

网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该电子装置1与其他电子设备(例如,客户端)之间建立通信连接。

图1仅示出了具有组件11-14的电子装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。

可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。

可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的客户界面。

在图1所示的装置实施例中,存储器11中存储有风险识别程序10。处理器12执行存储器11中存储的风险识别程序10时实现如下步骤:步骤a1-步骤a6。

步骤a1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据。

本实施例以电子装置1为执行主体对本方案进行说明。

上述指定历史风险信息为某金融机构已出险(例如,车险)数据对应的历史事故责任认定书,上述事故责任认定书以图片形式存储。

上述历史风险类型为历史事故责任认定书对应的出险原因,包括:人、车、环境。每一个大类还包括多个细化出险原因,例如:

1)车:刹车灯/转向灯故障、轮胎爆胎/打滑、线路老化导致起火、制动不灵及其他;

2)环境:道路标识不清、道路施工、道路视角视野受限、恶劣天气、机动车/非机动车并行路段、路面崎岖不平、人为破坏、人为损伤、雨雪导致路面湿滑/阻挡视线/导致通行困难、自然灾害及其他;

3)人:不良驾驶习惯(变道不打转向灯/鸣喇叭、不注意观察、跟车过近、速度快、危险驾驶、违规停车)、分心(摆动车上设备/捡东西、开车使用手机、与车上人员聊天及其他)、技术不佳、身心状态不佳(精神状态不佳、突发健康状况及其他)及其他。

通过对历史风险图片进行ocr识别、关键词提取,对历史风险图片对应的关键词及历史风险类型进行相关性分析,得到预设风险类型与目标关键词集合的映射数据,并将其保存至预设存储路径中。

需要说明的是,上述映射数据中,一个风险类型包括至少一个目标关键词集合。

步骤a2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片。

用户通过客户端向电子装置1发出携带待识别风险图片的风险类型识别请求。

在本实施例中,上述待识别风险图片为一张暂未出险理赔的交通事故责任认定书。

步骤a3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息。

为了提高ocr识别的准确性,所述对所述待识别风险图片进行ocr识别,包括:

将所述待识别风险图片分别输入第一ocr识别模型及第二ocr识别模型中,得到第一识别结果及第二识别结果;

获取所述第一识别结果中的第一置信度及所述第二识别结果中的第二置信度;

当所述第一置信度大于所述第二置信度时,选择所述第一识别结果中的文本信息作为所述待识别风险图片对应的文本信息;或

当所述第二置信度大于所述第一置信度时,选择所述第二识别结果中的文本信息作为所述待识别风险图片对应的文本信息。

其中,第一ocr识别模型及第二ocr识别模型在训练过程中样本数据相互独立,使得其各自识别的置信度也是相对独立的,通过选择置信度高的文本信息,可为后续关键词的准确提取奠定基础。

步骤a4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合。

可以理解的是,交通事故责任认定书中对本次交通事故进行了详细描述,因此可从交通事故责任认定书对应的文本信息中提取出关键信息以识别未来可能的风险类型。

在本实施例中,所述基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合步骤包括:

对所述待识别风险图片对应的文本信息进行切词,得到所述待识别风险图片对应的切词结果;及

基于所述切词结果进行词频统计,并根据词频统计结果确定所述切词结果对应的关键词集合。

需要说明的是,在进行切词前,还包括对所述历史文本信息进行分段/分句等。切词后,还需要对切词结果进行去停用词等操作。

本实施例采用训练好的隐马尔可夫模型(hmm)作为切词模型对所述各历史事故责任认定书对应的文本信息进行切词。以历史文本信息p为例,依次将历史文本信息p的每一句文本信息输入切词模型中,得到每一句文本信息对应的状态序列(状态序列中包括该句子中每个字的状态值),根据所述状态序列确定每一句文本信息对应的切词结果。

例如,输入切词模型的句子(观察值序列)为“小明硕士毕业于中国科学院计算所”,切词模型输出的状态序列为:bebebmebebmebes,根据这个状态序列进行切词:be/be/bme/be/bme/be/s,所以切词结果为:“小明/硕士/毕业于/中国/科学院/计算/所”。其中,状态值集合为(b,m,e,s):{b:begin,m:middle,e:end,s:single}。分别代表每个状态代表的是该字在词语中的位置,b代表该字是词语中的起始字,m代表是词语中的中间字,e代表是词语中的结束字,s则代表是单字成词。观察值集合为就是所有汉字(东南西北你我他…),甚至包括标点符号所组成的集合。

在其他实施例中,还可以利用其他分词工具进行分词,例如,jieba、word2vec等。

本实施例采用基于词频统计的关键词提取方法确定关键词。具体地,利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率tf-iwf算法,按权值排序得到关键词。相较于传统中文关键词提取方法,本实施例可以解决传统方法中因对相似度高的词的不重视而导致关键词提取精度不高的问题,使得提取的关键词集合能较好体现文本信息的内容。

上述识别出的关键词集合中包括事故发生地点、周围环境信息、事故经过、出险场景(追尾、倒车、超速等)、违反的交通条例和责任认定(三者等)等信息。

步骤a5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合。

在本实施例中,判断映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合的条件为:若待识别风险图片对应的关键词集合包含某一个目标关键词集合c,则判断该目标关键词集合c与待识别风险图片对应的关键词集合匹配;若待识别风险图片对应的关键词集合不包含任意一个目标关键词集合,则判断映射数据中不存在与待识别风险图片对应的关键词集合匹配的目标关键词集合。

步骤a6,若是,则根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

例如,上述映射数据中包括:风险类型r1(人)对应目标关键词集合r11、r12,…;风险类型r2(车)对应目标关键词集合r21、r22、r23,…;风险类型r3(环境)对应目标关键词集合r31、r32、r33、r34,…。假设与待识别风险图片对应的目标关键词集合r34,则将目标关键词集合r34对应的风险类型r3(环境)作为待识别图片对应的风险类别。

上述实施例提出的电子装置1,通过对预设类型待识别风险图片进行和别、切词及词频统计确定其对应的关键词集合,将关键词集合与预设的预设风险类型及目标关键词集合的映射数据进行匹配分析,根据匹配分析结果自动识别待识别风险图片的风险类别;在对待识别风险图片进行ocr识别确定文本信息过程中,通过利用两个模型进行识别,并根据两个模型的识别结果分析并确定最终的文本信息,提高了文本信息的准确率,为准确识别关键词奠定基础;通过采用基于词频统计的关键词提取规则确定文本信息的关键词,相较于一般的关键词提取规则,提高了关键词提取的准确性,提高后续识别风险类别的客观性、准确性。

在其他实施例中,所述指定历史风险图片为历史事故责任认定书,所述根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据,包括:

获取所述各历史风险图片,分别对所述各历史风险图片进行ocr识别,确定所述各历史风险图片对应的历史文本信息;

基于预设关键词提取规则从所述各历史风险图片对应的历史文本信息提取出所述各历史风险图片对应的历史文本信息对应的关键词集合;

根据所述各历史风险图片对应的历史风险类型确定所述各历史文本信息对应的关键词集合与历史风险类型的对应关系,并利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合;及

基于所述目标关键词集合及其对应的历史风险类型生成所述预设风险类型与目标关键词集合的映射数据,并将所述映射数据保存至预设存储路径中。

上述预设关联分析算法为apriori算法,该算法为‘一个先验’算法,通过该算法我们可以对数据集做关联分析。所述利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合,包括:

按照各历史风险类型及对应的关键词集合生成原始数据集;

采用频繁项集挖掘算法对所述原始数据集进行挖掘,获得所述原始数据集对应的所有的局部频繁项集;

扫描所述原始数据集,对应计算获得的所述局部频繁项集在所述原始数据集上的置信度;

对获得的所述局部频繁项集进行过滤,获取置信度大于或等于第一预设阈值的各局部频繁项集;及

基于所述置信度大于或等于第一预设阈值的各局部频繁项集生成目标关键词集合。

例如,第一预设阈值可以设置为60%。通过以上算法对历史数据进行筛选过滤,使得最终确定的目标关键词更符合实际情况,更客观更准确,从而使确定的映射数据更准确。

上述ocr识别及预设关键词提取规则与上述实施例中大致相同,这里不做赘述。

在其他实施例中,所述判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合,包括:

分别计算所述待识别风险图片的关键词集合与所述映射数据中各目标关键词集合的相似度;及

基于相似度对各目标关键词集合进行排序,判断相似度大于或等于第二预设阈值的目标关键词集合与所述待识别风险图片的关键词集合匹配。

本实施例中的相似度计算可以是余弦相似度算法,也可以是wordmover’sdistance(wmd)算法。

判断最高相似度是否超过第二预设阈值,若是,则判断所述最高相似度对应的目标关键词集合与所述待分析责任认定书的关键词集合匹配。

在上述映射数据中,同一个风险类型对应一个或多个目标关键词集合。可以理解的是,同一个风险类型对应的不同目标关键词集合的区别不会太大,故,判断与待识别风险图片的关键词集合匹配的目标关键词集合还可以是:取相似度排序靠前的预设数量(例如,3个)的目标关键词集合作为遇待识别风险图片匹配的目标关键词集合。

在其他实施例中,当存在多个与所述待识别风险图片的关键词集合匹配、且对应不同风险类型的目标关键词集合时,所述根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型,还包括:

对所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合按照相似度从高到低的顺序进行排序,根据排序确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的权重;

基于权重及相似度分别计算每个所述与所述待识别风险图片的关键词集合匹配的目标关键词集合的得分;及

确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的不同风险类型,对所述不同出险原因进行评分,选择评分最高的风险类型作为所述待识别风险图片对应的风险类型。

例如,确定匹配的目标关键词集合包括:r11、r22、r23,其对应的风险类型分别为:r1、r2、r2,其对应的相似度分别为:s1、s2、s3,相似度越高,权重越高,分别确定各关键词集合对应的权重α1、α2、α3,计算各关键词集合对应的得分,si*αi。然后分别计算不同风险类型的得分,sr1=s1*α1,sr2=s2*α2 s3*α3。对比sr1和sr2的大小,若sr1>sr2,则将风险类型r1作为待识别风险图片对应的风险类型,否则,将风险类型r2作为待识别风险图片对应的风险类型。

可选地,在其他的实施例中,风险识别程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。例如,参照图2所示,为图1中风险识别程序10的程序模块示意图,该实施例中,风险识别程序10可以被分割为模块110-160,所述模块110-160所实现的功能或操作步骤均与上文类似,此处不再详述,示例性地,例如其中:

分析模块110,用于获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据;

接收模块120,用于接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片;

第一识别模块130,用于对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息;

提取模块140,用于基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;

判断模块150,用于获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;及

第二识别模块160,用于根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

此外,本发明还提供一种风险识别方法。参照图3所示,为本发明风险识别方法较佳实施例的流程图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。

在本实施例中,风险识别方法包括步骤s1-s6。

步骤s1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据。

本实施例以电子装置1为执行主体对本方案进行说明。

上述指定历史风险信息为某金融机构已出险(例如,车险)数据对应的历史事故责任认定书,上述事故责任认定书以图片形式存储。

上述历史风险类型为历史事故责任认定书对应的出险原因,包括:人、车、环境。每一个大类还包括多个细化出险原因。

通过对历史风险图片进行ocr识别、关键词提取,对历史风险图片对应的关键词及历史风险类型进行相关性分析,得到预设风险类型与目标关键词集合的映射数据,并将其保存至预设存储路径中。

需要说明的是,上述映射数据中,一个风险类型包括至少一个目标关键词集合。

步骤s2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片。

用户通过客户端向电子装置1发出携带待识别风险图片的风险类型识别请求。

在本实施例中,上述待识别风险图片为一张暂未出险理赔的交通事故责任认定书。

步骤s3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息。

为了提高ocr识别的准确性,所述对所述待识别风险图片进行ocr识别,包括:

将所述待识别风险图片分别输入第一ocr识别模型及第二ocr识别模型中,得到第一识别结果及第二识别结果;

获取所述第一识别结果中的第一置信度及所述第二识别结果中的第二置信度;

当所述第一置信度大于所述第二置信度时,选择所述第一识别结果中的文本信息作为所述待识别风险图片对应的文本信息;或

当所述第二置信度大于所述第一置信度时,选择所述第二识别结果中的文本信息作为所述待识别风险图片对应的文本信息。

其中,第一ocr识别模型及第二ocr识别模型在训练过程中样本数据相互独立,使得其各自识别的置信度也是相对独立的,通过选择置信度高的文本信息,可为后续关键词的准确提取奠定基础。

步骤s4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合。

可以理解的是,交通事故责任认定书中对本次交通事故进行了详细描述,因此可从交通事故责任认定书对应的文本信息中提取出关键信息以识别未来可能的风险类型。

在本实施例中,所述基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合步骤包括:

对所述待识别风险图片对应的文本信息进行切词,得到所述待识别风险图片对应的切词结果;及

基于所述切词结果进行词频统计,并根据词频统计结果确定所述切词结果对应的关键词集合。

需要说明的是,在进行切词前,还包括对所述历史文本信息进行分段/分句等。切词后,还需要对切词结果进行去停用词等操作。

本实施例采用训练好的隐马尔可夫模型(hmm)作为切词模型对所述各历史事故责任认定书对应的文本信息进行切词。以历史文本信息p为例,依次将历史文本信息p的每一句文本信息输入切词模型中,得到每一句文本信息对应的状态序列(状态序列中包括该句子中每个字的状态值),根据所述状态序列确定每一句文本信息对应的切词结果。

例如,输入切词模型的句子(观察值序列)为“小明硕士毕业于中国科学院计算所”,切词模型输出的状态序列为:bebebmebebmebes,根据这个状态序列进行切词:be/be/bme/be/bme/be/s,所以切词结果为:“小明/硕士/毕业于/中国/科学院/计算/所”。其中,状态值集合为(b,m,e,s):{b:begin,m:middle,e:end,s:single}。分别代表每个状态代表的是该字在词语中的位置,b代表该字是词语中的起始字,m代表是词语中的中间字,e代表是词语中的结束字,s则代表是单字成词。观察值集合为就是所有汉字(东南西北你我他…),甚至包括标点符号所组成的集合。

在其他实施例中,还可以利用其他分词工具进行分词,例如,jieba、word2vec等。

本实施例采用基于词频统计的关键词提取方法确定关键词。具体地,利用段落标注技术,对处于不同位置的词语给予不同的位置权重,对分词结果中词频较高的同词性词语进行词语相似度计算,合并相似度较高的词语,通过词语逆频率tf-iwf算法,按权值排序得到关键词。相较于传统中文关键词提取方法,本实施例可以解决传统方法中因对相似度高的词的不重视而导致关键词提取精度不高的问题,使得提取的关键词集合能较好体现文本信息的内容。

上述识别出的关键词集合中包括事故发生地点、周围环境信息、事故经过、出险场景(追尾、倒车、超速等)、违反的交通条例和责任认定(三者等)等信息。

步骤s5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合。

在本实施例中,判断映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合的条件为:若待识别风险图片对应的关键词集合包含某一个目标关键词集合c,则判断该目标关键词集合c与待识别风险图片对应的关键词集合匹配;若待识别风险图片对应的关键词集合不包含任意一个目标关键词集合,则判断映射数据中不存在与待识别风险图片对应的关键词集合匹配的目标关键词集合。

步骤s6,若是,则根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

例如,上述映射数据中包括:风险类型r1(人)对应目标关键词集合r11、r12,…;风险类型r2(车)对应目标关键词集合r21、r22、r23,…;风险类型r3(环境)对应目标关键词集合r31、r32、r33、r34,…。假设与待识别风险图片对应的目标关键词集合r34,则将目标关键词集合r34对应的风险类型r3(环境)作为待识别图片对应的风险类别。

上述实施例提出的风险识别方法,通过对预设类型待识别风险图片进行和别、切词及词频统计确定其对应的关键词集合,将关键词集合与预设的预设风险类型及目标关键词集合的映射数据进行匹配分析,根据匹配分析结果自动识别待识别风险图片的风险类别;在对待识别风险图片进行ocr识别确定文本信息过程中,通过利用两个模型进行识别,并根据两个模型的识别结果分析并确定最终的文本信息,提高了文本信息的准确率,为准确识别关键词奠定基础;通过采用基于词频统计的关键词提取规则确定文本信息的关键词,相较于一般的关键词提取规则,提高了关键词提取的准确性,提高后续识别风险类别的客观性、准确性。

在其他实施例中,所述根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据,包括:

获取所述各历史风险图片,分别对所述各历史风险图片进行ocr识别,确定所述各历史风险图片对应的历史文本信息;

基于预设关键词提取规则从所述各历史风险图片对应的历史文本信息提取出所述各历史风险图片对应的历史文本信息对应的关键词集合;

根据所述各历史风险图片对应的历史风险类型确定所述各历史文本信息对应的关键词集合与历史风险类型的对应关系,并利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合;及

基于所述目标关键词集合及其对应的历史风险类型生成所述预设风险类型与目标关键词集合的映射数据,并将所述映射数据保存至预设存储路径中。

上述预设关联分析算法为apriori算法,该算法为‘一个先验’算法,通过该算法我们可以对数据集做关联分析。所述利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合,包括:

按照各历史风险类型及对应的关键词集合生成原始数据集;

采用频繁项集挖掘算法对所述原始数据集进行挖掘,获得所述原始数据集对应的所有的局部频繁项集;

扫描所述原始数据集,对应计算获得的所述局部频繁项集在所述原始数据集上的置信度;

对获得的所述局部频繁项集进行过滤,获取置信度大于或等于第一预设阈值的各局部频繁项集;及

基于所述置信度大于或等于第一预设阈值的各局部频繁项集生成目标关键词集合。

例如,第一预设阈值可以设置为60%。通过以上算法对历史数据进行筛选过滤,使得最终确定的目标关键词更符合实际情况,更客观更准确,从而使确定的映射数据更准确。

上述ocr识别及预设关键词提取规则与上述实施例中大致相同,这里不做赘述。

在其他实施例中,所述判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合,包括:

分别计算所述待识别风险图片的关键词集合与所述映射数据中各目标关键词集合的相似度;

基于相似度对各目标关键词集合进行排序,判断相似度大于或等于第二预设阈值的目标关键词集合与所述待识别风险图片的关键词集合匹配。

本实施例中的相似度计算可以是余弦相似度算法,也可以是wordmover’sdistance(wmd)算法。

判断最高相似度是否超过第二预设阈值,若是,则判断所述最高相似度对应的目标关键词集合与所述待分析责任认定书的关键词集合匹配。

在上述映射数据中,同一个风险类型对应一个或多个目标关键词集合。可以理解的是,同一个风险类型对应的不同目标关键词集合的区别不会太大,故,判断与待识别风险图片的关键词集合匹配的目标关键词集合还可以是:取相似度排序靠前的预设数量(例如,3个)的目标关键词集合作为遇待识别风险图片匹配的目标关键词集合。

在其他实施例中,当存在多个与所述待识别风险图片的关键词集合匹配、且对应不同风险类型的目标关键词集合时,所述根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型,还包括:

对所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合按照相似度从高到低的顺序进行排序,根据排序确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的权重;

基于权重及相似度分别计算每个所述与所述待识别风险图片的关键词集合匹配的目标关键词集合的得分;及

确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的不同风险类型,对所述不同出险原因进行评分,选择评分最高的风险类型作为所述待识别风险图片对应的风险类型。

例如,确定匹配的目标关键词集合包括:r11、r22、r23,其对应的风险类型分别为:r1、r2、r2,其对应的相似度分别为:s1、s2、s3,相似度越高,权重越高,分别确定各关键词集合对应的权重α1、α2、α3,计算各关键词集合对应的得分,si*αi。然后分别计算不同风险类型的得分,sr1=s1*α1,sr2=s2*α2 s3*α3。对比sr1和sr2的大小,若sr1>sr2,则将风险类型r1作为待识别风险图片对应的风险类型,否则,将风险类型r2作为待识别风险图片对应的风险类型。

此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有风险识别程序10,该程序被处理器执行时实现如下操作:

步骤a1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据;

步骤a2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片;

步骤a3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息;

步骤a4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;

步骤a5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;及

步骤a6,根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

本发明计算机可读存储介质具体实施方式与上述风险识别方法和电子装置1的具体实施方式基本相同,在此不作累述。

需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。


技术特征:

1.一种风险识别方法,应用于电子装置,其特征在于,该方法包括:

步骤s1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据;

步骤s2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片;

步骤s3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息;

步骤s4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;

步骤s5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;及

步骤s6,若是,则根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

2.如权利要求1所述的风险识别方法,其特征在于,所述对所述待识别风险图片进行ocr识别,包括:

将所述待识别风险图片分别输入第一ocr识别模型及第二ocr识别模型中,得到第一识别结果及第二识别结果;

获取所述第一识别结果中的第一置信度及所述第二识别结果中的第二置信度;

当所述第一置信度大于所述第二置信度时,选择所述第一识别结果中的文本信息作为所述待识别风险图片对应的文本信息;或

当所述第二置信度大于所述第一置信度时,选择所述第二识别结果中的文本信息作为所述待识别风险图片对应的文本信息。

3.如权利要求1所述的风险识别方法,其特征在于,所述基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合步骤包括:

对所述待识别风险图片对应的文本信息进行切词,得到所述待识别风险图片对应的切词结果;及

基于所述切词结果进行词频统计,并根据词频统计结果确定所述切词结果对应的关键词集合。

4.如权利要求1所述的风险识别方法,其特征在于,所述根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据,包括:

获取所述各历史风险图片,分别对所述各历史风险图片进行ocr识别,确定所述各历史风险图片对应的历史文本信息;

基于预设关键词提取规则从所述各历史风险图片对应的历史文本信息提取出所述各历史风险图片对应的历史文本信息对应的关键词集合;

根据所述各历史风险图片对应的历史风险类型确定所述各历史文本信息对应的关键词集合与历史风险类型的对应关系,并利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合;及

基于所述目标关键词集合及其对应的历史风险类型生成所述预设风险类型与目标关键词集合的映射数据,并将所述映射数据保存至预设存储路径中。

5.如权利要求4所述的风险识别方法,其特征在于,所述利用预设关联分析算法对所述各历史文本信息对应的关键词集合及历史风险类型进行相关性分析,根据相关性分析结果筛选出满足预设条件的目标关键词集合,包括:

按照各历史风险类型及对应的关键词集合生成原始数据集;

采用频繁项集挖掘算法对所述原始数据集进行挖掘,获得所述原始数据集对应的所有的局部频繁项集;

扫描所述原始数据集,对应计算获得的所述局部频繁项集在所述原始数据集上的置信度;

对获得的所述局部频繁项集进行过滤,获取置信度大于或等于第一预设阈值的各局部频繁项集;及

基于所述置信度大于或等于第一预设阈值的各局部频繁项集生成目标关键词集合。

6.如权利要求1所述的风险识别方法,其特征在于,所述判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合,包括:

分别计算所述待识别风险图片的关键词集合与所述映射数据中各目标关键词集合的相似度;及

基于相似度对各目标关键词集合进行排序,判断相似度大于或等于第二预设阈值的目标关键词集合与所述待识别风险图片的关键词集合匹配。

7.如权利要求6所述的风险识别方法,其特征在于,当存在多个与所述待识别风险图片的关键词集合匹配、且对应不同风险类型的目标关键词集合时,所述根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型,还包括:

对所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合按照相似度从高到低的顺序进行排序,根据排序确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的权重;

基于权重及相似度分别计算每个所述与所述待识别风险图片的关键词集合匹配的目标关键词集合的得分;及

确定所述多个与所述待识别风险图片的关键词集合匹配的目标关键词集合对应的不同风险类型,对所述不同出险原因进行评分,选择评分最高的风险类型作为所述待识别风险图片对应的风险类型。

8.一种电子装置,其特征在于,该装置包括:存储器、处理器,所述存储器上存储有可在所述处理器上运行的风险识别程序,该程序被所述处理器执行时实现如下步骤:

步骤a1,获取指定历史风险图片集中各历史风险图片及其对应的历史风险类型,根据预设分析策略分析所述各历史风险图片及历史风险类型,得到预设风险类型与目标关键词集合的映射数据;

步骤a2,接收用户通过客户端发出的风险类型识别请求,获取所述风险类型识别请求中的待识别风险图片;

步骤a3,对所述待识别风险图片进行ocr识别,得到所述待识别风险图片对应的文本信息;

步骤a4,基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;

步骤a5,获取所述预设风险类型与目标关键词集合的映射数据,判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;及

步骤a6,若是,则根据所述映射数据获取与所述待识别风险图片对应的关键词集合匹配的目标关键词集合对应的风险类型,将获取的所述风险类型作为所述待识别风险图片对应的风险类型。

9.如权利要求8所述的电子装置,其特征在于,所述判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合,包括:

分别计算所述待识别风险图片的关键词集合与所述映射数据中各目标关键词集合的相似度;及

基于相似度对各目标关键词集合进行排序,判断相似度大于或等于第二预设阈值的目标关键词集合与所述待识别风险图片的关键词集合匹配。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有风险识别程序,该程序被处理器执行时实现如权利要求1至7中任一项所述的风险识别方法的步骤。

技术总结
本发明涉及数据分析,提出一种风险识别方法,包括:基于指定历史风险图片集中各历史风险图片及其对应的历史风险类型分析得到预设风险类型与目标关键词集合的映射数据;接收用户发出的风险类型识别请求;对所述待识别风险图片进行OCR识别,得到所述待识别风险图片对应的文本信息;基于预设关键词提取规则从所述待识别风险图片对应的文本信息中提取出关键词集合;判断所述映射数据中是否存在与所述待识别风险图片对应的关键词集合匹配的目标关键词集合;根据判断结果所述待识别风险图片对应的风险类型。本发明还提出一种电子装置及存储介质。利用本发明,可准确识别预设类型待识别风险图片的风险类型。

技术研发人员:喻宁;史良洵;陈克炎;朱园丽;朱艳乔;陈皓云
受保护的技术使用者:平安科技(深圳)有限公司;中国平安财产保险股份有限公司
技术研发日:2020.01.02
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-50002.html

最新回复(0)