本发明涉及数据挖掘领域,特别是涉及一种发票信息挖掘方法、装置、计算机设备及存储介质。
背景技术:
:目前不少银行有针对企业提供凭发票贷款业务,企业只需将发票提供给银行进行审核,即有可能获得贷款,当前银行利用发票主要是计算企业的发票指标,了解企业的经营状况,没有发挥发票数据的全部价值,浪费了不易得来的发票数据。技术实现要素:有鉴于此,本发明提出一种发票信息挖掘方法、装置、计算机设备及存储介质,能够通过发票数据与大数据构建知识图谱以进行数据挖掘,充分利用发票数据。首先,为实现上述目的,本发明提出一种发票信息挖掘方法,所述方法包括接收从源企业端获取的录有源企业的发票文件的发票数据集,所述发票数据包括电子发票及纸质发票;提取所述发票文件中的发票数据,所述发票数据包括与所述源企业关联的上下游企业数据;根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;爬取源企业与各关联企业的数据,并结合所述上下游企业关系网络生成知识图谱;根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端。进一步地,所述根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端包括根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值;生成风险值低于设定阈值的高风险关联企业的清单,生成风险信息,进行推送。进一步地,所述生成风险值低于设定阈值的关联企业的清单之后还包括从所述知识图谱获取所述高风险关联企业与源企业之间的交易产品信息,所述交易产品信息为知识图谱根据所述发票数据得到;根据所述交易产品信息从优质企业库中搜索相关优质企业;输出搜索到的相关优质企业的数据作为推荐供应商或客户。进一步地,根据源企业与各关联企业的信息对各关联企业的企业风险进行单独预测,得出各自的风险值之后还包括计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值;根据所述源企业的各维度数据、风险值以及所述总体影响值为源企业适配金融产品。进一步地,所述计算所述上下游企业关系网络的总体影响值具体包括为所述上下游企业关系网络中的各关联企业分配权重;计算各关联企业权重与风险值的乘积得到各关联企业对源企业的影响值;计算所有关联企业影响值的总和得到总体影响值。进一步地,所述计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值之后还包括判断所述源企业的风险值以及所述上下游企业关系网络的总体影响值是否分别高于设定阈值;是则将所述源企业作为有资格进入优质企业库的优质企业。进一步地,所述根据所述发票数据形成以所述源企业为核心的上下游企业关系网络之前还包括验证各条发票数据的合法性,剔除其中的无效发票数据;提取有效的发票数据中开票金额超过设定阈值的发票数据。为实现上述目的,本发明还提供一种发票信息挖掘装置,其特征在于,其包括读取模块,适于读取录有源企业的发票数据的发票数据集;第一生成模块,适于根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;第二生成模块,适于获取源企业与各关联企业的指定维度的信息,并结合所述上下游企业关系网络生成知识图谱;分析模块,适于根据所述知识图谱进行信息挖掘。为实现上述目的,本发明还提供一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述发票信息挖掘方法。为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述发票信息挖掘方法。相较于现有技术,本发明所提出的发票信息挖掘方法、装置、计算机设备及存储介质,通过发票数据与大数据构建出以源企业为核心的知识图谱,可利用知识图谱进行数据挖掘,增强风控能力,为银行与源企业的决策提供参考。附图说明图1是本发明实施例一之发票信息挖掘方法的流程示意图;图2是本发明实施例之根据所述知识图谱进行信息挖掘的流程示意图;图3是本发明实施例之根据源企业情况适配金融产品的流程示意图;图4是本发明实施例之计算上下游企业关系网络中关联企业对所述源企业的总体影响值的流程示意图;图5是本发明实施例之判断源企业是否有资格进入优质企业库的流程示意图;图6是本发明实施例之发票信息挖掘装置的的程序模块示意图;图7是本发明第三实施例之计算机设备的硬件结构示意图;图8是本发明第四实施例之计算机设备的硬件结构示意图。附图标记发票信息挖掘装置700、804读取模块701提取模块702第一生成模块703第二生成模块704分析模块705计算机设备800存储器801处理器802网络接口803本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。需要说明的是,在本发明中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本发明要求的保护范围之内。实施例一参阅图1,是本发明第一实施例之发票信息挖掘方法,所述方法包括如下步骤s101-s104:步骤s101,接收从源企业端获取的录有源企业的发票文件的发票数据集,所述发票数据包括电子发票及纸质发票;步骤s102,提取所述发票文件中的发票数据,所述发票数据包括与所述源企业关联的上下游企业数据;此处,源企业为向银行提出贷款申请的企业或银行的现有客户,发票数据集中的发票数据由源企业提供,其中纸质发票可由扫描仪扫描为电子版本的发票,并经过计算机进行ocr识别将发票中记载的数据存储为可读取的数据表,同理,可利用计算机对电子发票进行ocr识别并将发票中记载的数据存储为可读取的数据表。数据表内的发票数据包含每张发票记载的主要内容,包含发票编号、购买方信息、销售方信息、开票内容、开票金额、验证码等数据。步骤s103,根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;本步骤中,根据发票数据的购买方信息与销售方信息可以获知哪一方为关联企业,且确定关联企业为源企业的上游企业还是下游企业,据此建立其与源企业的之间的拓扑关系,并标注两者之间的交易产品与交易金额,发票数据中涉及相同关联企业与源企业交易的应当把相应交易金额进行合并计算其总交易金额。步骤s104,爬取源企业与各关联企业的数据,并结合所述上下游企业关系网络生成知识图谱;本步骤中,通过爬虫爬取各网站数据,以获取各关联企业的信息;爬取的数据涉及企业的工商信息、经营情况、纳税数据以及各类风险信息等维度的信息,其中风险信息包含法律诉讼、行政处罚、严重违反、经营异常、失信信息、被执行信息、拖欠工资等,上述企业信息可从可靠度较高的数据源抓取,如天眼查等企业信息数据库或其他包含企业信息的数据库或联网数据。至此,基于大数据与上述步骤s103中的上下游企业关系网络构建的知识图谱既包含了企业之间的关联信息又涉及各企业各自的各维度数据,具有较为丰富的信息挖掘价值。步骤s105,根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端。具体地,参阅图2,步骤s104包括如下步骤s201-s202:步骤s201,根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值;本步骤中,利用企业评价模型与企业的各维度数据对企业的风险进行评价,并得到量化的风险值。在一种实施例中,利用企业评价模型对企业的风险进行评价的方法如下:步骤a1,构建风险评价的指标体系;举例说明,为了较好地评价知识图谱中涉及的关联企业的风险状况,本实施例中采用了如下的风险评估指标体系,包含企业所处行业状况、企业自身状况、供应链关系状况这三个维度的数据指标,各维度指标又包含若干可利用数值进行描述的二级指标,如所处行业状况包含宏观经济状况、行业发展前景这两个二级指标,企业自身状况包括盈利能力、营运能力、偿债能力这三个二级指标;风险评估指标体系及各指标对应的指标描述如下表所示:步骤a2,采集样本数据;本步骤中,样本数据从银行自身的企业数据库中获取;步骤a3,利用样本数据构造用于对企业风险进行评估的svm模型;本步骤中,首先对样本数据进行归一化预处理,使得数据可分性达到合理水平,使得不同量纲、不同数量级的数据具有可比性。然后,将预处理后的样本数据分为训练样本数据集以及测试样本数据集,利用训练样本数据集对svm模型进行训练,并利用测试样本数据集对训练后的svm模型进行验证,得到用于对企业风险进行评价的svm模型;其中,svm模型中的核函数采用rbf核函数;步骤a4,从所述知识图谱获取关联企业的对应于各维度指标的指标参数值输入所述svm模型得出关联企业的风险值。步骤s202,生成风险值低于设定阈值的高风险关联企业的清单,生成风险信息,进行推送。如此可判断源企业自身的风险以及上下游企业关系网络中潜在的风险,用户可根据风险值判断整个上下游企业关系网络的健康情况,并可据此决策更换清单中列出的高风险关联企业。可选地,步骤s202之后还包括如下步骤s203-s206:步骤s203,从所述知识图谱获取所述高风险关联企业与源企业之间的交易产品信息,所述交易产品信息为知识图谱根据所述发票数据得到;步骤s204,根据所述交易产品信息从优质企业库中搜索相关优质企业;步骤s205,输出搜索到的相关优质企业的数据作为推荐供应商或客户。如此在步骤s202的基础上,不仅得到的源企业的上、下游企业中存在较高风险的关联企业的清单,还可为源企业提供上下游企业关系网络的优化策略,即推荐优质企业库中的优质企业替代原上下游企业关系网络中的高风险关联企业,如此可大幅提高上下游企业关系网络的健康值,增强风控能力,且可提升源企业对于银行服务的粘性。可选地,参阅图3,步骤s201之后还包括如下步骤s301-s302:步骤s301,计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值;步骤s302,根据所述源企业的各维度数据、风险值以及所述总体影响值为源企业适配金融产品。这样可根据企业实际情况为企业提供与其发展情况相匹配的金融服务,对于申请贷款的源企业可据此判断是否可为其贷款以及其所要求的贷款额度是否合理。在进一步的实施例中,银行还可以为上下游企业关系网络中的关联企业适配金融产品,生成适配清单供业务员拓展业务,挖掘潜在客户。参阅图4,上述步骤s301具体包括如下步骤s401-s403:步骤s401,为所述上下游企业关系网络中的各关联企业分配权重;本步骤中,权重的影响因素包括关联企业与源企业的关联、关联企业的可替代性、以及关联企业在供应链网络中的位置。其中关联企业与源企业的关联越密切,其影响权重越高,如a企业是源企业的客户,其采购的源企业的产品的交易额占源企业总营业额的30%,则a企业对源企业的影响就很大;关联企业的可替代性越低,其影响权重越高,如b企业是源企业的供应商,为源企业供应处理器芯片、闪存等电子零部件,其处理器芯片的可替代性低,且更换供应商对货期影响很大,则为b企业分配较高的影响权重;关联企业在供应链网络中所处的位置越靠近源企业,则其影响权重越高。所有关联企业的影响权重之和等于1。步骤s402,计算各关联企业权重与风险值的乘积得到各关联企业对源企业的影响值;步骤s403,计算所有关联企业影响值的总和得到总体影响值。总体影响值可反应源企业的上、下游企业对源企业的总体影响,也可在源企业优化上下游企业关系网络后通过总体影响值的变化直观判断上下游企业关系网络整体的健康程度是否有所提升。可选地,参阅图5,步骤s201之后还包括如下步骤s501-s502:步骤s501,判断所述源企业的风险值以及所述上下游企业关系网络的总体影响值是否分别高于设定阈值;步骤s502,是则将所述源企业作为有资格进入优质企业库的优质企业。基于此,当源企业有资格进入优质企业库后,在后续银行为其他企业服务时,可将源企业作为优质供应商或客户推荐给其他企业,不仅基于所述优质企业库为客户提供优质服务,还可进一步提高客户的粘性,获得双赢。可选地,参阅图6,步骤s101之后还包括步骤s601-s602:步骤s601,验证各条发票数据的合法性,剔除其中的无效发票数据;步骤s602,提取有效的发票数据中开票金额超过设定阈值的发票数据。上述步骤可剔除无效的发票数据以及交易金额较小的发票数据,减少计算量,节省计算资源。实施例二参阅图7,是本发明实施例二之一种发票信息挖掘装置700的程序模块示意图,发票信息挖掘装置700可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述发票信息挖掘方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述发票信息挖掘方法在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:读取模块701,接收从源企业端获取的录有源企业的发票文件的发票数据集,所述发票数据包括电子发票及纸质发票;提取模块702,提取所述发票文件中的发票数据,所述发票数据包括与所述源企业关联的上下游企业数据;此处,源企业为向银行提出贷款申请的企业或银行的现有客户,发票数据集中的发票数据由源企业提供,其中纸质发票可由扫描仪扫描为电子版本的发票,并经过计算机进行ocr识别将发票中记载的数据存储为可读取的数据表,同理,可利用计算机对电子发票进行ocr识别并将发票中记载的数据存储为可读取的数据表。第一生成模块702可至指定路径读取数据表,数据表内的发票数据包含每张发票记载的主要内容,包含发票编号、购买方信息、销售方信息、开票内容、开票金额、验证码等数据。第一生成模块703,根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;此处,第一生成模块702根据发票数据的购买方信息与销售方信息可以获知哪一方为关联企业,且确定关联企业为源企业的上游企业还是下游企业,据此建立其与源企业的之间的拓扑关系,并标注两者之间的交易产品与交易金额,发票数据中涉及相同关联企业与源企业交易的应当把相应交易金额进行合并计算其总交易金额。第二生成模块704,爬取源企业与各关联企业的数据,并结合所述上下游企业关系网络生成知识图谱;此处,所述各维度数据涉及企业的工商信息、经营情况、纳税数据以及各类风险信息等维度的信息,其中风险信息包含法律诉讼、行政处罚、严重违反、经营异常、失信信息、被执行信息、拖欠工资等,上述各维度信息可从可靠度较高的数据源抓取,如天眼查等企业信息数据库或其他包含企业信息的数据库或联网数据。至此,基于大数据与上述的上下游企业关系网络构建的知识图谱既包含了企业之间的关联信息又涉及各企业各自的各维度数据,具有较为丰富的信息挖掘价值。分析模块705,根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端。。具体地,分析模块705根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端包括如下工作:分析模块705根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值;本工作中,利用企业评价模型与企业的各维度数据对企业的风险进行评价,并得到量化的风险值。在一种实施例中,利用企业评价模型对企业的风险进行评价包括如下工作:首先,构建风险评价的指标体系;举例说明,为了较好地评价知识图谱中涉及的关联企业的风险状况,本实施例中采用了如下的风险评估指标体系,包含企业所处行业状况、企业自身状况、供应链关系状况这三个维度的数据指标,各维度指标又包含若干可利用数值进行描述的二级指标,如所处行业状况包含宏观经济状况、行业发展前景这两个二级指标,企业自身状况包括盈利能力、营运能力、偿债能力这三个二级指标;风险评估指标体系及各指标对应的指标描述如下表所示:然后,采集样本数据;本操作中,样本数据从银行自身的企业数据库中获取;再然后,利用样本数据构造用于对企业风险进行评估的svm模型;本操作中,首先对样本数据进行归一化预处理,使得数据可分性达到合理水平,使得不同量纲、不同数量级的数据具有可比性。然后,将预处理后的样本数据分为训练样本数据集以及测试样本数据集,利用训练样本数据集对svm模型进行训练,并利用测试样本数据集对训练后的svm模型进行验证,得到用于对企业风险进行评价的svm模型;其中,svm模型中的核函数采用rbf核函数;最后,从所述知识图谱获取关联企业的对应于各维度指标的指标参数值输入所述svm模型得出关联企业的风险值分析模块705生成风险值低于设定阈值的高风险关联企业的清单,生成风险信息,进行推送。如此可判断源企业自身的风险以及上下游企业关系网络中潜在的风险,用户可根据风险值判断整个上下游企业关系网络的健康情况,并可据此决策更换清单中列出的高风险关联企业。可选地,分析模块705生成风险值低于设定阈值的高风险关联企业的清单,生成风险信息,进行推送之后还包括如下工作:分析模块705从所述知识图谱获取所述高风险关联企业与源企业之间的交易产品信息,所述交易产品信息为知识图谱根据所述发票数据得到;分析模块705根据所述交易产品信息从优质企业库中搜索相关优质企业;分析模块705输出搜索到的相关优质企业的数据作为推荐供应商或客户。如此,不仅得到的源企业的上、下游企业中存在较高风险的关联企业的清单,还可为源企业提供上下游企业关系网络的优化策略,即推荐优质企业库中的优质企业替代原上下游企业关系网络中的高风险关联企业,如此可大幅提高上下游企业关系网络的健康值,增强风控能力,且可提升源企业对于银行服务的粘性。可选地,分析模块705根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值之后还包括如下工作:分析模块705计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值;分析模块705根据所述源企业的各维度数据、风险值以及所述总体影响值为源企业适配金融产品。这样分析模块705可根据企业实际情况为企业提供与其发展情况相匹配的金融服务,对于申请贷款的源企业可据此判断是否可为其贷款以及其所要求的贷款额度是否合理。在进一步的实施例中,银行还可以为上下游企业关系网络中的关联企业适配金融产品,生成适配清单供业务员拓展业务,挖掘潜在客户。可选地,分析模块705计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值具体包括如下工作:分析模块705为所述上下游企业关系网络中的各关联企业分配权重;此处,权重的影响因素包括关联企业与源企业的关联、关联企业的可替代性、以及关联企业在供应链网络中的位置。其中关联企业与源企业的关联越密切,其影响权重越高,如a企业是源企业的客户,其采购的源企业的产品的交易额占源企业总营业额的30%,则a企业对源企业的影响就很大;关联企业的可替代性越低,其影响权重越高,如b企业是源企业的供应商,为源企业供应处理器芯片、闪存等电子零部件,其处理器芯片的可替代性低,且更换供应商对货期影响很大,则为b企业分配较高的影响权重;关联企业在供应链网络中所处的位置越靠近源企业,则其影响权重越高。所有关联企业的影响权重之和等于1。分析模块705计算各关联企业权重与风险值的乘积得到各关联企业对源企业的影响值;分析模块705计算所有关联企业影响值的总和得到总体影响值。总体影响值可反应源企业的上、下游企业对源企业的总体影响,也可在源企业优化上下游企业关系网络后通过总体影响值的变化直观判断上下游企业关系网络整体的健康程度是否有所提升。可选地,上述分析模块705根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值之后,还包括如下工作:分析模块705判断所述源企业的风险值以及所述上下游企业关系网络的总体影响值是否分别高于设定阈值;是则分析模块705将所述源企业作为有资格进入优质企业库的优质企业。基于此,当源企业有资格进入优质企业库后,在后续银行为其他企业服务时,可将源企业作为优质供应商或客户推荐给其他企业,不仅基于所述优质企业库为客户提供优质服务,还可进一步提高客户的粘性,获得双赢。可选地,上述读取模块701接收从源企业端获取的录有源企业的发票文件的发票数据集的工作之后还包括如下工作:读取模块701验证各条发票数据的合法性,剔除其中的无效发票数据;读取模块701提取有效的发票数据中开票金额超过设定阈值的发票数据。上述工作可剔除无效的发票数据以及交易金额较小的发票数据,减少计算量,节省计算资源。实施例三参阅图8,是本发明实施例三之计算机设备800的硬件架构示意图。在本实施例中,所述计算机设备800是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。如图所示,所述计算机设备800至少包括,但不限于,可通过系统总线相互通信连接存储器801、处理器802、网络接口803、以及发票信息挖掘装置804。其中:本实施例中,存储器801至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器801可以是计算机设备800的内部存储单元,例如该计算机设备800的硬盘或内存。在另一些实施例中,存储器801也可以是计算机设备800的外部存储设备,例如该计算机设备800上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,存储器801还可以既包括计算机设备800的内部存储单元也包括其外部存储设备。本实施例中,存储器801通常用于存储安装于计算机设备800的操作系统和各类应用软件,例如发票信息挖掘装置804的程序代码等。此外,存储器801还可以用于暂时地存储已经输出或者将要输出的各类数据。处理器802在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器802通常用于控制计算机设备800的总体操作。本实施例中,处理器802用于运行存储器801中存储的程序代码或者处理数据,例如运行发票信息挖掘装置804,以实现实施例一中的发票信息挖掘方法。所述网络接口803可包括无线网络接口或有线网络接口,该网络接口803通常用于在所述计算机设备800与其他电子装置之间建立通信连接。例如,所述网络接口803用于通过网络将所述计算机设备800与外部终端相连,在所述计算机设备800与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi等无线或有线网络。需要指出的是,图8仅示出了具有部件801-804的计算机设备800,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。在本实施例中,存储于存储器801中的所述发票信息挖掘装置804还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器801中,并由一个或多个处理器(本实施例为处理器802)所执行,以完成本发明发票信息挖掘方法。实施例四本实施例提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘、服务器、app应用商城等等,其上存储有计算机程序,程序被处理器执行时实现上述的发票信息挖掘方法。上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的
技术领域:
,均同理包括在本发明的专利保护范围内。当前第1页1 2 3 
技术特征:1.一种发票信息挖掘方法,其特征在于,所述方法包括
接收从源企业端获取的录有源企业的发票文件的发票数据集,所述发票数据包括电子发票及纸质发票;
提取所述发票文件中的发票数据,所述发票数据包括与所述源企业关联的上下游企业数据;
根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;
爬取源企业与各关联企业的数据,并结合所述上下游企业关系网络生成知识图谱;
根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端。
2.由权利要求1所述的发票信息挖掘方法,其特征在于,所述根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端包括:
根据源企业与各关联企业的信息的各维度数据对各关联企业的企业风险分别进行分析,得出各自的风险值;
生成风险值低于设定阈值的高风险关联企业的清单,生成风险信息,进行推送。
3.由权利要求2所述的发票信息挖掘方法,其特征在于,所述生成风险值低于设定阈值的关联企业的清单之后还包括:
从所述知识图谱获取所述高风险关联企业与源企业之间的交易产品信息,所述交易产品信息为知识图谱根据所述发票数据得到;
根据所述交易产品信息从优质企业库中搜索相关优质企业;
输出搜索到的相关优质企业的数据作为推荐供应商或客户。
4.由权利要求2所述的发票信息挖掘方法,其特征在于,根据源企业与各关联企业的信息对各关联企业的企业风险进行单独预测,得出各自的风险值之后还包括:
计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值;
根据所述源企业的各维度数据、风险值以及所述总体影响值为源企业适配金融产品。
5.由权利要求4所述的发票信息挖掘方法,其特征在于,所述计算所述上下游企业关系网络的总体影响值具体包括:
为所述上下游企业关系网络中的各关联企业分配权重;
计算各关联企业的权重与风险值的乘积得到各关联企业对源企业的影响值;
计算所有关联企业影响值的总和得到总体影响值。
6.由权利要求2所述的发票信息挖掘方法,其特征在于,所述计算所述上下游企业关系网络中关联企业对所述源企业的总体影响值之后还包括:
判断所述源企业的风险值以及所述上下游企业关系网络的总体影响值是否分别高于设定阈值;
是则将所述源企业作为有资格进入优质企业库的优质企业。
7.由权利要求1所述的发票信息挖掘方法,其特征在于,所述根据所述发票数据形成以所述源企业为核心的上下游企业关系网络之前还包括
验证各条发票数据的合法性,剔除其中的无效发票数据;
提取有效的发票数据中开票金额超过设定阈值的发票数据。
8.一种发票信息挖掘装置,其特征在于,其包括:
读取模块,适于读取录有源企业的发票数据的发票数据集;
第一生成模块,适于根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;
第二生成模块,适于获取源企业与各关联企业的指定维度的信息,并结合所述上下游企业关系网络生成知识图谱;
分析模块,适于根据所述知识图谱进行信息挖掘。
9.一种计算机设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7任一项所述发票信息挖掘方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7任一项所述发票信息挖掘方法。
技术总结本发明公开了一种发票信息挖掘方法、装置、计算机设备及存储介质,所述方法包括接收从源企业端获取的录有源企业的发票文件的发票数据集;提取所述发票文件中的发票数据;根据所述发票数据形成以所述源企业为核心的上下游企业关系网络,其中,所述上下游企业关系网络包含源企业与若干关联企业;爬取源企业与各关联企业的数据,并结合所述上下游企业关系网络生成知识图谱;根据所述知识图谱分析所述各关联企业的风险值,并将风险信息推送至源企业端。发票信息挖掘方法、装置、计算机设备及存储介质,通过发票数据与大数据构建出以源企业为核心的知识图谱,可利用知识图谱进行数据挖掘,增强风控能力,为银行与源企业的决策提供参考。
技术研发人员:王盼
受保护的技术使用者:深圳壹账通智能科技有限公司
技术研发日:2020.01.16
技术公布日:2020.06.05