企业简称提取方法、装置、设备及介质与流程

专利2024-05-09  9



1.本发明涉及人工智能技术领域,尤其涉及一种企业简称提取方法、装置、设备及介质。


背景技术:

2.在检索企业信息的垂直搜索引擎中,大部分用户通常会使用企业的全称或者企业的简称作为搜索词进行检索。若搜索词为知名度比较强的企业的全称或者简称,那么搜索引擎可以轻松也检索出相应的企业信息。例如使用中国平安保险股份有限公司的简称“平安集团”,可以轻松、准确的检索出相应的企业信息。
3.但是,若搜索词为一些新兴或知名度较弱的企业简称,那么搜索引擎可能无法检索出相应的企业信息。这是因为搜索引擎存储的企业信息中,并没有存储这类新兴企业的简称,加上企业的知名度不够普及市场时,该企业会存在多个简称,容易造成企业全称与简称匹配精确度不高的问题。


技术实现要素:

4.鉴于以上内容,本发明提供一种企业简称提取方法、装置、设备及介质,其目的在于解决现有技术中企业全称与简称匹配精确度不高的技术问题。
5.为实现上述目的,本发明提供一种企业简称提取方法,该方法包括:
6.根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
7.根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
8.计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
9.优选的,所述根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组,包括:
10.获取所述企业的全称进行分词,得到所述企业的全称的词语序列;
11.生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。
12.优选的,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:
13.将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;
14.删除所述词组结果的后缀词组。
15.优选的,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:
16.获取包含已知企业的全称及简称的多个样本数据作为样本数据集;
17.根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。
18.优选的,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:
19.对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;
20.将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的总数量小于所述预设数量。
21.优选的,所述根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称,包括:
22.根据所述已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典;
23.根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、所述企业名字词组、所述行业词组进行组合;
24.得到所述企业的各个简称。
25.优选的,在所述计算所述企业的全称与各个所述简称之间相似度之后,该方法还包括:
26.获取所述简称组合集的各个简称在预设网路的频次值;
27.根据频次值设置对应简称的相似度结果的权重。
28.为实现上述目的,本发明还提供一种企业简称提取装置,所述装置包括:
29.分词模块:用于根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
30.组合模块:用于根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
31.计算模块:用于计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
32.为实现上述目的,本发明还提供一种电子设备,所述电子设备包括:
33.至少一个处理器;以及,
34.与所述至少一个处理器通信连接的存储器;其中,
35.所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述企业简称提取方法。
36.为实现上述目的,本发明还提供一种计算机可读介质,所述计算机可读介质存储有企业简称提取,所述企业简称提取被处理器执行时,实现如权利要求1至7中任一项所述企业简称提取方法的步骤。
37.本发明对企业的全称进行分词,分别得到企业的地区词组、企业名字词组、行业词组,删除全称中没有实质意义的后缀词组,实现对企业的全称进行准确分词。
38.根据已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典,组合地区词组、企业名字词组、行业词组得到企业的简称组合集,能够准确地生成合理的企业简称,计算企业的全称与简称组合集的各个简称之间相似度,从相似度的结果选取相似度值
最大的简称作为企业的目标简称,提高了企业全称与简称匹配之间的精确度。
附图说明
39.图1为本发明企业简称提取方法较佳实施例的流程图示意图;
40.图2为本发明企业简称提取装置较佳实施例的模块示意图;
41.图3为本发明电子设备较佳实施例的示意图;
42.本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
43.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
44.本发明实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
45.人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
46.本发明提供一种企业简称提取方法。参照图1所示,为本发明企业简称提取方法的实施例的方法流程示意图。该方法可以由一个电子设备执行,该电子设备可以由软件和/或硬件实现。企业简称提取方法包括以下步骤s10-s30:
47.步骤s10:根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组。
48.具体地,所述步骤s10包括:
49.获取所述企业的全称进行分词,得到所述企业的全称的词语序列;
50.生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。
51.本实施例中,接收用户输入的企业的全称,企业的全称是指企业在工商部门注册的名称(例如,企业的全称为:上海市红艺投资有限公司、零件酷(北京)电子商务有限公司、法兰克福展览(上海)有限公司);根据预设的分词模型对企业的全称进行分词,分词是指将一个汉字序列切分成一个一个单独的词,将分词后的词按照一定的规则重新组合成词序列,(例如,上海市红艺投资有限公司分词后的词语序列为:上海、市、红艺、投资、有限、公司),通过分词的处理,可以简化企业的全称的结构,便于计算机程序的读取和输入。
52.将企业的全称的词语序列输入预先训练好的文本深度表示模型,生成词语序列的特征向量,文本深度表示模型包括但不限于word2vec模型,word2vec模型是一种能够转词为向量的模型,其包含两种算法,分别是skip-gram和cbow,它们的最大区别是skip-gram是
通过中心词去预测中心词周围的词,而cbow是通过周围的词去预测中心词。
53.将词语序列的特征向量输入分词模型中,分词模型包括但不限于crf命名实体识别模型、nlp命名实体识别模型;根据分词模型对词语序列的特征向量进行计算,输入属于每个实体类别标签的概率,再根据每个实体类别标签的概率与分词模型的语料库的地区词组词典、行业词组词典、企业名字词组词典、后缀词组词典进行匹配,选取各个词典最大匹配值的词组,分别作为企业的地区词组、企业名字词组、行业词组、后缀词组(例如,上海市红艺投资有限公司得到的词组为:上海为地区词组、红艺为企业名字词组、投资为行业词组、有限公司为后缀词组)。
54.在一个实施例中,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:
55.将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;
56.删除所述词组结果的后缀词组。
57.后缀词组通常为无限公司、有限责任公司、股份有限公司,对于企业的简称来说是没有实质意义,将其删除可以有效地减少计算机的运行资源。
58.在一个实施例中,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:
59.获取包含已知企业的全称及简称的多个样本数据作为样本数据集;
60.根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。
61.已知企业的全称及简称是指人们在生活中或某个行业,已经知晓且有统一叫法的企业的全称及简称(例如,已知企业的全称为:中国平安保险股份有限公司,已知对应的简称为:平安集团或中国平安);将样本数据集作为分词模型的输入数据,训练并迭代预设次数后得到分词模型。
62.在一个实施例中,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:
63.对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;
64.将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的总数量小于所述未标注的样本数据的总数量。
65.已知企业的全称及简称需要预先存储在用户自建的数据库中;简称标注是指将样本数据进行分词处理,并将已知简称对样本数据进行标注;按照预设数量(例如,10000份样本)将标注样本数据并训练成词向量,该词向量携带有简称标注标签,将多个样本数据对应的词向量作为模型的输入数据,在模型迭代预设次数后,通过验证样本验证该分词模型的损失值小于预设值时,生成训练好的分词模型。通常验证样本的总数量小于未标注的样本数据的总数量,或将验证样本与未标注的样本数据的比例设置为2:8或3:7等。
66.在一个实施例中,在所述根据所述样本数据集训练得到所述分词模型之前,该方法还包括:
67.将预先构建的地区词组词典、企业名字词组词典、行业词组词典、后缀词组词典存
储至所述分词模型的语料库中。
68.将企业的全称中的词组分成以下4类:地区词组、企业名字词组、行业词组、后缀词组;其中,地区词组用于标识企业的全称中的地名信息;企业名字词组用于标识企业的全称中的企业名或有显著性的名词;行业词组词典用于标识企业所属行业的名词;后缀名词用于标识企业在工商部门注册的类型名词。例如,上海市红艺投资有限公司得到的词组为:上海为地区词组、红艺为企业名字词组、投资为行业词组、有限公司为后缀词组。
69.在训练分词模型之前,收集不同类别(例如,网络科技公司、保险公司、机械电子公司)的企业的全称,对这些企业的全称进行统计筛选,建立地区词组词典、企业名字词组词典、行业词组词典、后缀词组词典,将各个词典存储至分词模型的语料库。
70.具体建立各个词典步骤如下:
71.1、对于地区词组词典,根据全国行政区划的省市区地名,可以通过去后缀和/或过滤单字名词得到(例如,上海市变成上海)。
72.2、对于企业名字词组词典,分析企业的全称中显著词或代表企业的名字得到的(例如,上海市红艺投资有限公司的显著词或名字为红艺)。
73.3、对于行业词组词典,根据国民经济行业分类(gb/t 4754—2017)的细分行业的名词得到(例如,行业分类有投资、网络、保险等)。
74.4、对于后缀词组词典,根据工商部门的企业注册类型得到(例如,注册类型有无限公司、有限责任公司、股份有限公司等)。
75.步骤s20:根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称。
76.具体地,所述步骤s20包括:
77.根据所述已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典;
78.根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、所述企业名字词组、所述行业词组进行组合;
79.得到所述企业的各个简称。
80.本实施例中,分词规则是指将已知企业的全称以地区(region,r)、关键词(keyword,k)、行业(industry,i)和后缀(company suffix,s)来划分,得到r-k-i-s的分词规则。由于s为企业常用的后缀,容易被人们忽略掉,因此,将r-k-i-s的分词规则简化成r-k-i的分词规则即可。
81.从预设的数据库读取已知企业的全称与简称,以及r-k-i的分词规则的映射关系生成所述关系字典,根据关系字典每个已知企业简称的组合关系(例如,组合关系为已知企业的简称各个词组排序、位置、相邻词组的相似度、删除词组的特征,删除词组的特征是指已知企业的简称中已经删除的词组的属性和删除的频次),对待组合的企业的地区词组、企业名字词组、行业词组进行组合,将得到企业的简称组合集,例如,根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、企业名字词组、行业词组进行组合,得到企业的简称组合集,如表1:
[0082][0083]
通过关系字典已知的简称拆分和组合的特征,对企业的地区词组、企业名字词组、行业词组进行组合,得到的简称组合更优,有效地提高了组合的准确率和效率。
[0084]
步骤s30:计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0085]
本实施例中,通过字符串相似度算法计算企业的全称与简称组合集的各个简称之间相似度,字符串相似度算法包括但不限于余弦相似度算法和编辑距离算法;将简称组合集的各个简称输入预设网路(例如,预设网路为百度、搜狗等搜索平台),搜索各个简称出现在预设网路的频率次数作为频次值(例如,搜索各个简称在在预设网路的预设页面,例如,前10个页面出现的频率次数),根据频次值设置对应简称的相似度结果的权重,将设置权重后的各个相似度结果按照从高到低的顺序进行排列,从排列顺序中选取相似度值最大的简称作为企业的目标简称。
[0086]
在一个实施例中,在所述计算所述企业的全称与各个所述简称之间相似度之后,该方法还包括:
[0087]
获取所述简称组合集的各个简称在预设网路的频次值;
[0088]
根据频次值设置对应简称的相似度结果的权重。
[0089]
在预设网路上,人们会对企业可能的简称已经有多种叫法,这些叫法只是初步的雏形,并未形成统一的、常用的简称,将企业的各个简称输入网路后,统计各个可能的简称与对应的企业的全称出现的频率次数作为频次值,根据频次值设置对应简称的相似度结果的权重。
[0090]
通过引入网路上的企业可能的简称,对简称组合集的各个简称的的相似度结果的权重进行调整,从多个维度的信息结合企业的简称使其更加接近真实的生活需求,让信息分析的企业简称不再单一机械化,匹配结果更加准确。
[0091]
在一个实施例中,所述根据频次值设置对应简称的相似度结果的权重,包括:
[0092]
计算各个所述简称的频次值与所有简称的频次值之和之间的比例;
[0093]
根据比例设置对应简称的相似度结果的权重。
[0094]
例如,上海市红艺投资有限公司的各个简称,及各个简称的频次值为(红艺/频次值2、红艺投资/频次值8、上海红艺/频次值10),计算各个频次值与所有简称的频次值之和的比例,根据比例设置对应简称的相似度结果的权重,对(红艺、红艺投资、上海红艺)的相似度结果的权重,分别设置将对应相似度结果增大10%、40%、50%。
[0095]
在一个实施例中,在所述从相似度的结果选取相似度值最大的简称作为所述企业的目标简称之后,该方法还包括:
[0096]
将所述企业的目标简称与所述企业的全称进行关联存储至所述数据库。
[0097]
在得到企业的目标简称后,将其与企业的全称进行关联存储至数据库的企业简称表中,根据两者的关联性,将企业的目标简称与全称写入企业简称表的搜索引擎和搜索索引中,提高每次查找的效率。
[0098]
本发明对企业的全称进行分词,分别得到企业的地区词组、企业名字词组、行业词组,删除全称中没有实质意义的后缀词组,实现对企业的全称进行准确分词。
[0099]
根据已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典,组合地区词组、企业名字词组、行业词组得到企业的简称组合集,能够准确地生成合理的企业简称,计算企业的全称与简称组合集的各个简称之间相似度,从相似度的结果选取相似度值最大的简称作为企业的目标简称,提高了企业全称与简称匹配之间的精确度。
[0100]
参照图2所示,为本发明企业简称提取装置100的功能模块示意图。
[0101]
本发明所述企业简称提取装置100可以安装于电子设备中。根据实现的功能,所述企业简称提取装置100可以包括分词模块110、分词模块20、计算模块130。本发所述模块也可以称之为单元,是指一种能够被电子设备处理器所执行,并且能够完成固定功能的一系列计算机程序段,其存储在电子设备的存储器中。
[0102]
本实施例,关于各模块/单元的功能如下:
[0103]
分词模块110:用于根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
[0104]
组合模块120:用于根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
[0105]
计算模块130:用于计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0106]
在一个实施例中,所述根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组,包括:
[0107]
获取所述企业的全称进行分词,得到所述企业的全称的词语序列;
[0108]
生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。
[0109]
在一个实施例中,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:
[0110]
将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;
[0111]
删除所述词组结果的后缀词组。
[0112]
在一个实施例中,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:
[0113]
获取包含已知企业的全称及简称的多个样本数据作为样本数据集;
[0114]
根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。
[0115]
在一个实施例中,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:
[0116]
对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;
[0117]
将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的总数量小于所述预设数量。
[0118]
在一个实施例中,所述根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称,包括:
[0119]
根据所述已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典;
[0120]
根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、所述企业名字词组、所述行业词组进行组合;
[0121]
得到所述企业的各个简称。
[0122]
在一个实施例中,在所述计算所述企业的全称与各个所述简称之间相似度之后,该方法还包括:
[0123]
获取所述简称组合集的各个简称在预设网路的频次值;
[0124]
根据频次值设置对应简称的相似度结果的权重。
[0125]
参照图3所示,为本发明电子设备1较佳实施例的示意图。
[0126]
该电子设备1包括但不限于:存储器11、处理器12、显示器13及网络接口14。所述电子设备1通过网络接口14连接网络,获取原始数据。其中,所述网络可以是企业内部网(intranet)、互联网(internet)、全球移动通讯系统(globalsystemofmobilecommunication,gsm)、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)、4g网络、5g网络、蓝牙(bluetooth)、wi-fi、通话网络等无线或有线网络。
[0127]
其中,存储器11至少包括一种类型的可读介质,所述可读介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、随机访问存储器(ram)、静态随机访问存储器(sram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、可编程只读存储器(prom)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器11可以是所述电子设备1的内部存储单元,例如该电子设备1的硬盘或内存。在另一些实施例中,所述存储器11也可以是所述电子设备1的外部存储设备,例如该电子设备1配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。当然,所述存储器11还可以既包括所述电子设备1的内部存储单元也包括其外部存储设备。本实施例中,存储器11通常用于存储安装于所述电子设备1的操作系统和各类应用软件,例如企业简称提取10的程序代码等。此外,存储器11还可以用于暂时地存储已经输出或者将要输出的各类数据。
[0128]
处理器12在一些实施例中可以是中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器12通常用于控制所述电子设备1的总体操作,例如执行数据交互或者通信相关的控制和处理等。本实施例中,所述处理器12用于运行所述存储器11中存储的程序代码或者处理数据,例如运行企业简称提取10的程序代码等。
[0129]
显示器13可以称为显示屏或显示单元。在一些实施例中显示器13可以是led显示
器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。显示器13用于显示在电子设备1中处理的信息以及用于显示可视化的工作界面,例如显示数据统计的结果。
[0130]
网络接口14可选地可以包括标准的有线接口、无线接口(如wi-fi接口),该网络接口14通常用于在所述电子设备1与其它电子设备之间建立通信连接。
[0131]
图3仅示出了具有组件11-14以及企业简称提取10的电子设备1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
[0132]
可选地,所述电子设备1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(organiclight-emittingdiode,oled)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在电子设备1中处理的信息以及用于显示可视化的用户界面。
[0133]
该电子设备1还可以包括射频(radiofrequency,rf)电路、传感器和音频电路等等,在此不再赘述。
[0134]
在上述实施例中,处理器12执行存储器11中存储的企业简称提取10时可以实现如下步骤:
[0135]
根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
[0136]
根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
[0137]
计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0138]
所述存储设备可以为电子设备1的存储器11,也可以为与电子设备1通讯连接的其它存储设备。
[0139]
关于上述步骤的详细介绍,请参照上述图2关于企业简称提取装置100实施例的功能模块图以及图1关于企业简称提取方法实施例的流程图的说明。
[0140]
此外,本发明实施例还提出一种计算机可读介质,所述计算机可读介质可以是非易失性的,也可以是易失性的。该计算机可读介质可以是硬盘、多媒体卡、sd卡、闪存卡、smc、只读存储器(rom)、可擦除可编程只读存储器(eprom)、便携式紧致盘只读存储器(cd-rom)、usb存储器等等中的任一种或者几种的任意组合。所述计算机可读介质中包括存储数据区和存储程序区,存储数据区存储根据区块链节点的使用所创建的数据,存储程序区存储有企业简称提取10,所述企业简称提取10被处理器执行时实现如下操作:
[0141]
根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;
[0142]
根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;
[0143]
计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。
[0144]
本发明之计算机可读介质的具体实施方式与上述企业简称提取方法的具体实施方式大致相同,在此不再赘述。
[0145]
在另一个实施例中,本发明所提供的企业简称提取方法,为进一步保证上述所有出现的数据的私密和安全性,上述所有数据还可以存储于一区块链的节点中。例如地区词组、企业名字词组、行业词组,这些数据均可存储在区块链节点中。
[0146]
需要说明的是,本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
[0147]
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且该方法还包括没有明确列出的其他要素,或者是该方法还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
[0148]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,电子装置,或者网络设备等)执行本发明各个实施例所述的方法。
[0149]
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

技术特征:
1.一种企业简称提取方法,其特征在于,所述方法包括:根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。2.如权利要求1所述的企业简称提取方法,其特征在于,所述根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组,包括:获取所述企业的全称进行分词,得到所述企业的全称的词语序列;生成所述词语序列的特征向量并输入所述分词模型,分别输出所述企业的全称包含的地区词组、企业名字词组、行业词组。3.如权利要求1所述的企业简称提取方法,其特征在于,在所述分别得到所述企业的地区词组、企业名字词组、行业词组之前,该方法还包括:将所述词语序列的特征向量并输入分词模型,分别得到词组结果,所述词组结果包括地区词组、企业名字词组、行业词组、后缀词组;删除所述词组结果的后缀词组。4.如权利要求1所述的企业简称提取方法,其特征在于,在所述根据预设的分词模型对企业的全称进行分词之前,该方法还包括:获取包含已知企业的全称及简称的多个样本数据作为样本数据集;根据所述样本数据集训练得到所述分词模型,所述分词模型用于进行简称识别处理。5.如权利要求4所述的企业简称提取方法,其特征在于,在所述获取包含已知企业的全称及简称的多个样本数据作为样本数据集之后,该方法还包括:对所述已知企业的全称及简称的样本数据,按照预设数量进行简称标注处理,将标注后的样本数据作为所述样本数据集的训练样本;将未标注的样本数据作为所述样本数据集的验证样本,所述验证样本的总数量小于所述未标注的样本数据的总数量。6.如权利要求1所述的企业简称提取方法,其特征在于,所述根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称,包括:根据所述已知企业的全称与简称,以及分词规则的映射关系生成所述关系字典;根据所述已知企业简称的组合关系中各个词组排序、位置、相邻词组的相似度,对所述地区词组、所述企业名字词组、所述行业词组进行组合;得到所述企业的各个简称。7.如权利要求1所述的企业简称提取方法,其特征在于,在所述计算所述企业的全称与各个所述简称之间相似度之后,该方法还包括:获取所述简称组合集的各个简称在预设网路的频次值;根据频次值设置对应简称的相似度结果的权重。8.一种企业简称提取装置,其特征在于,所述装置包括:
分词模块:用于根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;组合模块:用于根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;计算模块:用于计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的程序,所述程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1至7中任一项所述企业简称提取方法。10.一种计算机可读介质,其特征在于,所述计算机可读介质存储有企业简称提取,所述企业简称提取被处理器执行时,实现如权利要求1至7中任一项所述企业简称提取方法。

技术总结
本发明涉及人工智能技术领域,提供了一种企业简称提取方法、装置、设备及介质。该方法包括根据预设的分词模型对企业的全称进行分词,分别得到所述企业的地区词组、企业名字词组、行业词组;根据预设的关系字典组合中已知企业简称的组合关系,组合所述地区词组、所述企业名字词组、所述行业词组,得到所述企业的各个简称;计算所述企业的全称与各个所述简称之间相似度,从相似度的结果选取相似度值最大的简称作为所述企业的目标简称。本发明还涉及区块链技术领域,上述地区词组、企业名字词组、行业词组还可以存储于一区块链的节点中。词组还可以存储于一区块链的节点中。词组还可以存储于一区块链的节点中。


技术研发人员:王大伟 徐胜平
受保护的技术使用者:深圳壹账通智能科技有限公司
技术研发日:2022.10.11
技术公布日:2022/12/16
转载请注明原文地址: https://bbs.8miu.com/read-415611.html

最新回复(0)