一种短文本相似度评估方法和装置以及设备与流程

专利2022-06-30  53


本发明涉及文本相似度技术领域,尤其涉及一种短文本相似度评估方法和装置以及设备。



背景技术:

文本相似度评估一直是学术界和工业界的研究热点,也是个大ai(artificialintelligence,人工智能)大赛的热门题目。

然而,现有的短文本相似度评估方案,一般是通过文档模型、tf-idf(termfrequency–inversedocumentfrequency,词频-逆文本频率指数)等文档向量进行比较相似度,之后又比较基于语义的相似度,比如word2vec(用来产生词向量的相关模型)等词向量的相似度比较,也有一些采用比如fuzzywuzzy(字符串模糊匹配)等模糊匹配的方式来进行文本相识度评估,但是由于短文本一方面语义表达不足和另一方面精短不易比较,导致对短文本相似度评估的准确率一般。



技术实现要素:

有鉴于此,本发明的目的在于提出一种短文本相似度评估方法和装置以及设备,能够实现提高对短文本相似度评估的准确率。

根据本发明的一个方面,提供一种短文本相似度评估方法,包括:采用上下文词向量方式,对短文本进行分词和词向量化;将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理;根据所述经近似度管理后短文本,对短文本的近似度进行评估。

其中,所述采用上下文词向量方式,对短文本进行分词和词向量化,包括:

采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。

其中,所述将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,包括:将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。

其中,所述根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理,包括:根据所述比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度聚类管理。

其中,所述根据所述经近似度管理后短文本,对短文本的近似度进行评估,包括:根据所述经近似度管理后短文本,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。

根据本发明的另一个方面,提供一种短文本相似度评估装置,包括:词处理模块、比较模块、管理模块和评估模块;所述词处理模块,用于采用上下文词向量方式,对短文本进行分词和词向量化;所述比较模块,用于将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;所述管理模块,用于根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理;所述评估模块,用于根据所述经近似度管理后短文本,对短文本的近似度进行评估。

其中,所述词处理模块,具体用于:采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。

其中,所述比较模块,具体用于:将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。

其中,所述管理模块,具体用于:根据所述比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理。

其中,所述评估模块,具体用于:根据所述经近似度管理后短文本,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。

根据本发明的又一个方面,提供一种短文本相似度评估设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的短文本相似度评估方法。

根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述的短文本相似度评估方法。

可以发现,以上方案,可以采用上下文词向量方式,对短文本进行分词和词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行评估,能够实现提高对短文本相似度评估的准确率。

进一步的,以上方案,可以采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。

进一步的,以上方案,可以将该经分词和词向量化后的短文本进行哈希计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度评估的准确率。

进一步的,以上方案,可以根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。

进一步的,以上方案,可以根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明短文本相似度评估方法一实施例的流程示意图;

图2是本发明短文本相似度评估装置一实施例的结构示意图;

图3是本发明短文本相似度评估设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供一种短文本相似度评估方法,能够实现提高对短文本相似度评估的准确率。

请参见图1,图1是本发明短文本相似度评估方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:

s101:采用bert(上下文词向量)方式,对短文本进行分词和词向量化。

其中,该采用上下文词向量方式,对短文本进行分词和词向量化,可以包括:

采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料fine-tune(微调)后,通过bertasservice(暴露服务),将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。

s102:将该经分词和词向量化后的短文本与预先构建的lsh(locality-sensitivehash,局部敏感哈希)文本库中对应的簇比较得到比较结果;其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等。

其中,该将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,可以包括:

将该经分词和词向量化后的短文本进行hash(哈希)计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度评估的准确率。

在本实施例中,可以对被比较文本需要进行预先hash计算,利用lsh构建一个检索树,也起到了聚类的效果。局部敏感哈希即空间中距离较近的点映射后发生冲突的概率高,空间中距离较远的点映射后发生冲突的概率低。局部敏感哈希的基本思想类似于一种空间域转换思想,lsh算法基于一个假设,如果两个文本在原有的数据空间是相似的,那么分别经过哈希函数转换以后的它们也具有很高的相似度;相反,如果它们本身是不相似的,那么经过转换后它们应仍不具有相似性。假设一个局部敏感哈希函数具有10个不同的输出值,而现在我们具有11个完全没有相似度的数据,那么它们经过这个哈希函数必然至少存在两个不相似的数据变为了相似数据。从这个假设中,我们应该意识到局部敏感哈希是相对的,而且我们所说的保持数据的相度不是说保持100%的相似度,而是保持最大可能的相似度。对于局部敏感哈希保持最大可能的相似度的这一点,我们也可以从数据降维的角度去考虑。数据对应的维度越高,信息量也就越大,相反,如果数据进行了降维,那么毫无疑问数据所反映的信息必然会有损失。哈希函数从本质上来看就是一直在扮演数据降维的角。

min-hashing(最小哈希)定义:特征矩阵按行进行一个随机的置换后,第一个列值为1的行的行号。对于两个数据c1和c2,在min-hashing方法中,hash值相等的概率等于这两个数据降维前的jaccard(相似系数)相似度即两个集合的交比两个集合的并。可以用公式描述,如下:pr[hπ(c1)=hπ(c2)]=sim(c1,c2)。每一个置换等同于一个hash函数,多个置换构成一个hash函数族。假设我们拥有n个hash函数,要求在原始空间相似的两个数据在hash之后得到的n个值均相等的条件过于苛刻,所得到的精确率是很高,但是同样的召回率也会非常低。因此,我们放松了要求,在n个hash函数划分为b个hash函数族,只要两个数据在某一个hash函数族的值均相等,就认为这两个数据相似。在上述定义下,两个数据在低维空间相似的概率为:1-(1-sr)b。解释如下:对于两个数据的任意一个函数族来说,这两个函数族值相同的概率是:sr,其中s∈[0,1]是这两个文档的相似度。也就是说,这两个函数族不相同的概率是1-sr这两个文档一共存在b个函数族,这bb个函数族都不相同的概率是(1-sr)b所以说,这b个函数族至少有一个相同的概率是1-(1-sr)b。以上过程可以为一个简单的and-or(和-或)逻辑,这个逻辑同样也应用于下述基于p稳定分布的lsh中。

s103:根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理。

其中,该根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,可以包括:

根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入target_value(相似度高)的集合,将小于预设分值的评分对应的短文本纳入small_value(相似度低)的集合的方式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。

s104:根据该经近似度管理后短文本,对短文本的近似度进行评估。

其中,该根据该经近似度管理后短文本,对短文本的近似度进行评估,可以包括:

根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估的准确率。

可以发现,在本实施例中,可以采用上下文词向量方式,对短文本进行分词和词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行评估,能够实现提高对短文本相似度评估的准确率。

进一步的,在本实施例中,可以采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。

进一步的,在本实施例中,可以将该经分词和词向量化后的短文本进行哈希计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度评估的准确率。

进一步的,在本实施例中,可以根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。

进一步的,在本实施例中,可以根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估的准确率。

本发明还提供一种短文本相似度评估装置,能够实现提高对短文本相似度评估的准确率。

请参见图2,图2是本发明短文本相似度评估装置一实施例的结构示意图。本实施例中,该短文本相似度评估装置20包括词处理模块21、比较模块22、管理模块23和评估模块24。

该词处理模块21,用于采用上下文词向量方式,对短文本进行分词和词向量化。

该比较模块22,用于将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等。

该管理模块23,用于根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理。

该评估模块24,用于根据该经近似度管理后短文本,对短文本的近似度进行评估。

可选地,该词处理模块21,可以具体用于:

采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。

可选地,该比较模块22,可以具体用于:

将该经分词和词向量化后的短文本进行哈希计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。

可选地,该管理模块23,可以具体用于:

根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度管理。

可选地,该评估模块24,可以具体用于:

根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。

该短文本相似度评估装置20的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。

本发明又提供一种短文本相似度评估设备,如图3所示,包括:至少一个处理器31;以及,与至少一个处理器31通信连接的存储器32;其中,存储器32存储有可被至少一个处理器31执行的指令,指令被至少一个处理器31执行,以使至少一个处理器31能够执行上述的短文本相似度评估方法。

其中,存储器32和处理器31采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器31和存储器32的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器31处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器31。

处理器31负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器32可以被用于存储处理器31在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

可以发现,以上方案,可以采用上下文词向量方式,对短文本进行分词和词向量化,和可以将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等,和可以根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,以及可以根据该经近似度管理后短文本,对短文本的近似度进行评估,能够实现提高对短文本相似度评估的准确率。

进一步的,以上方案,可以采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词,这样的好处是能够实现对短文本进行准确的分词和词向量化。

进一步的,以上方案,可以将该经分词和词向量化后的短文本进行哈希计算,将该经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,这样的好处是由于两个短文本在原有的数据空间具有一定的相似度,那么该两个短文本在分别经过哈希计算以后的短文本同样也具有一定的相似度,相反,如果该两个短文本本身是不相似的,那么该两个短文本在分别经过哈希计算以后的短文本同样也不相似,能够实现提高对短文本相似度评估的准确率。

进一步的,以上方案,可以根据该比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对该评分集合中对应的短文本进行近似度聚类管理,能够提高对短文本相似度评估的准确率。

进一步的,以上方案,可以根据该经近似度管理后短文本,采用在该相似度高集合不为空时,则取该相似度高集合得分最大的最为输出,如果在该相似度高集合为空,相似度低集合不为空时,将该相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在该相似度高集合和该相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估,这样的好处是能够实现提高对短文本相似度评估的准确率。

在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。


技术特征:

1.一种短文本相似度评估方法,其特征在于,包括:

采用上下文词向量方式,对短文本进行分词和词向量化;

将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;

根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理;

根据所述经近似度管理后短文本,对短文本的近似度进行评估。

2.如权利要求1所述的短文本相似度评估方法,其特征在于,所述采用上下文词向量方式,对短文本进行分词和词向量化,包括:

采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。

3.如权利要求1所述的短文本相似度评估方法,其特征在于,所述将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,包括:

将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。

4.如权利要求1所述的短文本相似度评估方法,其特征在于,所述根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理,包括:

根据所述比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理,这样的好处是能够实现通过将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度聚类管理。

5.如权利要求1所述的短文本相似度评估方法,其特征在于,所述根据所述经近似度管理后短文本,对短文本的近似度进行评估,包括:

根据所述经近似度管理后短文本,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。

6.一种短文本相似度评估装置,其特征在于,包括:

词处理模块、比较模块、管理模块和评估模块;

所述词处理模块,用于采用上下文词向量方式,对短文本进行分词和词向量化;

所述比较模块,用于将所述经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果;其中,所述比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果;

所述管理模块,用于根据所述比较结果,对短文本的相似度进行评分得到评分集合,对所述评分集合中对应的短文本进行近似度管理;

所述评估模块,用于根据所述经近似度管理后短文本,对短文本的近似度进行评估。

7.如权利要求6所述的短文本相似度评估装置,其特征在于,所述词处理模块,具体用于:

采用上下文词向量方式,通过开源已经训练好的中文预训练模型,经过特定的语料微调后,通过暴露服务,将短文本预先计算词向量,对短文本进行词向量化,和通过将业务领域的词入字典的方式,对短文本进行分词。

8.如权利要求6所述的短文本相似度评估装置,其特征在于,所述比较模块,具体用于:

将所述经分词和词向量化后的短文本进行哈希计算,将所述经哈希计算后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果。

9.如权利要求6所述的短文本相似度评估装置,其特征在于,所述管理模块,具体用于:

根据所述比较结果,采用对编辑距离高、语义距离低或者编辑距离低、语义距离高的进行惩罚的方式,对短文本的相似度进行评分得到评分集合,和采用将不小于预设分值的评分对应的短文本纳入相似度高的集合,将小于预设分值的评分对应的短文本纳入相似度低的集合的方式,对所述评分集合中对应的短文本进行近似度管理。

10.如权利要求6所述的短文本相似度评估装置,其特征在于,所述评估模块,具体用于:

根据所述经近似度管理后短文本,采用在所述相似度高集合不为空时,则取所述相似度高集合得分最大的最为输出,如果在所述相似度高集合为空,相似度低集合不为空时,将所述相似度低集合比较的短文本和被比较的短文本输入训练好的孪生相似网络,进行判定距离最近的,最为输出,在所述相似度高集合和所述相似度低集合都为空时,则没有相似的短文本的方式,对短文本的近似度进行评估。

技术总结
本发明公开了一种短文本相似度评估方法和装置以及设备。其中,所述方法包括:采用上下文词向量方式,对短文本进行分词和词向量化,和将该经分词和词向量化后的短文本与预先构建的局部敏感哈希文本库中对应的簇比较得到比较结果,其中,该比较结果包括编辑距离比较结果、模糊距离比较结果和语义距离比较结果等,和根据该比较结果,对短文本的相似度进行评分得到评分集合,对该评分集合中对应的短文本进行近似度管理,以及根据该经近似度管理后短文本,对短文本的近似度进行评估。通过上述方式,能够实现提高对短文本相似度评估的准确率。

技术研发人员:邹辉;肖龙源;蔡振华;李稀敏;刘晓葳;谭玉坤
受保护的技术使用者:厦门快商通科技股份有限公司
技术研发日:2020.01.02
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57448.html

最新回复(0)