基于词语特征的相似度计算方法、装置、设备及存储介质与流程

专利2022-06-29  75


本发明涉及相似度匹配技术领域,尤其涉及一种基于词语特征的相似度计算方法、装置、设备及存储介质。



背景技术:

在传统的客服系统或培训系统中,往往需要投入大量的人力和资源去响应业务请求,且对工作人员的专业性和熟练性要求较高,运营成本居高不下,且人力留存率较低,因此在智能化转型过程中,对于智能问答系统的需求迫在眉睫。

目前业内主流的搭建智能问答系统的方式是基于检索式的方法,即从问答系统知识库中召回跟用户问题最相似的问题,其中文本相似度计算是检索式召回中的核心模块。现有的文本相似度计算方法主要包括深度学习模型方式、单层次的字面匹配计算(例如关键词匹配、编辑距离、杰卡德jaccard相似度等)。其中基于深度学习模型的语义表征方法对数据的样本量需求较大,且对新增问题库语料迭代缓慢,不易于扩展,而基于单层次的字面匹配方法,本质上是设置了每个token(词/字)的权重一样,无法有效地体现出具体业务场景下不同层次词语的贡献程度,从而影响了具体业务场景下文本相似度的度量。



技术实现要素:

本发明提供了一种基于词语特征的相似度计算方法、装置、设备及存储介质,用于反映特定业务场景下需要优先匹配的词语类型,体现文本语义包含关系,提高特定业务场景下文本相似度值的计算准确性。

本发明实施例的第一方面提供一种基于词语特征的相似度计算方法,包括:获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

可选的,在本发明实施例第一方面的第一种实现方式中,所述根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景,包括:根据所述原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,所述预置的应用场景包含多个预先设置的应用场景;获取所述目标应用场景对应的目标分词标准;在所述目标应用场景下查找与所述原始问题文本语义相似的相似问题文本。

可选的,在本发明实施例第一方面的第二种实现方式中,所述在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征。

可选的,在本发明实施例第一方面的第三种实现方式中,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:基于所述目标分词标准对所述原始问题文本进行分词,得到原始问题文本的分词结果;基于所述目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;对所述原始问题文本的分词结果和所述候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,在本发明实施例第一方面的第四种实现方式中,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:基于所述目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;获取所述候选问题文本的预置分词结果,其中,所述预置分词结果为根据所述目标分词标准预先对候选问题文本进行离线分词的结果;对所述原始问题文本的分词结果和所述候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,在本发明实施例第一方面的第五种实现方式中,所述根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度,包括:

将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

可选的,在本发明实施例第一方面的第六种实现方式中,所述将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度,包括:通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

本发明实施例的第二方面提供了一种基于词语特征的相似度计算装置,包括:获取单元,用于获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;确定单元,用于根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;选择提取单元,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;计算单元,用于根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;生成单元,用于将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;比较选择单元,用于将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

可选的,在本发明实施例第二方面的第一种实现方式中,确定单元具体用于:根据所述原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,所述预置的应用场景包含多个预先设置的应用场景;获取所述目标应用场景对应的目标分词标准;在所述目标应用场景下查找与所述原始问题文本语义相似的相似问题文本。

可选的,在本发明实施例第二方面的第二种实现方式中,选择提取单元包括:选择模块,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;分词识别模块,用于基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征。

可选的,在本发明实施例第二方面的第三种实现方式中,分词识别模块具体用于:基于所述目标分词标准对所述原始问题文本进行分词,得到原始问题文本的分词结果;基于所述目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;对所述原始问题文本的分词结果和所述候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,在本发明实施例第二方面的第四种实现方式中,分词识别具体还用于:基于所述目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;获取所述候选问题文本的预置分词结果,其中,所述预置分词结果为根据所述目标分词标准预先对候选问题文本进行离线分词的结果;对所述原始问题文本的分词结果和所述候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,在本发明实施例第二方面的第五种实现方式中,计算单元具体用于:将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为

其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

可选的,在本发明实施例第二方面的第六种实现方式中,生成单元具体用于:通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

本发明实施例的第三方面提供了一种基于词语特征的相似度计算设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一实施方式所述的基于词语特征的相似度计算方法。

本发明实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现上述任一实施方式所述的基于词语特征的相似度计算方法的步骤。

本发明实施例提供的技术方案中,获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。本发明实施例,采用基于用户问题的正向匹配和基于标准问题的反向匹配的方式来分别计算正向文本相似度和反向文本相似度,将正向文本相似度和反向文本相似度进行融合得到最终的相似度计算值,反映了特定业务场景下需要优先匹配的词语类型,体现了文本语义包含关系,提高了特定业务场景下文本相似度值的计算准确性。

附图说明

图1为本发明实施例中基于词语特征的相似度计算方法的一个实施例示意图;

图2为本发明实施例中基于词语特征的相似度计算方法的另一个实施例示意图;

图3为本发明实施例中基于词语特征的相似度计算装置的一个实施例示意图;

图4为本发明实施例中基于词语特征的相似度计算装置的另一个实施例示意图;

图5为本发明实施例中基于词语特征的相似度计算设备的一个实施例示意图。

具体实施方式

本发明提供了一种基于词语特征的相似度计算方法、装置、设备及存储介质,用于反映特定业务场景下需要优先匹配的词语类型,体现文本语义包含关系,提高特定业务场景下文本相似度值的计算准确性。

为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例进行描述。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1,本发明实施例提供的基于词语特征的相似度计算方法的流程图,具体包括:

101、获取原始问题文本,原始问题文本用于指示查找原始问题文本对应的答案。

服务器获取原始问题文本,原始问题文本用于指示查找原始问题文本对应的答案。

需要说明的是,对于一个原始问题文本,对应的答案可能有多种,例如,原始问题文本为:“体检的科目包括哪些?”,对应的答案可能包括下列一个或多个答案:“耳鼻喉科”、“血常规”、“乙肝五项检查”、“和尿常规检查”、“心电图”或“b超”等,具体此处不做限定。

可以理解的是,本发明的执行主体可以为基于词语特征的相似度计算装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

102、根据原始问题文本和预置的应用场景确定目标应用场景,并获取目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,预置的应用场景包含预先设置的多个候选场景。

具体的,(1)根据原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,预置的应用场景包含多个预先设置的应用场景;

(2)获取目标应用场景对应的目标分词标准;

不同的业务场景的分词标准不同,不同业务场景下的词语可以划分为多个不同的层次,以及设置每个层次的词语权重。例如,在平安寿险智能问答系统实际应用中,词语分词标准为六个类别:保险产品实体、疾病名称实体、地点名称实体、职业名称实体、服务操作类关键词(例如“投保”、“理赔”)、其他词,不同类别中词语所占的权重不同。

(3)在目标应用场景下查找与原始问题文本语义相似的相似问题文本。

其中,目标应用场景下会存在多个相似问题文本,例如,在寿险保险智能问答系统中,可以包括:“平安福投保”、“平安福怎么投保”和“平安福怎么缴费”等问题,若原始问题文本为“我要投保平安福”,那么可以将“平安福投保”、“平安福怎么投保”都确定为相似标准问题文本。

需要说明的是,同样的一个问题,可能有不同的表达方式,例如,原始问题文本为:“岗前培训有哪些重点”,与该原始问题文本语义相似的相似问题文本可以为:“岗前培训的重点内容”或“岗前培训的重点包括哪些?”。又例如,原始问题文本为:“肠胃炎投保”,与该原始问题文本语义相似的相似问题文本为:“肠胃炎投保能投保吗”或“急性肠胃炎投保”或“急性肠胃炎可以买保险吗?”。

103、在多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据目标分词标准提取原始问题文本的词语特征和候选问题文本的词语特征。

具体的:服务器在多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;服务器基于目标分词标准对原始问题文本和候选问题文本分别进行分词和命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征。

其中,服务器基于目标分词标准对原始问题文本和候选问题文本分别进行分词和命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,可以包括:服务器基于目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;服务器基于目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;服务器对原始问题文本的分词结果和候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

例如,对于原始问题文本“肠胃炎投保”而言,选择“肠胃炎投保能投保吗”作为候选问题文本。需要说明的是,实体识别,关键词识别等可采用ner模型或者词典等形式,具体此处不做限定。

或者,还可以包括:服务器基于目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;服务器获取候选问题文本的预置分词结果,其中,预置分词结果为根据目标分词标准预先对候选问题文本进行离线分词的结果;服务器对原始问题文本的分词结果和候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

例如,原始问题文本为:“我要投保平安福”,而候选问题文本为:“平安福投保”,对原始问题文本和候选问题文本进行预处理,实践操作中可将部分词语作为停顿词将其去除。问题文本经过预处理后,采用预置的实体识别模型或关键词识别模型获取原始问题文本和候选问题文本的各个层次的词语特征。例如,原始问题文本的词语特征为:(我,其他词)(要,其他词)(投保,关键词)(平安福,保险实体词)。候选问题文本的词语特征为:(平安福,保险实体词)(投保,关键词)。

104、根据原始问题文本的词语特征和候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度。

服务器将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,服务器将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

例如,原始问题文本为:“我要投保平安福”,而候选问题文本为:“平安福投保”;原始问题文本的词语特征为:(我,其他词)(要,其他词)(投保,关键词)(平安福,保险实体词);候选问题文本的词语特征为:(平安福,保险实体词)(投保,关键词)。假设实体词(包括)的权重为3,关键词的权重为2,其他词的权重为1,那么对于原始问题文本a“我要投保平安福”和候选问题文本b“平安福投保”两个文本的正向匹配结果为:score(正向)=1/(1 1 2 3)*max(jaccard(我,平安福),jaccard(我,投保)) 1/(1 1 2 3)*max(jaccard(要,平安福),jaccard(要,投保)) 2/(1 1 2 3)*max(jaccard(投保,平安福),jaccard(投保,投保)) 3/(1 1 2 3)*max(jaccard(平安福,平安福),jaccard(平安福,投保))=1/8*0 1/8*0 2/8*1 3/8*1=5/8。反向匹配结果为:score(反向)=3/(3 2)*max(jaccard(平安福,我),jaccard(平安福,要),jaccard(平安福,投保),jaccard(平安福,平安福)) 2/(3 2)*max(jaccard(投保,我),jaccard(投保,要),jaccard(投保,投保),jaccard(投保,平安福))=3/5 2/5=1。

105、将正向文本相似度和反向文本相似度进行特征融合,生成相似度匹配分值,相似度匹配分值用于指示原始问题文本与候选问题文本之间的相似程度。

服务器将正向文本相似度和反向文本相似度进行特征融合,生成相似度匹配分值,相似度匹配分值用于指示原始问题文本与候选问题文本之间的相似程度。具体的,服务器通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;服务器计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

例如,原始问题文本(用户问题)是:“胃癌能否投保平安福”,对应业务场景下问题库中包含的候选问题文本1为:“胃癌可以投保平安福吗”,候选问题文本2为:“胃癌可以投保平安福和爱满分吗”,假设特征融合的权值分别是:w1=0.6,w2=0.4,b=0,那么计算得到,候选问题文本1的相似度匹配分值为:score1=0.6*(8/9) 0.4*(8/10)=0.853,候选问题文本2的相似度匹配分值为:score2=0.6*(8/9) 0.4*(8/14)=0.762。很显然“胃癌能否投保平安福”和“胃癌可以投保平安福吗”语义上是等价的,“胃癌能否投保平安福”和“胃癌可以投保平安福和爱满分吗”语义上是不等价的;因此对寿险保险智能问答系统来说,候选问题文本1的相似度匹配分值要大于候选问题文本2的相似度匹配分值。如果只有正向匹配,两个候选问题文本的得分是一样的,都是8/9,这是不合理的,因为候选问题文本2的语义上包含了原始问题文本,不是跟原始问题文本是等价的。同时考虑了正向匹配和反向匹配,改进了文本相似匹配算法,一定程度上优化文本语义包含的问题。

106、将多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择目标相似度值对应的候选问题文本作为标准问题文本。

服务器将多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择目标相似度值对应的候选问题文本作为标准问题文本。

针对每个原始问题文本,会有n个候选问题文本,服务器计算每个候选问题文本与原始问题文本之间的相似度,按照相似度值的大小进行排序,找到相似度最高的候选问题文本,并确定为标准问题文本。

本发明实施例,采用基于用户问题的正向匹配和基于标准问题的反向匹配的方式来分别计算正向文本相似度和反向文本相似度,将正向文本相似度和反向文本相似度进行融合得到最终的相似度计算值,反映了特定业务场景下需要优先匹配的词语类型,体现了文本语义包含关系,提高了特定业务场景下文本相似度值的计算准确性。

请参阅图2,本发明实施例提供的基于词语特征的相似度计算方法的另一个流程图,具体包括:

201、获取原始问题文本,原始问题文本用于指示查找原始问题文本对应的答案。

服务器获取原始问题文本,原始问题文本用于指示查找原始问题文本对应的答案。

需要说明的是,对于一个原始问题文本,对应的答案可能有多种,例如,原始问题文本为:“体检的科目包括哪些?”,对应的答案可能包括下列一个或多个答案:“耳鼻喉科”、“血常规”、“乙肝五项检查”、“和尿常规检查”、“心电图”或“b超”等,具体此处不做限定。

可以理解的是,本发明的执行主体可以为基于词语特征的相似度计算装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。

202、根据原始问题文本和预置的应用场景确定目标应用场景,并获取目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,预置的应用场景包含预先设置的多个候选场景。

具体的,(1)根据原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,预置的应用场景包含多个预先设置的应用场景;

(2)获取目标应用场景对应的目标分词标准;

不同的业务场景的分词标准不同,不同业务场景下的词语可以划分为多个不同的层次,以及设置每个层次的词语权重。例如,在平安寿险智能问答系统实际应用中,词语分词标准为六个类别:保险产品实体、疾病名称实体、地点名称实体、职业名称实体、服务操作类关键词(例如“投保”、“理赔”)、其他词,不同类别中词语所占的权重不同。

(3)在目标应用场景下查找与原始问题文本语义相似的相似问题文本。

其中,目标应用场景下会存在多个相似问题文本,例如,在寿险保险智能问答系统中,可以包括:“平安福投保”、“平安福怎么投保”和“平安福怎么缴费”等问题,若原始问题文本为“我要投保平安福”,那么可以将“平安福投保”、“平安福怎么投保”都确定为相似标准问题文本。

需要说明的是,同样的一个问题,可能有不同的表达方式,例如,原始问题文本为:“岗前培训有哪些重点”,与该原始问题文本语义相似的相似问题文本可以为:“岗前培训的重点内容”或“岗前培训的重点包括哪些?”。又例如,原始问题文本为:“肠胃炎投保”,与该原始问题文本语义相似的相似问题文本为:“肠胃炎投保能投保吗”或“急性肠胃炎投保”或“急性肠胃炎可以买保险吗?”。

203、在多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本。

服务器在多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本。

例如,对于原始问题文本“肠胃炎投保”而言,与该原始问题文本语义相似的相似问题文本为:“肠胃炎投保能投保吗”或“急性肠胃炎投保”或“急性肠胃炎可以买保险吗?”,选择“肠胃炎投保能投保吗”作为候选问题文本。

204、基于目标分词标准对原始问题文本和候选问题文本分别进行分词和命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征。

具体的,服务器基于目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;服务器基于目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;服务器对原始问题文本的分词结果和候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

或者,服务器基于目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;服务器获取候选问题文本的预置分词结果,其中,预置分词结果为根据目标分词标准预先对候选问题文本进行离线分词的结果;服务器对原始问题文本的分词结果和候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

例如,原始问题文本为:“我要投保平安福”,而候选问题文本为:“平安福投保”,对原始问题文本和候选问题文本进行预处理,实践操作中可将部分词语作为停顿词将其去除。问题文本经过预处理后,采用预置的实体识别模型或关键词识别模型获取原始问题文本和候选问题文本的各个层次的词语特征。例如,原始问题文本的词语特征为:(我,其他词)(要,其他词)(投保,关键词)(平安福,保险实体词)。候选问题文本的词语特征为:(平安福,保险实体词)(投保,关键词)。

205、根据原始问题文本的词语特征和候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度。

服务器将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,服务器将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

例如,原始问题文本为:“我要投保平安福”,而候选问题文本为:“平安福投保”;原始问题文本的词语特征为:(我,其他词)(要,其他词)(投保,关键词)(平安福,保险实体词);候选问题文本的词语特征为:(平安福,保险实体词)(投保,关键词)。假设实体词(包括)的权重为3,关键词的权重为2,其他词的权重为1,那么对于原始问题文本a“我要投保平安福”和候选问题文本b“平安福投保”两个文本的正向匹配结果为:score(正向)=1/(1 1 2 3)*max(jaccard(我,平安福),jaccard(我,投保)) 1/(1 1 2 3)*max(jaccard(要,平安福),jaccard(要,投保)) 2/(1 1 2 3)*max(jaccard(投保,平安福),jaccard(投保,投保)) 3/(1 1 2 3)*max(jaccard(平安福,平安福),jaccard(平安福,投保))=1/8*0 1/8*0 2/8*1 3/8*1=5/8。反向匹配结果为:score(反向)=3/(3 2)*max(jaccard(平安福,我),jaccard(平安福,要),jaccard(平安福,投保),jaccard(平安福,平安福)) 2/(3 2)*max(jaccard(投保,我),jaccard(投保,要),jaccard(投保,投保),jaccard(投保,平安福))=3/5 2/5=1。

206、将正向文本相似度和反向文本相似度进行特征融合,生成相似度匹配分值,相似度匹配分值用于指示原始问题文本与候选问题文本之间的相似程度。

服务器将正向文本相似度和反向文本相似度进行特征融合,生成相似度匹配分值,相似度匹配分值用于指示原始问题文本与候选问题文本之间的相似程度。具体的,服务器通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;服务器计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

例如,原始问题文本(用户问题)是:“胃癌能否投保平安福”,对应业务场景下问题库中包含的候选问题文本1为:“胃癌可以投保平安福吗”,候选问题文本2为:“胃癌可以投保平安福和爱满分吗”,假设特征融合的权值分别是:w1=0.6,w2=0.4,b=0,那么计算得到,候选问题文本1的相似度匹配分值为:score1=0.6*(8/9) 0.4*(8/10)=0.853,候选问题文本2的相似度匹配分值为:score2=0.6*(8/9) 0.4*(8/14)=0.762。很显然“胃癌能否投保平安福”和“胃癌可以投保平安福吗”语义上是等价的,“胃癌能否投保平安福”和“胃癌可以投保平安福和爱满分吗”语义上是不等价的;因此对寿险保险智能问答系统来说,候选问题文本1的相似度匹配分值要大于候选问题文本2的相似度匹配分值。如果只有正向匹配,两个候选问题文本的得分是一样的,都是8/9,这是不合理的,因为候选问题文本2的语义上包含了原始问题文本,不是跟原始问题文本是等价的。同时考虑了正向匹配和反向匹配,改进了文本相似匹配算法,一定程度上优化文本语义包含的问题。

207、将多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择目标相似度值对应的候选问题文本作为标准问题文本。

服务器将多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择目标相似度值对应的候选问题文本作为标准问题文本。

针对每个原始问题文本,会有n个候选问题文本,服务器计算每个候选问题文本与原始问题文本之间的相似度,按照相似度值的大小进行排序,找到相似度最高的候选问题文本,并确定为标准问题文本。

本发明实施例,采用基于用户问题的正向匹配和基于标准问题的反向匹配的方式来分别计算正向文本相似度和反向文本相似度,将正向文本相似度和反向文本相似度进行融合得到最终的相似度计算值,反映了特定业务场景下需要优先匹配的词语类型,体现了文本语义包含关系,提高了特定业务场景下文本相似度值的计算准确性。

上面对本发明实施例中基于词语特征的相似度计算方法进行了描述,下面对本发明实施例中基于词语特征的相似度计算装置进行描述,请参阅图3,本发明实施例中基于词语特征的相似度计算装置的一个实施例包括:

获取单元301,用于获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;

确定单元302,用于根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;

选择提取单元303,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;

计算单元304,用于根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;

生成单元305,用于将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;

比较选择单元306,用于将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

本发明实施例,采用基于用户问题的正向匹配和基于标准问题的反向匹配的方式来分别计算正向文本相似度和反向文本相似度,将正向文本相似度和反向文本相似度进行融合得到最终的相似度计算值,反映了特定业务场景下需要优先匹配的词语类型,体现了文本语义包含关系,提高了特定业务场景下文本相似度值的计算准确性。

请参阅图4,本发明实施例中基于词语特征的相似度计算装置的另一个实施例包括:

获取单元301,用于获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;

确定单元302,用于根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;

选择提取单元303,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;

计算单元304,用于根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;

生成单元305,用于将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;

比较选择单元306,用于将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

可选的,确定单元302具体用于:

根据所述原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,所述预置的应用场景包含多个预先设置的应用场景;获取所述目标应用场景对应的目标分词标准;在所述目标应用场景下查找与所述原始问题文本语义相似的相似问题文本。

可选的,选择提取单元303包括:

选择模块3031,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;

分词识别模块3032,用于基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征。

可选的,分词识别模块3032具体用于:

基于所述目标分词标准对所述原始问题文本进行分词,得到原始问题文本的分词结果;基于所述目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;对所述原始问题文本的分词结果和所述候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,分词识别模块3032具体还用于:

基于所述目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;获取所述候选问题文本的预置分词结果,其中,所述预置分词结果为根据所述目标分词标准预先对候选问题文本进行离线分词的结果;对所述原始问题文本的分词结果和所述候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

可选的,计算单元304具体用于:

将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为,其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

可选的,生成单元305具体用于:

通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

本发明实施例,采用基于用户问题的正向匹配和基于标准问题的反向匹配的方式来分别计算正向文本相似度和反向文本相似度,将正向文本相似度和反向文本相似度进行融合得到最终的相似度计算值,反映了特定业务场景下需要优先匹配的词语类型,体现了文本语义包含关系,提高了特定业务场景下文本相似度值的计算准确性。

上面图3至图4从模块化功能实体的角度对本发明实施例中的基于词语特征的相似度计算装置进行详细描述,下面从硬件处理的角度对本发明实施例中基于词语特征的相似度计算设备进行详细描述。

图5是本发明实施例提供的一种基于词语特征的相似度计算设备的结构示意图,该基于词语特征的相似度计算设备500可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(centralprocessingunits,cpu)501(例如,一个或一个以上处理器)和存储器509,一个或一个以上存储应用程序507或数据506的存储介质508(例如一个或一个以上海量存储设备)。其中,存储器509和存储介质508可以是短暂存储或持久存储。存储在存储介质508的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对基于词语特征的相似度计算设备中的一系列指令操作。更进一步地,处理器501可以设置为与存储介质508通信,在基于词语特征的相似度计算设备500上执行存储介质508中的一系列指令操作。

基于词语特征的相似度计算设备500还可以包括一个或一个以上电源502,一个或一个以上有线或无线网络接口503,一个或一个以上输入输出接口504,和/或,一个或一个以上操作系统505,例如windowsserve,macosx,unix,linux,freebsd等等。本领域技术人员可以理解,图5中示出的基于词语特征的相似度计算设备结构并不构成对基于词语特征的相似度计算设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。处理器501可以执行上述实施例中获取单元301、确定单元302、选择提取单元303、计算单元304、生成单元305和比较选择单元306的功能。

下面结合图5对基于词语特征的相似度计算设备的各个构成部件进行具体的介绍:

处理器501是基于词语特征的相似度计算设备的控制中心,可以按照设置的基于词语特征的相似度计算方法进行处理。处理器501利用各种接口和线路连接整个基于词语特征的相似度计算设备的各个部分,通过运行或执行存储在存储器509内的软件程序和/或模块,以及调用存储在存储器509内的数据,执行基于词语特征的相似度计算设备的各种功能和处理数据,从而提高了关键词的召回率,提高了每个关键词的综合分数,提高了关键词抽取的准确率。存储介质508和存储器509都是存储数据的载体,本发明实施例中,存储介质508可以是指储存容量较小,但速度快的内存储器,而存储器509可以是储存容量大,但储存速度慢的外存储器。

存储器509可用于存储软件程序以及模块,处理器501通过运行存储在存储器509的软件程序以及模块,从而执行基于词语特征的相似度计算设备500的各种功能应用以及数据处理。存储器509可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如根据原始问题文本的词语特征和候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度)等;存储数据区可存储根据基于词语特征的相似度计算设备的使用所创建的数据(比如相似度匹配分值等)等。此外,存储器509可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在本发明实施例中提供的基于词语特征的相似度计算方法程序和接收到的数据流存储在存储器中,当需要使用时,处理器501从存储器509中调用。

以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。


技术特征:

1.一种基于词语特征的相似度计算方法,其特征在于,包括:

获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;

根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;

在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;

根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;

将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;

将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

2.根据权利要求1所述的基于词语特征的相似度计算方法,其特征在于,所述根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景,包括:

根据所述原始问题文本在预置的应用场景中选择任意一个应用场景作为目标应用场景,所述预置的应用场景包含多个预先设置的应用场景;

获取所述目标应用场景对应的目标分词标准;

在所述目标应用场景下查找与所述原始问题文本语义相似的相似问题文本。

3.根据权利要求1所述的基于词语特征的相似度计算方法,其特征在于,所述在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:

在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本;

基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征。

4.根据权利要求3所述的基于词语特征的相似度计算方法,其特征在于,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:

基于所述目标分词标准对所述原始问题文本进行分词,得到原始问题文本的分词结果;

基于所述目标分词标准对候选问题文本进行分词,得到候选问题文本的分词结果;

对所述原始问题文本的分词结果和所述候选问题文本的分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

5.根据权利要求3所述的基于词语特征的相似度计算方法,其特征在于,所述基于所述目标分词标准对所述原始问题文本和所述候选问题文本分别进行分词和命名实体识别,得到所述原始问题文本的词语特征和所述候选问题文本的词语特征,包括:

基于所述目标分词标准对原始问题文本进行分词,得到原始问题文本的分词结果;

获取所述候选问题文本的预置分词结果,其中,所述预置分词结果为根据所述目标分词标准预先对候选问题文本进行离线分词的结果;

对所述原始问题文本的分词结果和所述候选问题文本的预置分词结果分别进行命名实体识别,得到原始问题文本的词语特征和候选问题文本的词语特征,所述原始问题文本的词语特征包括标注好的原始词语和对应的原始词语词性,所述候选问题文本的词语特征包括标注好的候选词语和对应的候选词语词性。

6.根据权利要求1所述的基于词语特征的相似度计算方法,其特征在于,所述根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度,包括:

将原始问题文本确定为基准问题文本,将候选问题文本确定为匹配问题文本,并基于预置匹配公式计算得到正向文本相似度,预置匹配公式为其中a表示基准问题文本,b表示匹配问题文本,la表示基准问题文本a的词语token个数,wa,i表示基准问题文本a中所有层次的token归一化后的权重,tokena,i表示基准问题文本对应下标的token、tokenb,j表示匹配问题文本对应下标的token,jaccard表示两个token的相似度系数,

将候选问题文本确定为基准问题文本,将原始问题文本确定为匹配问题文本,并基于预置匹配公式计算得到反向文本相似度。

7.根据权利要求1-6中任一项所述的基于词语特征的相似度计算方法,其特征在于,所述将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度,包括:

通过预置公式将正向文本相似度和反向文本相似度进行融合,预置公式为:score=w1*score(正向) w2*score(反向) b,其中,b为常数,w1、w2为权重常数;

计算得到相似度匹配分值score,所述相似度匹配分值指示所述原始问题文本与所述候选问题文本之间的相似程度。

8.一种基于词语特征的相似度计算装置,其特征在于,包括:

获取单元,用于获取原始问题文本,所述原始问题文本用于指示查找所述原始问题文本对应的答案;

确定单元,用于根据所述原始问题文本和预置的应用场景确定目标应用场景,并获取所述目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本,所述预置的应用场景包含预先设置的多个候选场景;

选择提取单元,用于在所述多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据所述目标分词标准提取所述原始问题文本的词语特征和所述候选问题文本的词语特征;

计算单元,用于根据所述原始问题文本的词语特征和所述候选问题文本的词语特征分别进行计算,得到正向文本相似度和反向文本相似度;

生成单元,用于将所述正向文本相似度和所述反向文本相似度进行特征融合,生成相似度匹配分值,所述相似度匹配分值用于指示所述原始问题文本与所述候选问题文本之间的相似程度;

比较选择单元,用于将所述多个候选问题文本对应的候选相似度值进行比较,将数值最大的候选相似度值确定为目标相似度值,并选择所述目标相似度值对应的候选问题文本作为标准问题文本。

9.一种基于词语特征的相似度计算设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-7中任意一项所述的基于词语特征的相似度计算方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时实现如权利要求1-7中任意一项所述的基于词语特征的相似度计算方法。

技术总结
本发明涉及人工智能领域,公开了基于词语特征的相似度计算方法、装置、设备及存储介质,用于提高特定业务场景下文本相似度值的计算准确性。本发明方法包括:获取原始问题文本;根据原始问题文本和预置的应用场景确定目标应用场景,并获取目标应用场景对应的目标分词标准以及多个语义相似的相似问题文本;在多个语义相似的相似问题文本中选择任意一个相似问题文本作为候选问题文本,并根据目标分词标准提取原始问题文本的词语特征和候选问题文本的词语特征;得到正向文本相似度和反向文本相似度;生成相似度匹配分值;将数值最大的候选相似度值确定为目标相似度值,并选择目标相似度值对应的候选问题文本作为标准问题文本。

技术研发人员:金培根;刘志慧;陆林炳;何斐斐;林加新;李炫
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2020.01.15
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-24678.html

最新回复(0)