本发明涉及金融科技(fintech)领域和情感分析领域,尤其涉及一种识别对话情感原因的方法及装置。
背景技术:
:随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出的更高的要求,情感识别与理解技术也是人机交互的基础性技术之一,目前在多种场景下,都有判断用户情感原因的需求。举例来说,用户进行投诉时,在电商平台上对用户产生情感的具体倾向(如产品问题)进行识别。现有技术中一般采用词库匹配的方式对用户的情感原因进行识别,如根据与词库匹配到的“质量差”一词,定位用户的情感原因为产品质量问题。显然,这种单一匹配的判断方式不够准确,如将“质量差不多,但物流较慢”判断为质量问题。因此,现有技术不能准确判断用户的情感原因,是一个亟待解决的问题。技术实现要素:本发明提供一种识别对话情感原因的方法及装置,解决了现有技术中不能准确判断用户的情感原因的问题。第一方面,本发明实施例提供一种识别对话情感原因的方法,包括:将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。上述方法中,首先将对话中各句子进行分词将每个句子中各词语的词向量进行叠加,获得每个句子的句子向量,再将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集,对所述对话做一个初步分类定位,再针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,进一步定位对话中每个句子的主题词,再根据所述句子集的主题词与情感词库中各类情感词的语义相似度,从而确定出目标情感词,该方法根据聚类模型、词频和语义相似度,逐步地缩小情感原因的范围,从而得到更准确的情感原因。可选地,所述根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。上述方法中,通过将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词,文档主题生成模型可以找到词语与词语之间的潜在关系,从而提供了一种自动得到所述句子集的主题词的方法。可选地,所述根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;确定所述句子集中的各相似词集;其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。上述方法中,首先确定所述句子集中各词语之间的语义相似度,并确定所述句子集中的各相似词集,由于每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值,因此相似词集中各词语的语义都相对接近,在各词语都相对接近的相似词集中,确定出能够所述相似词集的原始词,由于原始词的平均语义相似度不小于第二语义相似度阈值的词语,因此相似词集的原始词是相似词集中最能准确代表相似词集所呈现语义的词语,由于词频可以表征词语在句子集中所占篇幅,所以各相似词集中词频之和不小于设定阈值的相似词集的原始词,能够充分反应句子集的主题。可选地,所述根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词,包括:将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;所述根据各句子集的目标情感词,确定所述对话的情感原因,包括:将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。上述方式下,由于所述目标情感词满足与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,因此保证了所述对话的情感原因是考虑了各主题语义的,再将语义相似度最高的目标情感词确定为所述对话的情感原因,从而选择出最能反应对话整体语义的情感原因。可选地,按照以下方式,获得所述聚类模型:根据所述多个样本句子,获取多个样本点;所述多个样本点中每个样本点都与所述多个样本句子中的一个样本句子唯一映射;针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点每个样本点确定有归属的簇或确定为噪声点;所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点;将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。上述聚类方式下,并不需要事先知道要形成的簇类的数量,根据所述样本点的预设邻域内包含的相邻样本点数量与预设数量阈值的数量关系,可以发现任意形状的簇类,以及识别出噪声点,更加准确地学习到各样本点的知识;上述聚类方式对样本点的处理顺序要求较低,如果某个样本点先被纳入某个核心点的簇,之后有新的核心点的簇生成时,仍然可能发生样本点归属簇的变动,从而不会影响聚类模型的最终聚类结果,因此上述聚类方式得到的聚类模型更加准确。可选地,若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。上述方式下,获得到的考虑到聚类、词频以及语义相似度的主题词可以表征了一类相关的情感原因,如果所述句子集的主题词在所述情感词库中不存在映射的目标情感词,说明有相关主题的情感原因待补充,从而将所述主题词新增至所述情感词库,可以及时更新情感词库。第二方面,本发明提供一种识别对话情感原因的装置,包括:处理模块,用于将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;确定模块,用于针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。可选地,所述确定模块具体用于:将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。可选地,所述确定模块具体用于:根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;确定所述句子集中的各相似词集;其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。可选地,所述确定模块具体用于:将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。可选地,所述确定模块还用于:按照以下方式,获得所述聚类模型:根据所述多个样本句子,获取多个样本点;所述多个样本点中每个样本点都与所述多个样本句子中的一个样本句子唯一映射;针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点每个样本点确定有归属的簇或确定为噪声点;所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点;将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。可选地,所述确定模块还用于:若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。上述第二方面及第二方面各个实施例的有益效果,可以参考上述第一方面及第一方面各个可选实施方式的有益效果,这里不再赘述。第三方面,本发明提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选实施方式。第四方面,本发明提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行上述第一方面及第一方面各个可选实施方式。附图说明图1为本发明实施例提供的一种识别对话情感原因的方法的步骤流程示意图;图2为本发明实施例提供的一种识别对话情感原因的方法的聚类结果示意图;图3为本发明实施例提供的一种识别对话情感原因的装置的结构示意图。具体实施方式为了更好的理解上述技术方案,下面将结合说明书附图及具体的实施方式对上述技术方案进行详细的说明,应当理解本发明实施例以及实施例中的具体特征是对本发明技术方案的详细的说明,而不是对本发明技术方案的限定,在不冲突的情况下,本发明实施例以及实施例中的技术特征可以相互结合。在金融机构(银行机构、保险机构或证券机构)在进行业务(如银行的贷款业务、存款业务等)运转过程中,用户会向金融机构反馈用户体验、用户遇到的问题等信息,这些信息一般都带有情感原因,而信息的情感原因背后的产生原因往往是产品的痛点,这对金融机构对产品进行完善至关重要。情感计算是实现人性化的人机交互过程中必不可少的部分,情感识别与理解技术也是人机交互的基础性技术之一。若能挖掘出对用户的情绪产生的原因,对金融机构的服务质量提升有着重大的意义。然而,现有技术中,一般采用词库匹配的方式对用户的情感原因进行识别。显然,这种单一匹配的判断方式不够准确,不能准确判断用户的情感原因。这种情况不符合银行等金融机构的需求,不利于金融机构发现问题,也无法保证金融机构各项业务的高效运转。为此,如图1所示,本发明提供一种识别对话情感原因的方法。该方法可以从情感原因角度将对话进行分类和识别,能更有效地反应产品和服务的问题。需要说明的是,图1示出的识别对话情感原因的方法可以应用在多种场景下,如确定负向情感的情感原因,可以挖掘出造成用户负向情感的原因。步骤101:将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量。步骤102:将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集。所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的。步骤103:针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词。步骤104:根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。步骤102中的聚类模型可以按照以下方式训练获得,进行聚类时,多个样本句子均对应多维空间的一个点,具体过程可以为:第一步:根据所述多个样本句子,获取多个样本点。所述多个样本点中每个样本点都与所述多个样本句子中的一个样本句子唯一映射。举例来说,样本句子的句子向量为取n个维度,则样本句子一在n维空间映射的样本点为(a1-1,a1-2,…,a1-n);n为大于1的正整数。第二步:针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点每个样本点确定有归属的簇或确定为噪声点。所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点。举例来说,预设邻域为n维空间中两点间欧氏距离的距离阈值d。初次处理到样本点一,由于样本点一未参与迭代训练,如果样本点一的预设邻域d内包含的相邻样本点数量k1大于或等于预设数量阈值k,则确定样本点一为核心点,并建立以样本点一为核心点的簇,并确定样本点一的预设邻域内的样本点归属于以样本点一为核心点的簇;反之,若k1小于k,则确定样本点一为噪声点。第三步:将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。需要说明的是,步骤102的聚类结果示例如图2所示,其中类别1都是关于征信的,类别2都是关于扣款的。步骤103的一种可选实施方式中,步骤103具体可以为:将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。其中,文档主题生成模型不限,举例来说,文档主题生成模型为潜在分配(latentdirichletallocation,lda)文档主题生成模型。步骤103的另一种可选实施方式中,步骤103具体可以为:根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;确定所述句子集中的各相似词集;针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词。其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。举例来说,句子集a分词后包括{a1,a2,a3,a4,a5,a6,a7,a8,a9}这9个词语,分别确定a1~a9中各词语之间的语义相似度,相似词集为a1={a1,a2,a3};a2={a4,a5,a6};a3={a7,a8,a9}。每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值,举例来说,对于a1,a1和a2的语义相似度i(1,2)、a1和a3的语义相似度i(1,3)、a2和a3的语义相似度i(2,3)均不小于第一语义相似度。每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的,举例来说,a1的平均语义相似度可以为i(1)=[i(1,2) i(1,3)]/2,a1的平均语义相似度也可以是与所述相似词集中其它各词语的语义相似度加权平均之后的值,同理可求a2的平均语义相似度i(2)以及a3的平均语义相似度i(3)。若a1中a1的平均语义相似度i(1)最高,那么a1的原始词便是a1。如果,a1中a1,a2,a3在相似词集中的词频之和不小于设定阈值,便将a1的原始词a1作为句子集的主题词。步骤104的一种实施方式中,由于抽取出的主题词缺乏稳定性(每次抽取的主题词可能都不一样),所以可以在现有的数据下,明确主题词的类别(可以认为是标准化的情感原因),步骤104具体可以为:将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。举例来说,情感词库如表1所示,若a1的原始词a1为借钱,与表1中“还款”和“借款”的语义相似度均不小于第三语义相似度阈值,则“还款”和“借款”便为a1的目标情感词;进一步地,由于“借款”与“借钱”的语义相似度更高,则“借款”作为对话的情感原因。。扣款还款借款征信逾期延期到账微粒贷信用提现利息没有接到电话分期银行卡银行身份认证综合审核电话额度表1举例来说,采用语义相似度计算,主题词与情感词的映射结果如下(----→表示映射关系):看不到额度----→额度;电话没人接----→电话;银行处理----→银行;扣款失败----→扣款;绑定银行卡----→银行卡。需要说明的是,对于语义相似度较低无法得到相应映射的主题词,可添加到情感词库中,作为新的情感词,从而实现情感原因发现。因此,在另一种实施方式中,若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。举例来说,有如下新的情感词:还款通知、最低还款、9.9充50话费、0.1元免费试试。步骤101~步骤104的方法中,首先将对话中各句子进行分词将每个句子中各词语的词向量进行叠加,获得每个句子的句子向量,再将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集,对所述对话做一个初步分类定位,再针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,进一步定位对话中每个句子的主题词,再根据所述句子集的主题词与情感词库中各类情感词的语义相似度,从而确定出目标情感词,该方法根据聚类模型、词频和语义相似度,逐步地缩小情感原因的范围,从而得到更准确的情感原因。如图3所示,本发明提供一种识别对话情感原因的装置,包括:处理模块301,用于将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;确定模块302,用于针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。一种可选实施方式中,所述确定模块302具体用于:将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。一种可选实施方式中,所述确定模块302具体用于:根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;确定所述句子集中的各相似词集;其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。一种可选实施方式中,所述确定模块302具体用于:将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。一种可选实施方式中,所述确定模块还用于:按照以下方式,获得所述聚类模型:根据所述多个样本句子,获取多个样本点;所述多个样本点中每个样本点都与所述多个样本句子中的一个样本句子唯一映射;针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点每个样本点确定有归属的簇或确定为噪声点;所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点;将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。一种可选实施方式中,所述确定模块302还用于:若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。本发明实施例提供一种计算机设备,包括程序或指令,当所述程序或指令被执行时,用以执行本发明实施例提供的一种识别对话情感原因的方法及任一可选方法。本发明实施例提供一种存储介质,包括程序或指令,当所述程序或指令被执行时,用以执行本发明实施例提供的一种识别对话情感原因的方法及任一可选方法。最后应说明的是:本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、光学存储器等)上实施的计算机程序产品的形式。本发明是参照根据本发明的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。当前第1页1 2 3 
技术特征:1.一种识别对话情感原因的方法,其特征在于,包括:
将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;
将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;
针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;
根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。
2.如权利要求1所述的方法,其特征在于,所述至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:
将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。
3.如权利要求1所述的方法,其特征在于,所述至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词,包括:
根据所述句子集中每个句子中各词语的词向量,确定所述句子集中各词语之间的语义相似度;
确定所述句子集中的各相似词集;其中,每个相似词集中各词语的词向量之间的语义相似度均不小于第一语义相似度阈值;
针对每个相似词集,将所述相似词集中平均语义相似度不小于第二语义相似度阈值的词语作为所述相似词集的原始词;其中,每个词语的平均语义相似度为所述词语与所述相似词集中其它各词语的语义相似度确定的;
将各相似词集中词频之和不小于设定阈值的相似词集的原始词,作为所述句子集的主题词;所述相似词集的词频之和是为所述相似词集中各词语的词频之和。
4.如权利要求1所述的方法,其特征在于,所述根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词,包括:
将所述情感词库中与所述主题词的语义相似度不小于第三语义相似度阈值的情感词,确定为所述目标情感词;
所述根据各句子集的目标情感词,确定所述对话的情感原因,包括:
将所述各句子集的目标情感词中与对应的主题词的语义相似度最高的目标情感词确定为所述对话的情感原因。
5.如权利要求1-4任一所述的方法,其特征在于,按照以下方式,获得所述聚类模型:
根据所述多个样本句子,获取多个样本点;所述多个样本点中每个样本点与所述多个样本句子中的一个样本句子唯一映射;
针对所述多个样本点中每个样本点,执行迭代训练,直至所述多个样本点中的每个样本点确定有归属的簇或确定为噪声点;所述迭代训练为:若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量大于或等于预设数量阈值,则确定所述样本点为核心点,并建立所述核心点的簇,以及确定所述预设邻域内包含的相邻样本点归属于所述核心点的簇;若所述样本点未参与所述迭代训练,且所述样本点的预设邻域内包含的相邻样本点数量小于所述预设数量阈值,确定所述样本点为噪声点;
将所述多个样本点执行所述迭代训练得到的各核心点的簇,对应于所述聚类模型的类别,从而得到所述聚类模型。
6.如权利要求1-4任一所述的方法,其特征在于,还包括:
若确定所述句子集的主题词在所述情感词库中不存在映射的目标情感词,则将所述主题词新增至所述情感词库。
7.一种识别对话情感原因的装置,其特征在于,包括:
处理模块,用于将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;所述聚类模型是根据多个样本句子按照预设聚类算法训练获得的;
确定模块,用于针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。
8.如权利要求7所述的装置,其特征在于,所述确定模块具体用于:
将所述句子集中的各句子输入文档主题生成模型,得到所述句子集的主题词;所述文档主题生成模型是通过多个样本句子中的词语的词频训练得到的。
9.一种计算机设备,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至6中任意一项所述的方法被执行。
10.一种存储介质,其特征在于,包括程序或指令,当所述程序或指令被执行时,如权利要求1至6中任意一项所述的方法被执行。
技术总结本发明公开了一种识别对话情感原因的方法及装置,其中方法为:将对话中各句子进行分词,对分词后每个句子中各词语的词向量进行叠加,获得每个句子的句子向量;将所述对话中各句子的句子向量输入聚类模型,得到所述各句子对应的各句子集;针对每个句子集,至少根据所述句子集中各句子的词语的词频确定所述句子集的主题词;根据所述句子集的主题词与情感词库中各类情感词的语义相似度,确定出所述句子集的主题词在所述情感词库中存在映射的目标情感词;根据各句子集的目标情感词,确定所述对话的情感原因。
技术研发人员:蔡林;杨海军;徐倩;杨强
受保护的技术使用者:深圳前海微众银行股份有限公司
技术研发日:2020.01.15
技术公布日:2020.06.05