本发明涉及人工智能技术领域,尤其涉及一种自然语言处理中的情感智能识别方法、装置及计算机可读存储介质。
背景技术:
情感识别是自然语言处理的一个重要任务,也是人工智能领域的重要领域,在工业界也有着广泛的应用,如商品评论情感识别、基于文本的智能客服情感识别、以及讨论主题的用户情感识别等。因此,如何提高情感别的准确性有着重要意义。目前,常见的情感识别方法很少考虑用户表达的上下文环境,导致在情感识别过程无法正确识别用户的真正的情感,尤其是在基于文本对话的场景下,智能客服和用户经常是对轮对话,在对话的过程中用户的情感受谈论的主题、智能客服的表达方式等多方面的影响。
技术实现要素:
本发明提供一种基于人工智能的情感智能识别方法、装置及计算机可读存储介质,其主要目的在于提供一种能够根据用户对话的上下文环境,对用户情感进行识别的方案。
为实现上述目的,本发明提供的一种情感智能识别方法,包括:
获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集;
计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集;
将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集;
利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
可选地,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
可选地,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wj的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wi和wj的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
可选地,所述编码和解码操作包括:
对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集;
采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
可选地,所述动态规划算法包括:
v1,k=p(y1|k)·πk
vt,k=p(yt|k)·maxx∈s(ax,k·vt-1,x)
其中,v1,k表示第1个状态序列为k对应输出的状态序列概率,p表示概率值,y1表示第1个状态序列的输出值,k表示状态序列,πk表示初始状态k的概率维;vt,k表示第t个状态为k对应输出的状态序列概率,yt表示第t个状态序列的输出值,s表示状态空间,ax,k表示从状态列x到状态k的转移概率,vt-1,x表示第t-1个状态为x输出对应的状态序列概率。
此外,为实现上述目的,本发明还提供一种情感智能识别装置,该装置包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的情感智能识别程序,所述情感智能识别程序被所述处理器执行时实现如下步骤:
获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集;
计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集;
将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集;
利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
可选地,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
可选地,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wj的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wi和wj的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
可选地,所述编码和解码操作包括:
对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集;
采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有情感智能识别程序,所述情感智能识别程序可被一个或者多个处理器执行,以实现如上所述的情感智能识别方法的步骤。
本发明提出的基于人工智能的情感智能识别方法、装置及计算机可读存储介质,选取用户的文本对话集中的部分词语作为所述文本对话的主题序列集,并将所述主题序列转换为主题向量集,及利用句子向量预测模型预测所述词语集对应的句子向量集,从而可以得到词语的上下文环境,并根据预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,使得情感识别的结果更为准确。
附图说明
图1为本发明一实施例提供的情感智能识别方法的流程示意图;
图2为本发明一实施例提供的情感智能识别装置的内部结构示意图;
图3为本发明一实施例提供的情感智能识别装置中情感智能识别程序的模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种情感智能识别方法。参照图1所示,为本发明一实施例提供的情感智能识别方法的流程示意图。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
在本实施例中,情感智能识别方法包括:
s1、获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集。
本发明较佳实施例中,所述文本对话集是记录客服与用户之间对话形成的文本对话集,所述客服可以为中国平安的前台客服、销售客服、售后客服等。
进一步地,由于所述对话文本集中通常存在重复对话文本,大量的重复数据会影响分类精度,因此,在本发明实施例优先对所述对话文本集进行去重操作得到所述标准文本对话集。其中,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
较佳地,在本发明中,若任意两个文本对话之间的距离小于预设的阈值时,则删除所述两个文本对话中的任意一个文本对话。其中,所述预设的阈值为0.1。
较佳地,本发明中所述分词操作包括:通过预设的策略将所述文本对话集中的词语与预设的词典中的词条进行匹配,得到多个词语,并将所述词语用空格符号隔开得到所述词语集。
本发明较佳实施例中,所述预设的词典可以包含统计词典和前缀词典。
所述统计词典是由统计方法得到的所有可能的分词构造的词典。所述统计词典统计相邻字在语料库中贡献的频度并计算互信息,当所述相邻字互相出现信息大于预设的阈值时,即认定为构成词,其中,所述阈值为0.6。
所述前缀词典包括所述统计词典中每一个分词的前缀,例如所述统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”;词“大学”的前缀是“大”等。本发明利用所述统计词典得到所述文本对话集的可能的分词结果,并通过所述前缀词典根据分词的切分位置,得到最终的切分形式,从而得到所述文本对话集的词语集。
s2、计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集。
本发明较佳实施例中,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wi的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wi和wi的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
较佳地,本发明中所述预设的方式为根据所述词的重要度得分选取t个得分最高的词作为所述所述标准文本对话集的主题序列集。
进一步地,本发明较佳实施例通过word2vec模型将所述主题序列集转换为主题向量集(sent_topic_vec_i),其中,i表示该句话在一次完成对话的索引。所述word2vec模型指的是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。详细地,所述word2vec模型训练过程包括:选取一个适当大小的窗口当做语境,所述word2vec模型的输入层读入窗口内的词,将所述窗口内词的向量(k维,初始随机)加和在一起,形成隐藏层k个节点;所述word2vec模型的输出层是一个巨大的二叉树,叶节点代表语料里所有的词(语料含有v个独立的词,则二叉树有|v|个叶节点);对于叶节点的每一个词,就会有一个全局唯一的编码,形如“010011”,可以表示左子树为1,右子树为0;由于,所述word2vec模型的隐层中每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有k条连边,每条边上也会有权值。于是,通过训练后word2vec模型可以将上述主题序列转换为主题向量。
s3、将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集。
本发明较佳实施例中,所述句子向量预测模型为双向的transformer模型。所述transformer模型通过并行处理输入序列中的所有词向量,同时利用自注意力机制将上下文与较远的词向量结合起来,输出对应的句子向量。进一步,本发明通过微调(fine-turning)法以及随机掩盖法对所述双向的transformer模型进行训练。所述fine-turing方法即通过可用神经网络,提取其浅层特征,并修改深度神经网络中的参数,构建新的神经网络模型,以减少迭代次数。所述随机掩盖法并不是像word2vec模型中那样去对每一个词都进行预测,而是从输入中随机地掩盖部分输入词向量,其目标是基于其上下文来预测被掩盖词向量的原始词汇。
s4、利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
本发明较佳实施例中,所述预先构建的智能对话情感识别模型包括输入层、隐藏层以及输出层。
优先地,本发明对所述智能对话情感识别模型的训练过程如下:
a、构建损失函数。根据深度学习中基本公式,各层输入、输出为
b、用梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法,在本发明实施例中,为找到损失函数
较佳地,所述编码和解码操作包括:通过所述输入层接收所述主题向量集和句子向量集,利用所述隐藏层对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集,采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
本发明较佳实施例中,所述动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。其中,所述动态规划算法包括:
v1,k=p(y1|k)·πk
vt,k=p(yt|k)·maxx∈s(ax,k·vt-1,x)
其中,v1,k表示第1个状态序列为k对应输出的状态序列概率,p表示概率值,y1表示第1个状态序列的输出值,k表示状态序列,πk表示初始状态k的概率维;vt,k表示第t个状态为k对应输出的状态序列概率,yt表示第t个状态序列的输出值,s表示状态空间,ax,k表示从状态列x到状态k的转移概率,vt-1,x表示第t-1个状态为x输出对应的状态序列概率。
本发明还提供一种情感智能识别装置。参照图2所示,为本发明一实施例提供的情感智能识别装置的内部结构示意图。
在本实施例中,所述情感智能识别装置1可以是pc(personalcomputer,个人电脑),或者是智能手机、平板电脑、便携计算机等终端设备,也可以是一种服务器等。该情感智能识别装置1至少包括存储器11、处理器12,通信总线13,以及网络接口14。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,sd或dx存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是情感智能识别装置1的内部存储单元,例如该情感智能识别装置1的硬盘。存储器11在另一些实施例中也可以是情感智能识别装置1的外部存储设备,例如情感智能识别装置1上配备的插接式硬盘,智能存储卡(smartmediacard,smc),安全数字(securedigital,sd)卡,闪存卡(flashcard)等。进一步地,存储器11还可以既包括情感智能识别装置1的内部存储单元也包括外部存储设备。存储器11不仅可以用于存储安装于情感智能识别装置1的应用软件及各类数据,例如情感智能识别程序01的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(centralprocessingunit,cpu)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如执行情感智能识别程序01等。
通信总线13用于实现这些组件之间的连接通信。
网络接口14可选的可以包括标准的有线接口、无线接口(如wi-fi接口),通常用于在该装置1与其他电子设备之间建立通信连接。
可选地,该装置1还可以包括用户接口,用户接口可以包括显示器(display)、输入单元比如键盘(keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。可选地,在一些实施例中,显示器可以是led显示器、液晶显示器、触控式液晶显示器以及oled(organiclight-emittingdiode,有机发光二极管)触摸器等。其中,显示器也可以适当的称为显示屏或显示单元,用于显示在情感智能识别装置1中处理的信息以及用于显示可视化的用户界面。
图2仅示出了具有组件11-14以及情感智能识别程序01的情感智能识别装置1,本领域技术人员可以理解的是,图1示出的结构并不构成对情感智能识别装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
在图2所示的装置1实施例中,存储器11中存储有情感智能识别程序01;处理器12执行存储器11中存储的情感智能识别程序01时实现如下步骤:
步骤一、获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集。
本发明较佳实施例中,所述文本对话集是记录客服与用户之间对话形成的文本对话集,所述客服可以为中国平安的前台客服、销售客服、售后客服等。
进一步地,由于所述对话文本集中通常存在重复对话文本,大量的重复数据会影响分类精度,因此,在本发明实施例优先对所述对话文本集进行去重操作得到所述标准文本对话集。其中,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
较佳地,在本发明中,若任意两个文本对话之间的距离小于预设的阈值时,则删除所述两个文本对话中的任意一个文本对话。其中,所述预设的阈值为0.1。
较佳地,本发明中所述分词操作包括:通过预设的策略将所述文本对话集中的词语与预设的词典中的词条进行匹配,得到多个词语,并将所述词语用空格符号隔开得到所述词语集。
本发明较佳实施例中,所述预设的词典可以包含统计词典和前缀词典。
所述统计词典是由统计方法得到的所有可能的分词构造的词典。所述统计词典统计相邻字在语料库中贡献的频度并计算互信息,当所述相邻字互相出现信息大于预设的阈值时,即认定为构成词,其中,所述阈值为0.6。
所述前缀词典包括所述统计词典中每一个分词的前缀,例如所述统计词典中的词“北京大学”的前缀分别是“北”、“北京”、“北京大”;词“大学”的前缀是“大”等。本发明利用所述统计词典得到所述文本对话集的可能的分词结果,并通过所述前缀词典根据分词的切分位置,得到最终的切分形式,从而得到所述文本对话集的词语集。
步骤二、计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集。
本发明较佳实施例中,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wj的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wj和wi的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
较佳地,本发明中所述预设的方式为根据所述词的重要度得分选取t个得分最高的词作为所述标准文本对话集的主题序列集。
进一步地,本发明较佳实施例通过word2vec模型将所述主题序列集转换为主题向量集(sent_topic_vec_i),其中,i表示该句话在一次完成对话的索引。所述word2vec模型指的是将词表征为实数值向量的一种高效的算法模型,其利用深度学习的思想,可以通过训练,把对文本内容的处理简化为k维向量空间中的向量运算,而向量空间上的相似度可以用来表示文本语义上的相似。详细地,所述word2vec模型训练过程包括:选取一个适当大小的窗口当做语境,所述word2vec模型的输入层读入窗口内的词,将所述窗口内词的向量(k维,初始随机)加和在一起,形成隐藏层k个节点;所述word2vec模型的输出层是一个巨大的二叉树,叶节点代表语料里所有的词(语料含有v个独立的词,则二叉树有|v|个叶节点);对于叶节点的每一个词,就会有一个全局唯一的编码,形如“010011”,可以表示左子树为1,右子树为0;由于,所述word2vec模型的隐层中每一个节点都会跟二叉树的内节点有连边,于是对于二叉树的每一个内节点都会有k条连边,每条边上也会有权值。于是,通过训练后word2vec模型可以将上述主题序列转换为主题向量。
步骤三、将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集。
本发明较佳实施例中,所述句子向量预测模型为双向的transformer模型。所述transformer模型通过并行处理输入序列中的所有词向量,同时利用自注意力机制将上下文与较远的词向量结合起来,输出对应的句子向量。进一步,本发明通过微调(fine-turning)法以及随机掩盖法对所述双向的transformer模型进行训练。所述fine-turing方法即通过可用神经网络,提取其浅层特征,并修改深度神经网络中的参数,构建新的神经网络模型,以减少迭代次数。所述随机掩盖法并不是像word2vec模型中那样去对每一个词都进行预测,而是从输入中随机地掩盖部分输入词向量,其目标是基于其上下文来预测被掩盖词向量的原始词汇。
步骤四、利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
本发明较佳实施例中,所述预先构建的智能对话情感识别模型包括输入层、隐藏层以及输出层。
优先地,本发明对所述智能对话情感识别模型的训练过程如下:
a、构建损失函数。根据深度学习中基本公式,各层输入、输出为
b、用梯度下降算法进行损失函数参数值的更新。所述梯度下降算法是神经网络模型训练最常用的优化算法,在本发明实施例中,为找到损失函数
较佳地,所述编码和解码操作包括:通过所述输入层接收所述主题向量集和句子向量集,利用所述隐藏层对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集,采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
本发明较佳实施例中,所述动态规划算法用于寻找最有可能产生观测事件序列的-维特比路径-隐含状态序列。其中,所述动态规划算法包括:
v1,k=p(y1|k)·πk
vt,k=p(yt|k)·maxx∈s(ax,k·vt-1,x)
其中,v1,k表示第1个状态序列为k对应输出的状态序列概率,p表示概率值,y1表示第1个状态序列的输出值,k表示状态序列,πk表示初始状态k的概率维;vt,k表示第t个状态为k对应输出的状态序列概率,yt表示第t个状态序列的输出值,s表示状态空间,ax,k表示从状态列x到状态k的转移概率,vt-1,x表示第t-1个状态为x输出对应的状态序列概率。
可选地,在其他实施例中,情感智能识别程序还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,用于描述情感智能识别程序在情感智能识别装置中的执行过程。
例如,参照图3所示,为本发明情感智能识别装置一实施例中的情感智能识别程序的程序模块示意图,该实施例中,所述情感智能识别程序可以被分割为去重分词模块10、计算转换模块20、句子向量预测模块30以及情感识别模块40,示例性地:
所述去重分词模块10用于:获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集。
所述计算转换模块20用于:计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取对应的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集。
所述句子向量预测模块30用于:将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集。
所述情感识别模块40用于:利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
上述去重分词模块10、计算转换模块20、句子向量预测模块30以及情感识别模块40等程序模块被执行时所实现的功能或操作步骤与上述实施例大体相同,在此不再赘述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有情感智能识别程序,所述情感智能识别程序可被一个或多个处理器执行,以实现如下操作:
获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集;
计算所述词语集中词语的重要度得分,根据所述词语的重要度得分,及按预设的方式选取对应的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集;
将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集;
利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
本发明计算机可读存储介质具体实施方式与上述情感智能识别装置和方法各实施例基本相同,在此不作累述。
需要说明的是,上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。并且本文中的术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种基于人工智能的情感智能识别方法,其特征在于,所述方法包括:
获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集;
计算所述词语集中词语的重要度得分,根据所述词语的重要度得分及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集;
将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集;
利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
2.如权利要求1所述的情感智能识别方法,其特征在于,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
3.如权利要求1所述的情感智能识别方法,其特征在于,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wj的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wi和wj的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
4.如权利要求1至3中任意一项所述的情感智能识别方法,其特征在于,所述编码和解码操作包括:
对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集;
采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
5.如权利要求4中所述的情感智能识别方法,其特征在于,所述动态规划算法包括:
v1,k=p(y1|k)·πk
vt,k=p(yt|k)·maxx∈s(ax,k·vt-1,x)
其中,v1,k表示第1个状态序列为k对应输出的状态序列概率,p表示概率值,y1表示第1个状态序列的输出值,k表示状态序列,πk表示初始状态k的概率维;vt,k表示第t个状态为k对应输出的状态序列概率,yt表示第t个状态序列的输出值,s表示状态空间,ax,k表示从状态列x到状态k的转移概率,vt-1,x表示第t-1个状态为x输出对应的状态序列概率。
6.一种情感智能识别装置,其特征在于,所述装置包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的情感智能识别程序,所述情感智能识别程序被所述处理器执行时实现如下步骤:
获取文本对话集,对所述文本对话集进行去重操作后得到标准文本对话集,并对所述标准文本对话集进行分词操作,得到词语集;
计算所述词语集中词语的重要度得分,根据所述词语的重要度得分及按预设的方式选取词语集中的词语作为所述标准文本对话集的主题序列集,并将所述主题序列集转换为主题向量集;
将所述词语集转换词向量集后输入至预先训练的句子向量预测模型中,输出所述词向量集对应的句子向量集;
利用预先训练的智能对话情感识别模型对所述主题向量集和句子向量集进行编码和解码操作后得到对应的情感表达,从而完成文本对话的情感识别。
7.如权利要求6所述的情感智能识别装置,其特征在于,所述去重操作包括:
其中,n表示所述文本对话集中的文本对话的数量,w1j和w2j表示所述文本对话集中任意两个文本对话,d表示任意两个文本对话之间的距离。
8.如权利要求6所述的情感智能识别装置,其特征在于,所述计算所述词语集中词语的重要度得分包括:
计算所述词语集任意两个词wi和wj的依存关联度:
其中,dep(wi,wj)表示所述词wi和wj的依存关联度,len(wi,wj)表示所述词wi和wj之间的依存路径长度,b是超参数;
根据所述依存关联度计算所述词wi和wj的引力:
其中,fgrav(wi,wj)表示所述词wi和wj的引力,tfidf(wi)表示词wi的tf-idf值,tfidf(wj)表示词wj的tf-idf值,tf表示词频,idf表示逆文档频率指数,d是词wi和wj的词向量之间的欧式距离;
根据所述依存关联度和所述引力得到所述词wi和wj之间的关联强度为:
weight(wi,wj)=dep(wi,wj)*fgrav(wi,wj)
根据所述关联强度计算出所述词wi的重要度得分:
其中,
9.如权利要求6至8中任意一项所述的情感智能识别装置,其特征在于,所述编码和解码操作包括:
对所述主题向量集和句子向量集进行编码操作,得到所述主题向量集和句子向量集的特征序列集;
采用动态规划算法解码出所述特征序列集对应的状态序列的概率集,将所述状态序列的概率集中最大概率对应的状态序列作为对应的情感表达的输出结果。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有情感智能识别程序,所述情感智能识别程序可被一个或者多个处理器执行,以实现如权利要求1至5中任一项所述的情感智能识别方法的步骤。
技术总结