本发明实施例涉及自然语言处理技术领域,尤其涉及一种基于复合神经网络的语义关系推断系统和方法。
背景技术:
随着深度学习的兴起,基于神经网络的语义分析成为研究热点,同义词、近义词语义关系的检测成为推断短文本上下文关系的关键。
目前,提高语义关系推断的方法精准性的方式主要是通过大量的人工特征提取。通常是基于业务情况、数据状况进行的针对性提取。例如,对常见的业务同义词进行统一化等。但是该方法的精准性提升通常很难迁移到另外的数据集上。同时,人工特征提取将占用系统构建的大部分时间。
技术实现要素:
本发明实施例提供一种基于复合神经网络的语义关系推断系统和方法,用以解决现有技术中语义关系推断精准度低的问题。
第一方面,本发明实施例提供一种基于复合神经网络的语义关系推断系统,所述系统包括特征提取单元、训练单元以及决策单元,所述训练单元包括双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型,其中:
所述特征提取单元,用于提取输入文本的词向量输出至所述训练单元;
所述训练单元,用于接收所述词向量,将需要匹配的两个文本的词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,将各模型输出的结果向量输出至所述决策单元;
所述决策单元,用于接收所述训练单元输入的结果向量,通过梯度增强决策树进行整合后输出需要匹配的两个文本的语义关系。
第二方面,本发明实施例提供一种复合神经网络的语义关系推断方法,所述方法包括:
提取输入文本的词向量;
对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
第三方面,本发明实施例还提供一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述第二方面提供的方法。
第四方面,本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述第二方面提供的方法。
本发明实施例通过将词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,再通过梯度增强决策评判出词向量的语义关系,能够提高同义词语义关系检测的精准度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明一实施例提供的基于复合神经网络的语义关系推断系统的结构示意图;
图2为本发明一实施例提供的双生长短期记忆神经网络模型的网络结构示意图;
图3为本发明一实施例提供的分解焦距模型的网络结构示意图;
图4为本发明一实施例提供的增强序列推断模型的网络结构示意图;
图5为本发明一实施例提供的基于复合神经网络的语义关系推断方法的流程示意图;
图6为本发明一实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1示出了本发明实施例提供的基于复合神经网络的语义关系推断系统的结构示意图。
如图1所示,所述系统包括特征提取单元11、训练单元12以及决策单元13,所述训练单元包括双生长短期记忆神经网络模型121、分解焦距模型122以及增强序列推断模型123,其中:
所述特征提取单元,用于提取输入文本的词向量输出至所述训练单元;
具体地,本发明实施例可以使用预训练的词向量模型或自行对原始文本进行训练生成词向量。
所述训练单元,用于接收所述词向量,将需要匹配的两个文本的词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,将各模型输出的结果向量输出至所述决策单元;
具体地,本发明实施例将需要匹配的两个文本的词向量输入到训练单元,使用数据集对训练单元中的三个模型分别进行训练。最终,将三个模型输出的结果向量作为嵌入向量输出至决策单元。
所述决策单元,用于接收所述训练单元输入的匹配结果向量,通过梯度增强决策树进行整合后输出需要匹配的两个文本的语义关系。
具体地,决策单元采用梯度增强决策树对训练单元输入的嵌入向量进行最终整合,得到两个文本的词向量的语义关系的评判结果,评判出两个文本的词向量是否为同义词或近义词,从而得出文本的语义关系。
本发明实施例通过将词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,再通过梯度增强决策评判出词向量的语义关系,能够提高同义词语义关系检测的精准度。
同时,基于神经网络的特征自动提取,减少了系统构建中人工特征选取与构建的工作量,使本发明的适用范围更广,能够更方便快速地实现语义关系的推断。
在上述实施例的基础上,所述双生长短期记忆神经网络模型包括:
第一输入模块,用于将需要匹配的两个文本的词向量分别输入到两个长短期记忆神经网络,得到两个文本的最终隐藏状态;
第一训练模块,将两个文本的最终隐藏状态的归一化后的差值作为预测标签进行训练;
第一输出模块,用于将训练得的两个文本的最终隐藏状态进行向量拼接,输出至所述决策单元。
图2示出了本发明实施例提供的双生长短期记忆神经网络模型的网络结构示意图。
如图2所示,本发明实施例提供的双生长短期记忆神经网络(siameselongshort-termmemory,siameselstm)模型包括两个长短期记忆神经网络(lstm-a和lstm-b),训练过程为:
将需要匹配的两个文本分别输入到两个lstm网络中;
将lstm-a和lstm-b的最终隐藏状态求得归一化后的差值作为预测标签,和数据集提供的标签进行匹配训练,预测标签的计算公式为:
exp(-||h2a-h3b||1)
训练完成后,使用时将lstm-a和lstm-b的最终隐藏状态进行向量拼接并输入到最终的梯度增强决策树模型中。
在上述实施例的基础上上,所述分解焦距模型包括:
第二输入模块,用于将需要匹配的两个文本的词向量输入到一个分解聚焦矩阵,得到两个词向量位置的对位词向量;
第二训练单元,用于将对位词向量和相应位置的原词向量的比较结果输入到前馈神经网络进行训练;
第二输出单元,用于将训练得的两个文本的位置比较结果池化后的向量进行拼接,输出至所述决策单元。
图3示出了本发明实施例提供的分解焦距模型的网络结构示意图。
如图3所示,分解焦距模型的训练过程为:
使用一个神经网络对词向量进行权重计算,每个权重即为分解的聚焦(decomposableattention)。如果将文本a中的某个词向量表达为ai,文本b中的某个词向量表达为bj,将神经网络表达为函数f(),那么,聚焦矩阵中的聚焦单元的计算可以从以下表达式重新将相应的聚焦进行合并计算得到,表达式为:
eij=f(ai)tf(bj)
通过聚合矩阵和原先的词向量,计算文本词向量位置的对位词向量(ai-ai,bj-bj)。其计算方式如下:
将上面式子得到的对位词向量和相应位置的原词向量进行比较,比较的方式为将两个向量拼接后输入到一个前馈神经网络中。
将各个词向量位置上的比较结果进行整合,在文本范围内使用全局平均池化(globalaveragepooling)的方式。
将两个文本的池化后的向量进行拼接,并输出到最终的线性层中,从而得到最终的推断结果。
图4示出了本发明实施例提供的增强序列推断模型的网络结构示意图。
如图4所示,本发明实施例提供的增强序列推断模型包括一个双生长短期记忆神经网络、层分解焦距模型以及一个长短期记忆神经网络,用于接收成对词向量,分别进行双生长短期记忆神经网络、分解焦距模型和长短期记忆神经网络的训练,对长短期记忆神经网络输出的隐藏状态分别进行全局最大池化和全局平均池化,将成对词向量的全局最大池化后的向量和平均池化后的向量拼接后输出至所述决策单元。
增强序列推断模型的训练过程为:
将需要匹配的两个文本分别输入到两个lstm网络中(lstm-a1和lstm-b1);
将上一步骤lstm每一步的隐藏状态作为该词位置的文本区域含义编码ai和bj;
计算聚焦矩阵的元素获取到对应位置的对位局域编码,计算公式为:
将对位局域编码和原局域编码进行计算和转换,获得整合的局域编码;
将整合的局域编码按顺序输入到下一层lstm中。将其隐藏状态输出并在文本范围内分别进行全局最大池化和全局平均池化,获得全局的文本表征;
将对应两个文本的全局最大池化后的向量和平均池化后的向量进行拼接。该向量输出到一个作为最终判决器的神经网络并进行输出,用于训练;或直接将该向量输出到最终的梯度增强决策树模型。
本发明实施例将训练单元的三个模型的嵌入向量输出到最终的梯度增强决策树模型,输出最终结果。
图5示出了本发明实施例提供的一种基于复合神经网络的语义关系推断方法的流程示意图。
如图5所示,本发明实施例提供的基于复合神经网络的语义关系推断方法具体包括以下步骤:
s11、提取输入文本的词向量;
具体地,本发明实施例可以使用预训练的词向量模型或自行对原始文本进行训练生成词向量。
s12、对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
具体地,本发明实施例将需要匹配的两个文本的词向量输入到训练单元,使用数据集对训练单元中的三个模型分别进行训练。最终,将三个模型输出的结果向量作为嵌入向量(embeddingvector)输出至决策单元。
s13、将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
具体地,决策单元采用梯度增强决策树对训练单元输入的嵌入向量进行最终整合,得到两个文本的词向量的语义关系的评判结果,评判出两个文本的词向量是否为同义词或近义词,从而得出文本的语义关系。
本发明实施例通过将词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,再通过梯度增强决策评判出词向量的语义关系,能够提高同义词语义关系检测的精准度。
同时,基于神经网络的特征自动提取,减少了系统构建中人工特征选取与构建的工作量,使本发明的适用范围更广,能够更方便快速地实现语义关系的推断。
在上述实施例的基础上,s12具体包括双生长短期记忆神经网络模型的训练步骤:
将需要匹配的两个文本的词向量分别输入到两个长短期记忆神经网络,得到两个文本的最终隐藏状态;
将两个文本的最终隐藏状态的归一化后的差值作为预测标签进行训练;
将训练得的两个文本的最终隐藏状态进行向量拼接,输出至所述决策单元。
参照图2,本发明实施例提供的双生长短期记忆神经网络(siameselongshort-termmemory,siameselstm)模型包括两个长短期记忆神经网络(lstm-a和lstm-b),训练过程为:
将需要匹配的两个文本分别输入到两个lstm网络中;
将lstm-a和lstm-b的最终隐藏状态求得归一化后的差值作为预测标签,和数据集提供的标签进行匹配训练,预测标签的计算公式为:
exp(-||h2a-h3b||1)
训练完成后,使用时将lstm-a和lstm-b的最终隐藏状态进行向量拼接并输入到最终的梯度增强决策树模型中。
在上述实施例的基础上上,所述分解焦距模型包括:
第二输入模块,用于将需要匹配的两个文本的词向量输入到一个分解聚焦矩阵,得到两个词向量位置的对位词向量;
第二训练单元,用于将对位词向量和相应位置的原词向量的比较结果输入到前馈神经网络进行训练;
第二输出单元,用于将训练得的两个文本的位置比较结果池化后的向量进行拼接,输出至所述决策单元。
在上述实施例的基础上,s12具体包括分解焦距模型的训练步骤:
将需要匹配的两个文本的词向量输入到一个分解聚焦矩阵,得到两个词向量位置的对位词向量;
将对位词向量和相应位置的原词向量的比较结果输入到前馈神经网络进行训练;
将训练得的两个文本的位置比较结果池化后的向量进行拼接,输出至所述决策单元。
参照图3,本发明实施例提供的分解焦距模型的训练过程为:
使用一个神经网络对词向量进行权重计算,每个权重即为分解的聚焦(decomposableattention)。如果将文本a中的某个词向量表达为ai,文本b中的某个词向量表达为bj,将神经网络表达为函数f(),那么,聚焦矩阵中的聚焦单元的计算可以从以下表达式重新将相应的聚焦进行合并计算得到,表达式为:
eij=f(ai)tf(bj)
通过聚合矩阵和原先的词向量,计算文本词向量位置的对位词向量(ai-ai,bj-bj)。其计算方式如下:
将上面式子得到的对位词向量和相应位置的原词向量进行比较,比较的方式为将两个向量拼接后输入到一个前馈神经网络中。
将各个词向量位置上的比较结果进行整合,在文本范围内使用全局平均池化(globalaveragepooling)的方式。
将两个文本的池化后的向量进行拼接,并输出到最终的线性层中,从而得到最终的推断结果。
在上述实施例的基础上,s12具体包括增强序列推断模型的训练步骤:
将需要匹配的两个文本的词向量输入到一个双生长短期记忆神经网络,得到每一步两个文本的隐藏状态;
将双生长短期记忆神经网络每一步的隐藏状态作为对应文本的位置编码,输入到一个分解聚焦矩阵,得到两个文本的对位局域编码;
将两个文本的对位局域编码输入到一个长短期记忆神经网络,得到两个文本的隐藏状态;
将两个文本的隐藏状态池化后的向量进行拼接,输出至所述决策单元。
参照图4,本发明实施例提供的增强序列推断模型的训练过程为:
将需要匹配的两个文本分别输入到两个lstm网络中,不妨称为lstm-a1,lstm-b1;
将上一步骤lstm每一步的隐藏状态作为该词位置的文本区域含义编码ai和bj;
计算聚焦矩阵的元素获取到对应位置的对位局域编码,计算公式为:
将对位局域编码和原局域编码进行计算和转换,获得整合的局域编码;
将整合的局域编码按顺序输入到下一层lstm中。将其隐藏状态输出并在文本范围内分别进行全局最大池化和全局平均池化,获得全局的文本表征;
将对应两个文本的全局最大池化后的向量和平均池化后的向量进行拼接。该向量输出到一个作为最终判决器的神经网络并进行输出,用于训练;或直接将该向量输出到最终的梯度增强决策树模型。
本发明实施例将训练单元的三个模型的嵌入向量输出到最终的梯度增强决策树模型,输出最终结果。
本发明实施例还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如图5的方法。
图6示出了本发明一实施例提供的电子设备的结构示意图。
如图6所示,本发明实施例提供的电子设备包括存储器21、处理器22、总线23以及存储在存储器21上并可在处理器22上运行的计算机程序。其中,所述存储器21、处理器22通过所述总线23完成相互间的通信。
所述处理器22用于调用所述存储器21中的程序指令,以执行所述程序时实现如图5的方法。
例如,所述处理器执行所述程序时实现如下方法:
提取输入文本的词向量;
对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
本发明实施例提供的电子设备,通过将词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,再通过梯度增强决策评判出词向量的语义关系,能够提高同义词语义关系检测的精准度。
本发明实施例还提供一种非暂态计算机可读存储介质,所述存储介质上存储有计算机程序,所述程序被处理器执行时实现如图5的步骤。
例如,所述处理器执行所述程序时实现如下方法:
提取输入文本的词向量;
对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
本发明实施例提供的非暂态计算机可读存储介质,通过将词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,再通过梯度增强决策评判出词向量的语义关系,能够提高同义词语义关系检测的精准度。
本发明一实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:
提取输入文本的词向量;
对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
1.一种基于复合神经网络的语义关系推断系统,其特征在于,所述系统包括特征提取单元、训练单元以及决策单元,所述训练单元包括双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型,其中:
所述特征提取单元,用于提取输入文本的词向量输出至所述训练单元;
所述训练单元,用于接收所述词向量,将需要匹配的两个文本的词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练,将各模型输出的结果向量输出至所述决策单元;
所述决策单元,用于接收所述训练单元输入的结果向量,通过梯度增强决策树进行整合后输出需要匹配的两个文本的语义关系。
2.根据权利要求1所述的系统,其特征在于,所述双生长短期记忆神经网络模型包括:
第一输入模块,用于将需要匹配的两个文本的词向量分别输入到两个长短期记忆神经网络,得到两个文本的最终隐藏状态;
第一训练模块,将两个文本的最终隐藏状态的归一化后的差值作为预测标签进行训练;
第一输出模块,用于将训练得的两个文本的最终隐藏状态进行向量拼接,输出至所述决策单元。
3.根据权利要求1所述的系统,其特征在于,所述分解焦距模型包括:
第二输入模块,用于将需要匹配的两个文本的词向量输入到一个分解聚焦矩阵,得到两个词向量位置的对位词向量;
第二训练单元,用于将对位词向量和相应位置的原词向量的比较结果输入到前馈神经网络进行训练;
第二输出单元,用于将训练得的两个文本的位置比较结果池化后的向量进行拼接,输出至所述决策单元。
4.根据权利要求1所述的系统,其特征在于,所述增强序列推断模型包括:
第三输入模块,用于将需要匹配的两个文本的词向量输入到一个双生长短期记忆神经网络,得到每一步两个文本的隐藏状态;
第四输入模块,用于将双生长短期记忆神经网络每一步的隐藏状态作为对应文本的位置编码,输入到一个分解聚焦矩阵,得到两个文本的对位局域编码;
第五输入模块,用于将两个文本的对位局域编码输入到一个长短期记忆神经网络,得到两个文本的隐藏状态;
第三输出单元,用于将两个文本的隐藏状态池化后的向量进行拼接,输出至所述决策单元。
5.一种基于复合神经网络的语义关系推断方法,其特征在于,所述方法包括:
提取输入文本的词向量;
对所述词向量分别进行双生长短期记忆神经网络模型、分解焦距模型以及增强序列推断模型的训练;
将各模型输出的结果向量进行整合后输出需要匹配的两个文本的语义关系。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
双生长短期记忆神经网络模型的训练步骤:
将需要匹配的两个文本的词向量分别输入到两个长短期记忆神经网络,得到两个文本的最终隐藏状态;
将两个文本的最终隐藏状态的归一化后的差值作为预测标签进行训练;
将训练得的两个文本的最终隐藏状态进行向量拼接,输出至所述决策单元。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
分解焦距模型的训练步骤:
将需要匹配的两个文本的词向量输入到一个分解聚焦矩阵,得到两个词向量位置的对位词向量;
将对位词向量和相应位置的原词向量的比较结果输入到前馈神经网络进行训练;
将训练得的两个文本的位置比较结果池化后的向量进行拼接,输出至所述决策单元。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
增强序列推断模型的训练步骤:
将需要匹配的两个文本的词向量输入到一个双生长短期记忆神经网络,得到每一步两个文本的隐藏状态;
将双生长短期记忆神经网络每一步的隐藏状态作为对应文本的位置编码,输入到一个分解聚焦矩阵,得到两个文本的对位局域编码;
将两个文本的对位局域编码输入到一个长短期记忆神经网络,得到两个文本的隐藏状态;
将两个文本的隐藏状态池化后的向量进行拼接,输出至所述决策单元。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求5至8任一项所述基于复合神经网络的语义关系推断方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求5至8任一项所述基于复合神经网络的语义关系推断方法的步骤。
技术总结