本发明涉及信息技术领域,尤其涉及一种基于大数据的答案位置获取方法、装置、设备及介质。
背景技术:
现有的问答模型主要通过循环神经网络或者较为复杂的深度学习语言模型实现。然而,循环神经网络的算法精度有限,模型无法进行并行计算,从而需要较长的训练耗时。尽管深度学习语言模型允许并行计算,也已经能够取得较高的精度,但是由于语言模型能够应对多种自然语言处理任务,模型结构复杂且参数量较为庞大,同样需要较长的训练耗时。可见,不管是基于循环神经网络还是深度学习语言模型的问答模型,都存在算法训练耗时较长的缺点,无法构建轻量化的问答模型。
因此,寻找一种解决现有问答模型的参数量大、算法训练耗时长的方法成为本领域技术人员亟需解决的技术问题。
技术实现要素:
本发明实施例提供了一种基于大数据的答案位置获取方法、装置、设备及介质,以解决现有问答模型的参数量大、算法训练耗时长的问题。
一种基于大数据的答案位置获取方法,包括:
获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
进一步地,所述通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息包括:
通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,得到m*n维特征矩阵;
通过加性注意力机制,将所述m*n维特征矩阵压缩至1*n维特征矩阵;
通过预设的全连接层,将所述1*n维特征矩转化为1*k维特征矩阵,以所述1*k维特征矩阵作为问题编码信息。
进一步地,所述对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息包括:
对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量;
将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
进一步地,所述通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息包括:
通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息;
通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息;
对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息;
根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息;
对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
进一步地,在得到所述文本信息对应的文本特征信息之后,所述方法还包括:
将所述文本特征信息传入预设的全连接层,得到待处理的文本信息中是否存在问题信息对应的答案信息的二分类结果。
一种基于大数据的答案位置获取装置,包括:
向量化模块,用于获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
第一特征提取模块,用于通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
信息添加模块,用于对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
第二特征提取模块,用于通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
概率获取模块,用于通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
答案获取模块,用于获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
进一步地,所述信息添加模块包括:
位置向量生成单元,用于对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量;
添加单元,用于将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
进一步地,所述第二特征提取模块包括:
第一提取单元,用于通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息;
第二提取单元,用于通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息;
权重获取单元,用于对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息;
调整单元,用于根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息;
文本特征获取单元,用于对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述基于大数据的答案位置获取方法。
一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述基于大数据的答案位置获取方法。
本发明实施例通过对文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;然后通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;接着通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;最后通过双向循环神经网络对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。本发明实施例基于卷积神经网络以及部分循环神经网络实现问答模型,相比仅基于卷积神经网络实现的问答模型,具有训练耗时较短且参数量相对较小的轻量化特点,能够在较短训练时间内以相对较小的参数量训练得到,提高了问答模型训练的效率,解决了现有问答模型的参数量大、算法训练耗时长的问题。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例中基于大数据的答案位置获取方法的一流程图;
图2是本发明另一实施例中基于大数据的答案位置获取方法中步骤s102的一流程图;
图3是本发明另一实施例中基于大数据的答案位置获取方法中步骤s103的一流程图;
图4是本发明另一实施例中基于大数据的答案位置获取方法中步骤s104的一流程图;
图5是本发明另一实施例中基于大数据的答案位置获取方法的一流程图;
图6是本发明一实施例中基于大数据的答案位置获取装置的一原理框图;
图7是本发明一实施例中计算机设备的一示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
以下对本实施例提供的基于大数据的答案位置获取方法进行详细的描述。本发明实施例所述的基于大数据是指基于长短期记忆网络(longshort-termmemory,简称lstm)和卷积神经网络(convolutionalneuralnetworks,简称cnn)构建问答模型。其中,lstm是一种时间循环神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。所述问答模型相当于阅读理解模型,模型的输入为文本信息和问题信息,模型的输出为根据问题信息在文本信息中所查找到的答案位置信息。在这里,所述问题信息是指包含问题内容的词语、句子或者段落,比如今天几号、谁喜欢吃苹果。所述文本信息是指包含问题答案的句子或段落。可选地,本发明实施例提供的基于大数据的答案位置获取方法应用于服务器。所述服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在一实施例中,如图1所示,提供一种基于大数据的答案位置获取方法,包括如下步骤:
在步骤s101中,获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量。
在这里,本发明实施例分别对文本信息和问题信息执行向量化处理,用向量来表示所述文本信息和问题信息中的每一个词。可选地,对于文本信息,以所述文本信息构成语料库,采用word2vec算法,根据所述语料库进行训练,得到文本信息中每一个词对应的词向量,组合文本信息中的每一个词对应的词向量,得到所述文本信息对应的词向量。对于问题信息,以所述问题信息构成语料库,采用word2vec算法,根据所述语料库进行训练,得到问题信息中每一个词对应的词向量,组合问题信息中的每一个词对应的词向量,得到所述问题信息对应的词向量。
在步骤s102中,通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息。
在这里,问题编码信息为问题信息的一个特征矩阵。本发明实施例采用前向lstm与后向lstm结合得到的双向循环神经网络bi-lstm对所述问题信息对应的词向量进行提取特征,得到多维特征矩阵。
上述得到的多维特征矩阵是初步提取的问题编码。由于问题编码的维度与问题信息的长度有关,问题信息长度越长,问题编码的维度越长,反之则越短。为了使得最终的问题编码信息不受问题信息的长度限制,本发明实施例进一步将提取得到的多维特征矩阵压缩至预设维度,以对问题编码统一维度。可选地,图2示出了本发明实施例提供的步骤s102的具体实现流程。如图2所示,步骤s102所述的通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息包括:
在步骤s201中,通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,得到m*n维特征矩阵。
在这里,双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取后,输出m*n维特征矩阵。其中,m、n均为正整数,m表示问题信息对应的词向量的个数,n表示特征维度。可见,这是一个多维特征矩阵,其维度和问题信息的长度(也即词向量的个数和特征维度)有关,并非是统一的。
在步骤s202中,通过加性注意力机制,将所述m*n维特征矩阵压缩至1*n维特征矩阵。
为了解决问题信息对应的多维特征矩阵的维度不统一的问题,本发明实施例通过加性注意力机制,将所述m*n维特征矩阵压缩至1*n维特征矩阵。具体地,通过建立一层前馈全连接层,全连接层的算法公式可以表示为wx b;其中,x表示输入,在本实施例中输入为所述m*n维特征矩阵,w和b表示学习得到的参数。将所述m*n维特征矩阵通过所述前馈全连接层,然后再通过softmax函数进行归一化,得到1*m维的注意力权重。将所述1*m维的注意力权重与所述m*n维特征矩阵进行加和运算,从而将原来的m维压缩至1维,得到1*n维特征矩阵。
在步骤s203中,通过预设的全连接层,将所述1*n维特征矩转化为1*k维特征矩阵,以所述1*k维特征矩阵作为问题编码信息。
通过步骤s202的加性注意力机制得到的1*n维特征矩阵仍然与特征个数有关,并非是统一维度。对此,本发明实施例进一步通过构建全连接层,并自定义输出维度k,以将所述1*n维特征矩转化为1*k维特征矩阵,得到维度统一的问题编码信息。其中,k为正整数。
本发明实施例通过加性注意力机制和全连接层,将双向循环神经网络输出的维度各异的问题编码信息转化为维度统一的问题编码信息,便于后续构建文本编码信息,同时精简了问答模型的参数量,有利于缩短问答模型的训练耗时,实现轻量化的问答模型。
在步骤s103中,对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息。
在得到问题编码信息之后,本发明实施例基于问题编码信息构建文本编码信息,通过所述问题编码信息表示问题信息,以便于在文本信息中查找对应答案。
在这里,所述位置向量表示词向量对应的词在文本信息中的位置。由于后续步骤会通过卷积神经网络对文本编码信息进行特征提取,而通过卷积神经网络对文本编码信息进行特征提取会忽略词语顺序信息,因此本发明实施例通过在文本编码信息中加入位置向量来补充这一信息,以使得问答模型可以利用词向量序列的顺序。可选地,图3示出了本发明实施例提供的步骤s103的具体实现流程。如图3所示,步骤s103所述的对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息包括:
在步骤s301中,对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量。
本发明实施例选择不同频率的正弦函数和余弦函数来生成文本信息中的词向量对应的位置向量。所述正弦函数和余弦函数分别为:
pe(pos,2i)=sin(pos/100002i/d)
pe(pos,2i 1)=cos(pos/100002i/d)
在上式中,pe表示词向量对应的位置向量,pos表示文本信息中的词向量的位置序号,i表示第i维的位置向量,且i为自然数;d表示所生成的位置向量的总维度,pe(pos,2i)表示第pos个词向量对应的第2i个维度的位置向量,pe(pos,2i 1)表示第pos个词向量对应的第2i 1个维度的位置向量。
可选地,在本发明的一个实施例中,所述总维度d取值为100,即位置向量的维度为100。那么,对于文本信息中的第10个词向量,其第1维的位置向量为pe(pos,2i 1)=pe(10,1)=cos(10/100000/100),通过令2i 1=1,求得i=0,代入cos(pos/100002i/d)所得;
第2维的位置向量为pe(pos,2i)=pe(10,2)=sin(10/100002/100),通过令2i=2,求得i=1,代入sin(pos/100002i/d)所得;
第3维的位置向量为pe(pos,2i 1)=pe(10,3)=cos(10/100002/100),通过令2i 1=3,求得,i=1代入cos(pos/100002i/d)所得。
其他维的位置向量以此类推。
在步骤s302中,将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
在得到文本信息中的每一个词向量对应的位置向量后,将所述位置向量添加到所述词向量之后,然后将所述问题编码信息添加到所述位置向量之后,所得到的向量作为所述词向量对应的文本编码信息。所述文本编码信息通过所述位置向量表示词向量在文本信息中的顺序信息,进一步补充了卷积神经网络所提取特征中的词语顺序信息;通过所述问题编码信息表示问题信息,使得更容易在文本信息中查找对应答案。组合文本信息中所有的词向量对应的文本编码信息,得到文本信息对应的文本编码信息。
可选地,为了提高问答模型的训练效率,缩短训练耗时,所述步骤102和步骤s103可以作为问答模型的两个并行结构同步执行。
在步骤s104中,通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息。
在完成对文本信息的编码后,本发明实施例提供的问答模型通过多层卷积层对所述文本编码信息进行特征提取。在原有卷积层的基础上,加入自注意力机制。所述自注意力机制为在卷积层基础上额外构建的三层相互并行的卷积层结构,其中两层并行的卷积层的输出生成权重信息,用于调整另一并行卷积层的输出。经权重调整后的另一并行卷积层的输出再与原有卷积层的输出进行加和处理,得到的结果作为所述文本编码信息对应的文本特征信息。由于文本之间可能存在交互关联,自注意力机制可以对文本信息中的关键词语分配更高注意力权重,提升分类效果。
可选地,图4示出了本发明实施例提供的步骤s104的具体实现流程。如图4所示,步骤s104所述的通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息包括:
在步骤s401中,通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息。
在这里,所述第一卷积层只有一层。本发明实施例将所述文本编码信息传入所述第一卷积层进行特征提取,并获取所述第一卷积层输出的特征信息,作为所述文本编码信息对应的第一文本特征信息。所述第一文本特征信息为文本编码信息进一步提纯后的特征信息。
在步骤s402中,通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息。
然后将所述第一文本特征信息分别传入三层并行的第二卷积层进行特征提取。获取每一第二卷积层输出的特征信息,作为第二文本特征信息。在这里,所述第二文本特征信息为第一文本特征信息进一步提纯后的特征信息。三层并行的第二卷积层可以是相同的,得到的三组第二文本特征信息也是相同的。
在步骤s403中,对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息。
在这里,假设得到的第二文本特征信息为m*n维特征矩阵,从三组第二文本特征信息中任意选取两组,将其中一组第二文本特征信息转置得到n*m维特征矩阵,对所选取的第二文本特征信息与转置后的第二文本特征信息执行矩阵乘法运算,得到m*m维特征矩阵。然后通过softmax函数对所述m*m维特征矩阵执行归一化处理,得到m*m维权重信息。其中,m、n为正整数;矩阵乘法运算为现有技术,此处不再赘述。
在步骤s404中,根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息。
在这里,本发明实施例将所述m*m维权重信息与另一组第二文本特征信息(m*n维特征矩阵)进行矩阵乘法运算,以对所述另一组第二文本特征信息进行调整,得到m*n维特征矩阵,作为第三文本特征信息。所述第三文本特征信息为第二文本特征信息进一步提纯后的特征信息。
在步骤s405中,对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
在本发明实施例中,所述加和运算是指对维度相同的两个矩阵,进行对应位置求和,并输出相同维度的矩阵。承接前文示例,所述第三文本特征信息和第一文本特征信息均为m*n维特征矩阵,本发明实施例将对应位置进行加和,所得到的结果m*n维特征矩阵作为所述文本编码信息对应的文本特征信息。
上述步骤s401至步骤s405通过卷积神经网络执行并行计算提取特征,相比于循环神经网络按输入序列依次计算的形式,有效地提升了问答模型的训练速度,缩减了问答模型的训练时耗。
在步骤s105中,通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率。
所得到的文本特征信息直接传入双向循环神经网络bi-lstm。在本发明实施例中,所述双向循环神经网络bi-lstm会根据输入的文本特征信息,执行序列标注,然后输出一组目标序列。在所述目标序列中,包括文本信息中的每一个词的两种概率,分别为作为答案开头的第一概率和作为答案结束的第二概率。
在步骤s106中,获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
在得到目标序列之后,选取第一概率最大值和第二概率最大值,以所述第一概率最大值对应的词作为答案开始位置,第二概率最大值对应的词作为答案结束位置,组合所述答案开始位置至所述答案结束位置之间的内容,作为所述问题信息在文本信息中的答案,有效地提高了答案标注的准确性
综上所述,本发明实施例基于卷积神经网络以及部分循环神经网络实现的问答模型,相比仅基于卷积神经网络实现的问答模型,所改进的注意力机制有效地提升了问答模型的精度表现以及训练收敛效率,具有训练耗时较短且参数量相对较小的轻量化特点,能够在较短训练时间内以相对较小的参数量训练得到,提高了问答模型训练的效率,解决了现有问答模型的参数量大、算法训练耗时长的问题;且通过lstm结构进行序列编码与标注相比全连接层输出标注效果更优。
可选地,作为本发明的一个优选示例,还可以根据步骤s104输出的文本编码信息对应的文本特征信息得到文本信息中是否能找到答案的二分类结果。图5为本发明实施例提供的基于大数据的答案位置获取方法的另一实现流程,包括步骤s501至步骤s504,其中步骤s501至步骤s504与图1实施例中所述的步骤s501至步骤s504相同,具体请参见上述实施例的叙述,此处不再赘述。所述方法还包括:
在步骤s505中,将所述文本特征信息传入预设的全连接层,得到待处理的文本信息中是否存在问题信息对应的答案信息的二分类结果。
在这里,通过多层卷积层后输出的文本特征信息是一个m*n的矩阵,其中m表示文本信息中词向量的个数。本发明实施例首先通过加性注意力将所述文本特征信息压缩至n维向量,然后将n维向量接入一层预设的全连接层。所述全连接层的输出包括表示能找到答案和表示不能找到答案两个维度。通过所述全连接层可实现关于待处理的文本信息中是否存在问题信息对应的答案信息的分类,即文本信息中存在问题信息对应的答案信息或者文本信息中不存在问题信息对应的答案信息,得到二分类结果。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在一实施例中,提供一种基于大数据的答案位置获取装置,该基于大数据的答案位置获取装置与上述实施例中基于大数据的答案位置获取方法一一对应。如图6所示,该基于大数据的答案位置获取装置包括向量化模块61、第一特征提取模块62、信息添加模块63、第二特征提取模块64、概率获取模块65、答案获取模块66。各功能模块详细说明如下:
向量化模块61,用于获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
第一特征提取模块62,用于通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
信息添加模块63,用于对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
第二特征提取模块64,用于通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
概率获取模块65,用于通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
答案获取模块66,用于获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
可选地,所述第一特征提取模块62包括:
特征提取单元,用于通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,得到m*n维特征矩阵;
压缩单元,用于通过加性注意力机制,将所述m*n维特征矩阵压缩至1*n维特征矩阵;
转化单元,用于通过预设的全连接层,将所述1*n维特征矩转化为1*k维特征矩阵,以所述1*k维特征矩阵作为问题编码信息。
可选地,所述信息添加模块63包括:
位置向量生成单元,用于对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量;
添加单元,用于将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
可选地,所述第二特征提取模块64包括:
第一提取单元,用于通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息;
第二提取单元,用于通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息;
权重获取单元,用于对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息;
调整单元,用于根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息;
文本特征获取单元,用于对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
可选地,所述装置还包括:
分类模块,用于将所述文本特征信息传入预设的全连接层,得到待处理的文本信息中是否存在问题信息对应的答案信息的二分类结果。
关于基于大数据的答案位置获取装置的具体限定可以参见上文中对于基于大数据的答案位置获取方法的限定,在此不再赘述。上述基于大数据的答案位置获取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于大数据的答案位置获取方法。
在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。
以上所述实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。
1.一种基于大数据的答案位置获取方法,其特征在于,包括:
获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
2.如权利要求1所述的基于大数据的答案位置获取方法,其特征在于,所述通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息包括:
通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,得到m*n维特征矩阵;
通过加性注意力机制,将所述m*n维特征矩阵压缩至1*n维特征矩阵;
通过预设的全连接层,将所述1*n维特征矩转化为1*k维特征矩阵,以所述1*k维特征矩阵作为问题编码信息。
3.如权利要求1或2所述的基于大数据的答案位置获取方法,其特征在于,所述对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息包括:
对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量;
将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
4.如权利要求1或2所述的基于大数据的答案位置获取方法,其特征在于,所述通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息包括:
通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息;
通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息;
对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息;
根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息;
对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
5.如权利要求1或2所述的基于大数据的答案位置获取方法,其特征在于,在得到所述文本信息对应的文本特征信息之后,所述方法还包括:
将所述文本特征信息传入预设的全连接层,得到待处理的文本信息中是否存在问题信息对应的答案信息的二分类结果。
6.一种基于大数据的答案位置获取装置,其特征在于,包括:
向量化模块,用于获取待处理的文本信息和问题信息,分别对所述文本信息和问题信息中的每一个词执行向量化,得到所述文本信息对应的词向量和问题信息对应的词向量;
第一特征提取模块,用于通过双向循环神经网络bi-lstm对所述问题信息对应的词向量进行特征提取,并对提取得到的多维特征矩阵压缩至预设维度,得到问题编码信息;
信息添加模块,用于对文本信息中的每一个词向量添加位置向量和所述问题编码信息,得到所述文本信息对应的文本编码信息;
第二特征提取模块,用于通过预设的多层卷积层对所述文本编码信息进行特征提取,得到所述文本信息对应的文本特征信息;
概率获取模块,用于通过双向循环神经网络bi-lstm对所述文本特征信息进行序列标注,得到文本信息中每一个词的第一概率与第二概率;
答案获取模块,用于获取第一概率最大值对应的词作为答案开始位置和第二概率最大值对应的词作为答案结束位置。
7.如权利要求6所述的基于大数据的答案位置获取装置,其特征在于,所述信息添加模块包括:
位置向量生成单元,用于对文本信息中的每一个词向量,通过预设的正弦函数和余弦函数生成所述词向量对应的位置向量;
添加单元,用于将所述位置向量、问题编码信息依次添加至所述词向量之后,得到所述词向量对应的文本编码信息。
8.如权利要求6或7所述的基于大数据的答案位置获取装置,其特征在于,所述第二特征提取模块包括:
第一提取单元,用于通过预设的第一卷积层对所述文本编码信息进行特征提取,得到文本编码信息对应的第一文本特征信息;
第二提取单元,用于通过三层并行的第二卷积层分别对所述第一文本特征信息进行特征提,得到三组第二文本特征信息;
权重获取单元,用于对任意两组第二文本特征信息执行矩阵乘法运算,并通过softmax函数对运算结果执行归一化处理,得到权重信息;
调整单元,用于根据所述权重信息对另一组第二文本特征信息进行调整,得到第三文本特征信息;
文本特征获取单元,用于对所述第三文本特征信息和第一文本特征信息执行加和处理,所得结果作为所述文本信息对应的文本特征信息。
9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述的基于大数据的答案位置获取方法。
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的基于大数据的答案位置获取方法。
技术总结