本发明涉及一种卷积神经网络,尤其涉及一种结合神经网络和特征演算的关系抽取方法,属于自然语言处理技术领域。
背景技术:
随着计算机技术的快速发展,网络中的数据量也呈指数级增长,如何从这些数据中快速、准确地分析出用户所需信息,成为人们日益关注的问题,而这正是信息抽取领域所研究的内容。信息抽取就是从结构化、半结构化或非结构化的文本中抽取出特定的信息后,保存到结构化的数据库中。关系抽取是信息抽取的子任务,是信息抽取领域的重要研究课题。
关系抽取作为信息抽取研究领域的子任务,一直受到研究者们的高度重视,并进行了许多研究。关系抽取的主要目的是抽取句子中已标记实体对之间的语义关系,即在实体识别的基础上确定实体对间的关系类别,并形成结构化的数据以便用户存储和取用。关系抽取在自动问答、知识库自动构建和机器翻译等领域都有着重要研究意义。
关系抽取方法可以分为基于规则和基于机器学习的方法。基于规则的方法通过人工构造规则和模式进行匹配。它的优点就是准确率高,其缺点就是需要人工构造,依赖于特定领域,且较难扩展和维护。基于机器学习的方法将关系抽取看成是一个分类问题。可以分为三种方法,无监督的、弱监督的以及有监督的。基于无监督的方法假设拥有相同语义关系的实体对拥有相似的上下文信息。因此可以利用每个实体对应上下文信息来代表该实体对的语义关系,然后对所有实体对的语义关系进行聚类。基于弱监督的方法就是对于要抽取的关系,首先手工设定若干种子实例,然后迭代地从数据中抽取关系对应的关系模板和更多的实例。有监督的方法根据训练数据设计有效的特征,从而学习各种分类模型,然后使用训练好的分类器预测关系。在这三种方法中由于有监督的方法能够抽取并有效利用特征,因此召回率和准确率更有优势,因此是该领域研究最广泛的一类方法,也是本发明所采用的方法。它也还可以细分为基于特征向量、核函数以及神经网络三种方法。基于特征向量的方法需要显示地将关系实例转换成分类器可以接受的特征向量。基于核函数的方法直接以结构树为处理对象,在计算关系之间距离的时候不再使用特征向量的内积而是用核函数。基于神经网络的方法直接从输入的文本中自动学习有效的特征表示。
研究表明,复合特征对于关系提取任务非常有用。主要原因是具有均匀分布的高频特征对于预测关系类型作用不大,但将这些特征与其他特征相互组合会产生偏态分布,这对于识别特定的关系类型更有用。chen等2017年提出了一种形式且系统的特征演算方法生成复合特征,其能有效获取句子中的结构及语义信息,而句子的结构及语义信息对于关系抽取任务至关重要。chen等2019年进一步丰富了特征演算方法理论,并将该方法应用在关系抽取和实体识别任务上,通过构建最大熵分类器,取得了很好的实验性能。本发明在此研究基础上,将特征演算方法与神经网络相结合,发挥两者的优势,并按照“理论支撑→实证应用”的路线来展开研究。
技术实现要素:
本发明要解决的技术问题是:提供一种结合神经网络和特征演算的关系抽取方法,在充分利用文本句子中的语义信息的基础上,利用特征演算方法获取复合特征,该复合特征能够有效获取句子中的结构及语义信息。然后利用神经网络技术分层自动提取高维抽象特征的特点,将句子中的字进行卷积池化操作之后,将得到的卷积池化结果与复合特征向量进行拼接再进行全连接、softmax输出结果。通过利用句子中复合特征的结构及语义信息并把这些信息整合到神经网络模型中,这在一定程度上减少了由于句子中字的数量有限而产生的特征稀疏问题,从而有效提高关系抽取的性能,并解决了上述存在的部分问题。
本发明的技术方案为:一种结合神经网络和特征演算的关系抽取方法,所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、softmax层预测结果。
所述步骤一中,基于神经网络模型,使用自然语言处理中的字向量特征对文本进行向量映射,得到文本字向量矩阵。
原始语句为s:s=(w1,w2,…,wi,…,wn),其中,wi表示原始句子中的字,将其用字向量映射为x:x=(x1,x2,…,xi,…,xn)。
所述步骤二中,识别出实体的位置,并利用两个实体识别出句子中的其他结构及语义信息特征,这些特征可视为原子特征。然后利用特征演算方法生成复合特征,将这些复合特征进行向量映射得到文本复合特征向量矩阵。
原始语句为s:s=(w1,wi 1,…,wi k,…,wj 1,…,wj t,…,wn),其中wi 1,…,wi k和wj 1,…,wj t表示原始句子中的两个实体。利用两个实体的位置识别实体左边字及其pos标记,实体之间的字及其pos标记,实体右边字及其pos标记。同时两个实体的类型,子类型及两实体相对位置信息等原子特征。然后对这些原子特征进行特征演算后生成复合特征,如实体一和实体二的类型分别表示成为‘type1’,‘type2’,进行特征连接操作后就能得到z=‘type1_type2’复合特征。将得到的所有复合特征映射成向量后得到f=emb(z)。
所述步骤三中,对通过预训练字向量映射之后的向量矩阵x进行卷积操作,卷积结果为c:c=conv(x),然后再将卷积后的结果进行池化得到p=pool(c)。将池化后的结果进行拼接操作得到h=concat(p)。
所述步骤四中,对卷积池化后产生的结果与句子中的复合特征进行拼接得到h1=concat(h,f)。
步骤五是整个神经网络模型中的最终部分,通过其之前的向量化、卷积操作、池化以及拼接操作后会得到h1,将得到的h1进行全连接、softmax操作,最后得出神经网络的输出结果。
本方案在卷积池化层之后得到的向量与复合特征向量进行拼接,这也是该方案的创新之处。因为复合特征已经很好地捕获到句子的结构及语义信息,因此我们将其与卷积神经网络的输出结果做拼接而不是将其作为神经网络的输入,这样能够更好地利用句子中的结构及语义信息,且能够有效将其与神经网络提取到的抽象特征相结合进行关系抽取,以达到一个较好的性能。
本发明的有益效果是:与现有技术相比,采用本发明的技术方案,在充分利用文本句子中的字信息的基础上,再识别出句子中的实体,然后识别实体之间的结构及语义信息,获取原子特征,通过利用特征演算对原子特征进行组合得到复合特征。在这些过程中引入神经网络技术,充分发挥神经网络分层自动提取高维抽象特征的特点,并将卷积池化层得到的向量与复合特征向量相结合,这在一定程度上减少了由于句子中字的数量有限而产生的特征稀疏问题,从而提高关系抽取的性能,将神经网络分层次自动抽取抽象特征的特点和特征演算能够有效获取句子结构及语义信息的优势相结合,在关系抽取任务上取得较好的实验性能。
附图说明
图1为本发明的抽取技术路线图;
图2为本发明的抽取模型图;
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将参照本说明书附图对本发明作进一步的详细描述。
实施例1:如附图1~2所示,一种结合神经网络和特征演算的关系抽取方法,所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、softmax层预测结果。
进一步的,步骤一中,基于神经网络模型,使用自然语言处理中的字向量特征对文本进行向量映射,得到文本字向量矩阵。
原始语句为s:s=(w1,w2,…,wi,…,wn),其中,wi表示原始句子中的字,将其用字向量映射为x:x=(x1,x2,…,xi,…,xn)。
所述步骤二中,识别出实体的位置,并利用两个实体识别出句子中的其他结构及语义信息特征,这些特征可视为原子特征。然后利用特征演算方法生成复合特征,将这些复合特征进行向量映射得到文本复合特征向量矩阵。
原始语句为s:s=(w1,wi 1,…,wi k,…,wj 1,…,wj t,…,wn),其中wi 1,…,wi k和wj 1,…,wj t表示原始句子中的两个实体。利用两个实体的位置识别实体左边字及其pos标记,实体之间的字及其pos标记,实体右边字及其pos标记。同时两个实体的类型,子类型及两实体相对位置信息等原子特征。然后对这些原子特征进行特征演算后生成复合特征,如实体一和实体二的类型分别表示成为‘type1’,‘type2’,进行特征连接操作后就能得到z=‘type1_type2’复合特征。将得到的所有复合特征映射成向量后得到f=emb(z)。
所述步骤三中,对通过预训练字向量映射之后的向量矩阵x进行卷积操作,卷积结果为c:c=conv(x),然后再将卷积后的结果进行池化得到p=pool(c)。将池化后的结果进行拼接操作得到h=concat(p)。
所述步骤四中,对卷积池化后产生的结果与句子中的复合特征进行拼接得到h1=concat(h,f)。
步骤五是整个神经网络模型中的最终部分,通过其之前的向量化、卷积操作、池化以及拼接操作后会得到h1,将得到的h1进行全连接、softmax操作,最后得出神经网络的输出结果。
本方案在卷积池化层之后得到的向量与复合特征向量进行拼接,这也是该方案的创新之处。因为复合特征已经很好地捕获到句子的结构及语义信息,因此我们将其与卷积神经网络的输出结果做拼接而不是将其作为神经网络的输入,这样能够更好地利用句子中的结构及语义信息,且能够有效将其与神经网络提取到的抽象特征相结合进行关系抽取,以达到一个较好的性能。
下面结合本实施例对本发明作进一步说明:
实行本发明的方法,首先执行步骤一,通过字嵌入将句中所有字进行向量化,同时在两个实体的两边填充#,以便识别句子中的两个实体。然后执行步骤二,通过步骤一的标记,识别出两个实体,并利用这两个实体识别出实体类型,实体子类型,实体中心词,实体右边字字性等语义信息。例如考虑下面两条句子:
s1=“凯莉从北京到达首尔”
s2=“有六人都为一家食品公司工作”
在例子中,关系提及句子s1在凯莉和首尔两个实体间存在“phys”(地理位置)关系,其中“凯莉”是一个“per”实体,首尔是一个“gpe”实体。s2包含一个“org-aff”(组织结构从属)关系,其中“六人”是一个“per”实体,“一家食品公司”是一个“org”实体。在这个例子中,我们能够提取出12个分组好的特征集合。具体的结果如下所示。
其中,分组好的特征集合就为x={xe1,xe2,xt1,xt2,xs1,xs2,xh1,xh2,xpr1,xl,xm,xr}。然后对这些分组好的特征集合中的原子特征进行特征演算中的集合操作和逻辑演算就能够得到复合特征。例如,让z=xt1||xt2,那么xt1||xt2的结果就是z={<'per','gpe'>,<'per','org'>},其中原子特征的顺序是有影响的,其连接后得到的复合特征也能表示成下划线的形式如‘per_gpe’。将得到的复合特征进行嵌入生成文本复合特征向量矩阵。
步骤三就是对步骤一中生成的文本字向量矩阵输入卷积层和池化层;步骤四是本发明方法的核心,将步骤三的结果与复合特征向量进行拼接;最后使用全连接进行特征融合,通过softmax层预测结果,这些便是整个结合神经网络和特征演算的关系抽取方法的过程。
综上,本发明提出的一种结合神经网络与特征演算的关系抽取方法具有优良的性能。
本方案在卷积池化层之后得到的向量与复合特征向量进行拼接,这么能够更好的利用句子中的结构及语义信息,且能够有效将其与神经网络提取到的抽象特征相结合进行关系抽取,以达到良好的性能。
本发明未详述之处,均为本技术领域技术人员的公知技术。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。
1.一种结合神经网络和特征演算的关系抽取方法,其特征在于:所述方法包括如下步骤:步骤一:基于随机字向量对文本进行向量映射;步骤二:提取句子中的原子特征并对这些原子特征进行特征演算得到复合特征,将这些复合特征进行向量映射;步骤三:通过神经网络对字向量矩阵进行卷积池化操作提取特征;步骤四:将卷积池化后的结果与句子中的复合特征向量进行拼接;步骤五:全连接、softmax层预测结果。
2.根据权利要求1所述的结合神经网络和特征演算的关系抽取方法,其特征在于:所述步骤一中,基于神经网络模型,使用自然语言处理中的字向量特征对文本进行向量映射,得到文本字向量矩阵。
3.根据权利要求1所述的结合神经网络和特征演算的关系抽取方法,其特征在于:所述步骤二中,识别出实体的位置,并利用这两个实体识别出句子中其他的语义信息得到的原子特征,然后利用特征演算对原子特征进行组合得到复合特征,最后进行向量映射得到句子复合特征向量矩阵。
4.根据权利要求1所述的结合神经网络和特征演算的关系抽取方法,其特征在于:所述步骤三中,将得到的文本字向量输入卷积池化层得到结果。
技术总结