本申请涉及文本分类技术领域,尤其涉及一种基于混合双向循环胶囊网络模型的中文文本分类方法。
背景技术:
随着信息化时代的发展,研究者们可以通过收集的大量文本数据进行处理和知识挖掘,建立知识图谱,大多数知识图谱是通用型知识图谱,如dbpedia、yago等,特定领域的知识图谱需要特定主题的文本数据,由于收集的文本数据主题杂乱无章,无法为计算机所“理解”,也就无法对特定领域知识进行挖掘,可以通过对原始文本进行主题分类来解决该问题。现有技术中采用循环神经网络进行文本分类存在梯度爆炸,而采用卷积神经网络进行文本分类,存在容易在池化层丢失信息,无法获取文本全局信息,使得文本分类准确率不高的问题。
技术实现要素:
本申请提供了一种基于混合双向循环胶囊网络模型的中文文本分类方法,用于解决现有的文本分类方法存在梯度爆炸以及容易在池化层丢失信息,无法获取文本全局信息,使得文本分类准确率不高的技术问题。
有鉴于此,本申请第一方面提供了一种基于混合双向循环胶囊网络模型的中文文本分类方法,包括:
构建混合双向循环胶囊网络模型,所述混合双向循环胶囊网络模型包括bigru网络和胶囊网络;
将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,使得所述bigru网络基于所述第一字符向量提取所述待分类中文文本的上下文特征,所述胶囊网络对所述上下文特征进行处理,输出所述待分类中文文本的分类结果。
优选地,所述将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,包括:
基于word2vec模型将获取的所述待分类中文文本映射为所述第一字符向量;
将所述第一字符向量输入到所述混合双向循环胶囊网络模型。
优选地,所述基于word2vec模型将获取的所述待分类中文文本映射为所述第一字符向量,之前还包括:
对获取的所述待分类中文文本进行预处理。
优选地,所述将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,使得所述bigru网络基于所述第一字符向量提取所述待分类中文文本的上下文特征,所述胶囊网络对所述上下文特征进行处理,输出所述待分类中文文本的分类结果,之前还包括:
获取待训练中文文本;
将基于所述待训练中文文本得到的第二字符向量输入到所述混合双向循环胶囊网络模型,对所述混合双向循环胶囊网络模型进行训练;
当所述混合双向循环胶囊网络模型达到收敛条件时,得到训练好的所述混合双向循环胶囊网络模型。
优选地,所述将基于所述待训练中文文本得到的第二字符向量输入到所述混合双向循环胶囊网络模型,包括:
基于word2vec模型将所述待训练中文文本映射为所述第二字符向量;
将所述第二字符向量输入到所述混合双向循环胶囊网络模型。
优选地,所述基于word2vec模型将所述待训练中文文本映射为所述第二字符向量,之前还包括:
对所述待训练中文文本进行预处理。
优选地,所述预处理包括去除停用词、去除标点符号和分词处理。
从以上技术方案可以看出,本申请具有以下优点:
本申请提供了一种基于混合双向循环胶囊网络模型的中文文本分类方法,包括:构建混合双向循环胶囊网络模型,混合双向循环胶囊网络模型包括bigru网络和胶囊网络;将基于获取的待分类中文文本得到的第一字符向量输入到混合双向循环胶囊网络模型,使得bigru网络基于第一字符向量提取待分类中文文本的上下文特征,胶囊网络对上下文特征进行处理,输出待分类中文文本的分类结果。
本申请中的基于混合双向循环胶囊网络模型的中文文本分类方法,通过构建的混合双向循环胶囊网络模型中的bigru网络提取文本的全局信息,并且bigru网络可以按照重置门和更新门的门控比例来保留和更新信息,克服了梯度爆炸和消失的问题,从而提高分类准确率;通过胶囊网络对提取的上下文特征进行分类,胶囊网络采用矢量胶囊来表示分类类别,相比于循环神经网络和卷积神经网络采用的标量神经元来表示分类类别,矢量胶囊能够表达更丰富的信息,有助于提高文本分类的准确率,从而解决了现有的文本分类方法存在梯度爆炸以及容易在池化层丢失信息,无法获取文本全局信息,使得文本分类准确率不高的技术问题。
附图说明
图1为本申请实施例提供的一种基于混合双向循环胶囊网络模型的中文文本分类方法的一个流程示意图;
图2为本申请实施例提供的一种基于混合双向循环胶囊网络模型的中文文本分类方法的另一个流程示意图;
图3为本申请实施例提供的混合双向循环胶囊网络模型的结构示意图;
图4为本申请实施例提供的bigru网络提取上下文特征的结构示意图;
图5为本申请实施例提供的3分类的胶囊网络分类层的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了便于理解,请参阅图1,本申请提供的一种基于混合双向循环胶囊网络模型的中文文本分类方法的一个实施例,包括:
步骤101、构建混合双向循环胶囊网络模型,混合双向循环胶囊网络模型包括bigru网络和胶囊网络。
需要说明的是,考虑到现有的中文文本分类方法均是采用单一的神经网络进行文本特征提取和分类,存在分类准确率不高的问题,本申请实施例中构建混合双向循环胶囊网络模型,通过将双向门控循环神经网络(bi-directionalgatedrecurrentunitneuralnetwork,bigru)和胶囊网络结合起来,采用混合网络来进行特征提取和文本分类,解决单一网络所存在的分类准确率不高的问题。
步骤102、将基于获取的待分类中文文本得到的第一字符向量输入到混合双向循环胶囊网络模型,使得bigru网络基于第一字符向量提取待分类中文文本的上下文特征,胶囊网络对上下文特征进行处理,输出待分类中文文本的分类结果。
需要说明的是,将获取的待分类中文文本转为字符向量,能够使计算机能够理解词语义,将词语转化为相应的词向量后可以应用到各种神经网络中。
本申请实施例中的基于混合双向循环胶囊网络模型的中文文本分类方法,通过构建的混合双向循环胶囊网络模型中的bigru网络提取文本的全局信息,并且bigru网络可以按照重置门和更新门的门控比例来保留和更新信息,克服了梯度爆炸和消失的问题,从而提高分类准确率;通过胶囊网络对提取的上下文特征进行分类,胶囊网络采用矢量胶囊来表示分类类别,相比于循环神经网络和卷积神经网络采用的标量神经元来表示分类类别,矢量胶囊能够表达更丰富的信息,有助于提高文本分类的准确率,从而解决了现有的文本分类方法存在梯度爆炸以及容易在池化层丢失信息,无法获取文本全局信息,使得文本分类准确率不高的技术问题。
为了便于理解,请参阅图2至图5,本申请提供的一种基于混合双向循环胶囊网络模型的中文文本分类方法的另一个实施例,包括:
步骤201、构建混合双向循环胶囊网络模型,混合双向循环胶囊网络模型包括bigru网络和胶囊网络。
需要说明的是,考虑到现有的中文文本分类方法均是采用单一的神经网络进行文本特征提取和分类,存在分类准确率不高的问题,本申请实施例中构建混合双向循环胶囊网络模型,请参阅图3,通过将bigru网络和胶囊网络结合起来,采用混合网络来进行特征提取和文本分类,解决单一网络所存在的分类准确率不高的问题。
步骤202、获取待训练中文文本。
需要说明的是,待训练中文文本可以从公开的中文文本数据集中获取,待训练中文文本为固定长度n的中文文本序列,即每个待训练中文文本由n个字组成,其中,n可以根据实际情况进行设置。
步骤203、对待训练中文文本进行预处理。
需要说明的是,对待训练中文文本进行预处理,具体包括去除停用词、去除标点符号以及对待序列中文文本进行分词处理,有助于后续提高分类准确率。
步骤204、将基于待训练中文文本得到的第二字符向量输入到混合双向循环胶囊网络模型,对混合双向循环胶囊网络模型进行训练。
需要说明的是,将基于待训练中文文本得到的第二字符向量输入到混合双向循环胶囊网络模型,具体为:基于word2vec模型将待训练中文文本映射为第二字符向量;将第二字符向量输入到混合双向循环胶囊网络模型,其中,采用word2vec模型将文本映射为字符向量属于现有技术,在此不再对基于word2vec模型将待训练中文文本映射为第二字符向量的具体过程进行赘述。将第二字符向量输入到混合双向循环胶囊网络模型中对混合双向循环胶囊网络模型进行训练,其中,混合双向循环胶囊网络模型中的bigru网络相比于长短记忆网络(longshort-termmemory,lstm)在传递前文信息时,包含更少的参数,训练速度更快。
步骤205、当混合双向循环胶囊网络模型达到收敛条件时,得到训练好的混合双向循环胶囊网络模型。
需要说明的是,收敛条件可以是训练过程中的混合双向循环胶囊网络模型的误差率在预置范围内,收敛条件也可以是混合双向循环胶囊网络模型在训练时的迭代次数达到预置迭代次数,当混合双向循环胶囊网络模型达到收敛条件时,停止训练,得到训练好的混合双向循环胶囊网络模型,采用训练好的混合双向循环胶囊网络模型进行文本分类。
步骤206、对获取的待分类中文文本进行预处理。
需要说明的是,对待分类中文文本进行预处理,具体包括去除停用词、去除标点符号以及对待序列中文文本进行分词处理。
步骤207、将基于获取的待分类中文文本得到的第一字符向量输入到混合双向循环胶囊网络模型,使得bigru网络基于第一字符向量提取待分类中文文本的上下文特征,胶囊网络对上下文特征进行处理,输出待分类中文文本的分类结果。
需要说明的是,待分类文本可以从网络中获取,待分类中文文本为固定长度n的中文文本序列,即每个待分类中文文本由n个字组成,其中,n可以根据实际情况进行设置,基于word2vec模型将获取的待分类中文文本映射为第一字符向量,通过word2vec模型将待分类中文文本中的每个字符映射为字符向量c(ci),得到第一字符向量s=[c(c1),c(c2),…,c(ci),…,c(cn)],即字符级特征,其中,ci为第i个字符;将第一字符向量输入到混合双向循环胶囊网络模型,混合双向循环胶囊网络模型的结构可以参考图3,bigru网络的单元由一个前向传播的gru单元和一个后向传播的gru单元组合而成,bigru网络基于输入的第一字符向量提取待分类中文文本的上下文特征的过程可以参考图4,当t时刻bigru网络的输入为xt,输出为ht,具体的计算公式为:
zt=σ(uzxt wz[ht-1,ht 1] bz);
rt=σ(urxt wr[ht-1,ht 1] br);
st=tanh(usxt ws·rt×[ht-1,ht 1] bs);
ht=(1-zt)×[ht-1,ht 1] zt×st;
其中,uz、ur、us、wz、wr和ws均为网络权重参数,bz、br和bs为网络的偏置参数,zt为更新门,rt为重置门,用来控制信息通过的比例,st为需要更新的信息,通过重置门和更新门的门控比例保留和更新信息,克服了梯度爆炸和消失的问题,ht为t时刻的隐藏层状态,ht-1为t的上一时刻的状态,ht 1为t的下一时刻的状态,bigru网络基于输入的第一字符向量提取特征,输出上下文特征。
胶囊网络对上下文特征进行处理,输出待分类中文文本的分类结果,以3分类为例,图5为本申请实施例中的3分类的胶囊网络分类层的示意图,胶囊网络分为高阶胶囊和低阶胶囊,bigru网络输出的特征通过卷积层操作,得到的卷积结果作为胶囊网络的输入,基于卷积结果划分初级胶囊层,假设中文文本分类的类别数量为3,对应的高阶胶囊数量也为3,每个高阶胶囊的模长表示类别分类概率,模长被归一化到0-1之间,胶囊网络的squash激活函数为:
其中,vj为第j个高阶胶囊的最终输出,sj为第j个高阶胶囊的输入,j∈[1,m],高阶胶囊的输入sj的计算公式为:
sj=∑cijuj|i;
uj|i=wijli;
其中,wij为权重矩阵,uj|i为预测胶囊矢量,li为第i个低阶胶囊的输出,cij为连接权重,可以通过动态路由算法计算得到,通过动态路由算法更新bij来更新cij,具体为:对于所有的低阶胶囊i和高阶胶囊j设定参数bij,初始化为0,开始迭代,对于低阶胶囊i,可以通过softmax求出低阶胶囊与高阶胶囊的连接权重cij,即cij=softmax(bij),对于高阶胶囊j,可以求出sj和vj,然后更新参数bij,得到更新参数bij后,通过softmax求取cij,进而更新cij,更新参数bij的公式为:
bij=bij uj|i·vj。
本申请实施例中的基于混合双向循环胶囊网络模型的中文文本分类方法,通过构建的混合双向循环胶囊网络模型中的bigru网络提取文本的全局信息,并且bigru网络可以按照重置门和更新门的门控比例来保留和更新信息,克服了梯度爆炸和消失的问题,从而提高分类准确率;再通过胶囊网络对上下文特征进行文本分类,胶囊网络采用矢量胶囊来表示分类类别,相比于现有技术中采用的循环神经网络或卷积神经网络采用的标量神经元,矢量胶囊能够表达更丰富的信息,从而通过分类准确率;本申请实施例中的基于混合双向循环胶囊网络模型的中文文本分类方法,采用混合网络的方法,有效地弥补了单一深度学习分类模型在文本分类上的不足,能够提高文本分类的准确率。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以通过一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-onlymemory,英文缩写:rom)、随机存取存储器(英文全称:randomaccessmemory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。
1.一种基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,包括:
构建混合双向循环胶囊网络模型,所述混合双向循环胶囊网络模型包括bigru网络和胶囊网络;
将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,使得所述bigru网络基于所述第一字符向量提取所述待分类中文文本的上下文特征,所述胶囊网络对所述上下文特征进行处理,输出所述待分类中文文本的分类结果。
2.根据权利要求1所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,包括:
基于word2vec模型将获取的所述待分类中文文本映射为所述第一字符向量;
将所述第一字符向量输入到所述混合双向循环胶囊网络模型。
3.根据权利要求2所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述基于word2vec模型将获取的所述待分类中文文本映射为所述第一字符向量,之前还包括:
对获取的所述待分类中文文本进行预处理。
4.根据权利要求1所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述将基于获取的待分类中文文本得到的第一字符向量输入到所述混合双向循环胶囊网络模型,使得所述bigru网络基于所述第一字符向量提取所述待分类中文文本的上下文特征,所述胶囊网络对所述上下文特征进行处理,输出所述待分类中文文本的分类结果,之前还包括:
获取待训练中文文本;
将基于所述待训练中文文本得到的第二字符向量输入到所述混合双向循环胶囊网络模型,对所述混合双向循环胶囊网络模型进行训练;
当所述混合双向循环胶囊网络模型达到收敛条件时,得到训练好的所述混合双向循环胶囊网络模型。
5.根据权利要求4所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述将基于所述待训练中文文本得到的第二字符向量输入到所述混合双向循环胶囊网络模型,包括:
基于word2vec模型将所述待训练中文文本映射为所述第二字符向量;
将所述第二字符向量输入到所述混合双向循环胶囊网络模型。
6.根据权利要求5所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述基于word2vec模型将所述待训练中文文本映射为所述第二字符向量,之前还包括:
对所述待训练中文文本进行预处理。
7.根据权利要求3或6所述的基于混合双向循环胶囊网络模型的中文文本分类方法,其特征在于,所述预处理包括去除停用词、去除标点符号和分词处理。
技术总结