文本分类模型的训练方法和文本分类方法与流程

专利2022-06-30  65


本说明书一个或多个实施例涉及计算机领域,尤其涉及一种文本分类模型的训练方法和文本分类方法。



背景技术:

文本分类是一种典型的自然语言处理任务,可按照一定的分类体系或标准对用户输入的文本进行自动分类标记。

目前可以通过预先训练的文本分类模型,预测待分类文本属于特定分类体系下各个特定分类的概率,并将该文本划分至概率较大的特定分类。的文本。但随着信息量日趋丰富,人们对文本分类的准确率要求越来越高。因此急需提供一种分类准确率更高的文本分类方法。



技术实现要素:

本说明书一个或多个实施例提供一种文本分类模型的训练方法和文本分类方法,可提高文本分类的准确率。

本说明书一个或多个实施例提供的技术方案如下:

第一方面,提供一种文本分类模型的训练方法,其中,所述文本分类模型包括公有特征提取器、至少两个私有特征提取器、任务判别器以及与各个私有特征提取器对应的分类器,方法包括:

获取训练样本集;

对训练样本集中多个文本样本中的各个文本样本,执行以下步骤:

将文本样本分别输入公有特征提取器和与文本样本关联的私有特征提取器,得到文本样本的第一特征和文本样本的第二特征;

将文本样本的第一特征和文本样本的第二特征分别输入任务判别器,得到文本样本的第一任务判别结果和第二任务判别结果,以对公有特征提取器和任务判别器进行对抗训练;

基于文本样本的第一特征和文本样本的第二特征,利用与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果;

基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,判断是否满足预设训练停止条件;

若不满足,基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,调整文本分类模型的参数,并继续利用训练样本集训练调整后的文本分类模型,直至满足预设训练停止条件,得到训练后的文本分类模型。

第二方面,提供一种文本分类方法,应用于本说明书实施例提供的文本分类模型的训练方法训练得到的训练后的文本分类模型,该方法包括:

获取待分类文本;

将待分类文本输入训练后的文本分类模型中的公有特征提取器,得到待分类文本的第一特征;

将待分类文本输入训练后的文本分类模型中与待分类文本关联的私有特征提取器,得到待分类文本的第二特征;

基于待分类文本的第一特征和待分类文本的第二特征,利用训练后的文本分类模型中与待分类文本关联的私有特征提取器对应的分类器,得到待分类文本的分类结果。

第三方面,提供一种文本分类模型的训练装置,文本分类模型包括公有特征提取器、至少两个私有特征提取器、任务判别器以及与各个私有特征提取器对应的分类器,该装置包括:

训练集获取模块,用于获取训练样本集;

训练模块,用于对训练样本集中多个文本样本中的各个文本样本,执行以下步骤:

将文本样本分别输入公有特征提取器和与文本样本关联的私有特征提取器,得到文本样本的第一特征和文本样本的第二特征;

将文本样本的第一特征和文本样本的第二特征分别输入任务判别器,得到文本样本的第一任务判别结果和第二任务判别结果,以对公有特征提取器和任务判别器进行对抗训练;

基于文本样本的第一特征和文本样本的第二特征,利用与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果;

基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,判断是否满足预设训练停止条件;

若不满足,基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,调整文本分类模型的参数,并继续利用训练样本集训练调整后的文本分类模型,直至满足预设训练停止条件,得到训练后的文本分类模型。

第四方面,提供一种文本分类装置,应用于本说明书实施例提供的文本分类模型的训练方法训练得到的训练后的文本分类模型,该装置包括:

待分类文本获取模块,用于获取待分类文本;

第一特征确定模块,用于将待分类文本输入训练后的文本分类模型中的公有特征提取器,得到待分类文本的第一特征;

第二特征确定模块,用于将待分类文本输入训练后的文本分类模型中与待分类文本关联的私有特征提取器,得到待分类文本的第二特征;

分类结果确定模块,用于基于待分类文本的第一特征和待分类文本的第二特征,利用训练后的文本分类模型中与待分类文本关联的私有特征提取器对应的分类器,得到待分类文本的分类结果。

第五方面,提供了一种计算设备,包括:处理器以及存储有计算机程序指令的存储器;

处理器执行计算机程序指令时实现如本说明书实施例提供的文本分类方法或文本分类模型的训练方法。

第六方面,提供了一种计算机存储介质,计算机存储介质上存储有计算机程序指令,计算机程序指令被处理器执行时实现如本说明书实施例提供的文本分类方法或文本分类模型的训练方法。

在本说明书的实施例中,通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器,可以对多个不同任务下的私有特征提取器和分类器进行同时训练,以实现多个相关任务之间的信息共享,从而利用多个任务中的文本样本所包含的公有特征信息来提高对每个任务对应的分类器的分类准确率。为了避免多任务训练过程中公有特征信息和私有特征信息的掺杂,将公有特征提取器提取的文本样本的第一特征和该文本样本对应的私有特征提取器提取的第二特征均输入任务判别器,对公有特征提取器和任务判别器进行对抗训练,以区分多任务下的文本样本之间的公有特征信息以及每个任务中样本的私有特征信息,从而提升了每个任务对应的分类器对文本分类的准确率。

附图说明

为了更清楚地说明本说明书一个或多个实施例的技术方案,下面将对本说明书一个或多个实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本说明书一个实施例提供的文本分类系统的结构示意图;

图2为本说明书一个实施例提供的文本分类模型的训练方法的流程示意图;

图3为本说明书一个实施例提供的文本分类模型的结构示意图;

图4为本说明书另一个实施例提供的文本分类模型的训练方法的流程示意图;

图5为本说明书一个实施例提供的文本分类方法的流程示意图;

图6为本说明书一个实施例提供的文本分类模型训练装置的结构示意图;

图7为本说明书一个实施例提供的文本分类装置的结构示意图;

图8为本说明书一个实施例的计算设备的结构示意图。

具体实施方式

下面将详细描述本说明书的各个方面的特征和示例性实施例,为了使本说明书的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本说明书进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本说明书,并不被配置为限定本说明书。对于本领域技术人员来说,本说明书可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本说明书的示例来提供对本说明书更好的理解。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

在互联网领域中,经常需要面对用户咨询的情况。用户群体比较多时,则会出现很多相似的问询信息。若预先将不同用户提出的相似问询信息进行文本分类,然后对每一类问询信息给出对应的统一应答信息,可以提高对用户提出的问询信息的处理效率。

图1示出本说明书实施例提供的一个或多个实施例提供的文本分类系统的架构示意图。如图1所示,该系统包括终端110、终端120、终端130和服务器140。

在本说明书一个或多个实施例中,终端110、终端120、终端130均可以是笔记本电脑、智能手机、平板电脑或个人计算机等电子设备,对于终端的数目不做限制。每个终端与服务器之间的虚线代表该终端可以与服务器进行数据通信。

其中,服务器140可以是一种高性能的电子计算器,服务器140可以通过网络接收终端110、终端120和终端130发送的问询信息,并对该问询信息进行文本分类。

例如,终端110接收第一用户输入的问询信息“蚂蚁花呗如何还款?”,并将该信息发送至服务器140。终端120接收第二用户输入的问询信息“蚂蚁花呗如提升额度?”,并发将该信息送至服务器140。终端130接收第三用户输入的问询信息“蚂蚁花呗的还款方式是什么?”,并将该信息发送至服务器140。

服务器140对每个终端发送的问询信息进行文本分类。服务器可以确定第一用户的问询信息和第三用户的问询信息均属于还款类问题,第二用户的问询信息属于额度提升问题。然后服务器140基于每类问题对应的应答信息可以返给每个用户相应的应答信息。

但是若服务器140对问询信息的分类准确率不高,则会降低对问询信息的处理精度,因此提高文本分类的准确度是极其重要的。在文本分类问题中,往往有标签数据量较少的问题,导致训练的文本分类模型对文本分类的准确度较低。

基于此,本说明书实施例提供一种文本分类模型的训练方法,通过结合多任务训练和对抗训练法,提高了对文本分类的准确度率。下面结合具体的实施例和附图详细进行介绍。

在本说明书的实施例中,对抗训练是指在同一个机器学习框架中,两个模型的学习目标相反,两个模型的训练构成对抗过程,通过增加这种对抗学习,最终使模型达到更好的训练效果。

在本说明书的实施例中,多任务训练是指是一个机器学习研究领域,旨在将多种相关的任务放到同一个模型或框架中联合学习,达到任务之间知识迁移提高每个任务的效果。

图2示出本说明书一个实施例提供的文本分类模型的训练方法。其中,文本分类模型包括公有特征提取器、至少两个私有特征提取器、任务判别器以及与各个私有特征提取器对应的分类器,本说明书实施例提供的文本分类模型的训练方法包括以下步骤:

s210,获取训练样本集。

在本说明书的实施例中,训练样本集包括多个相关任务下的训练样本。其中,每个训练样本都是文本样本。每个任务下的文本样本属于不同的领域,同一任务下的样本属于同一领域。但是,每个任务对应的领域之间是相关的。例如,a任务下的样本均是用户在支付宝平台提出的文本问询信息。b任务下的样本均是用户在微信平台提出的文本问询信息。但a任务下的样本和b任务下的样本均是与支付相关的文本样本。

在一个实施例中,文本分类模型中的模型参数的初始值可以是一个随机参数或用户根据经验设定的一个参数值。

对训练样本集中多个文本样本中的各个文本样本,执行s220~s240:

需要说明的是,在对文本分类模型进行一次训练的过程中,则利用训练集中的一批训练样本,即上述多个文本样本是一批训练样本。训练样本集包括多批训练样本。在对文本分类模型的参数进行参数调整时,是以一批训练样本为基础的。对于一批训练样本,该训练样本中包括至少一个任务下的文本样本。

s220,将文本样本分别输入公有特征提取器和与文本样本关联的私有特征提取器,得到文本样本的第一特征和文本样本的第二特征。

在本说明的实施例中,每个任务具有对应的私有特征提取器,对于每个任务下的文本样本,则将该文本样本输入与该任务对应的私有特征提取器(即与该文本样本关联的私有特征提取器)中。

s230,将文本样本的第一特征和文本样本的第二特征分别输入任务判别器,得到文本样本的第一任务判别结果和第二任务判别结果,以对公有特征提取器和任务判别器进行对抗训练。

在本说明书的实施例中,任务判别器用于进行辅助训练,将任务判别器和公有特征提取器进行对抗训练,是为了实现任务判别器不能根据公有特征提取器输出的文本的第二特征,判别该文本所属任务类别。

s240,基于文本样本的第一特征和文本样本的第二特征,利用与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果。

s250,基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,判断是否满足预设训练停止条件。若满足,则进入s260,若不满足,则进入s270。

s260,模型训练结束,得到训练后的文本分类模型。

s270,基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,调整文本分类模型的参数,并继续利用训练样本集训练调整后的文本分类模型,直至满足预设训练停止条件,得到训练后的文本分类模型。

在本说明书的实施例中,通过将多个任务中每个任务下的文本样本输入其对应的私有特征提取器和公有特征提取器,可以对多个不同任务下的私有特征提取器和分类器进行同时训练,以实现多个相关任务之间的信息共享,从而利用多个任务中的文本样本所包含的公有特征信息来提高对每个任务对应的分类器的分类准确率。为了避免多任务训练过程中公有特征信息和私有特征信息的掺杂,将公有特征提取器提取的文本样本的第一特征和该文本样本对应的私有特征提取器提取的第二特征均输入任务判别器,对公有特征提取器和任务判别器进行对抗训练,以区分多任务下的文本样本之间的公有特征信息以及每个任务中样本的私有特征信息,从而提升了每个任务对应的分类器对文本分类的准确率。

其中,公有特征信息是多个任务下的文本样本所共有的特征信息。私有特征信息是每个任务中的文本样本所独有的特征信息。

在s210中,训练样本集中包括每个私有特征提取器对应的任务下的文本样本,即训练样本集中文本样本对应的任务个数与私有特征提取器的个数相对应。

下面介绍s220的具体实现方式。在本说明书的一个或多个实施例中,公有特征提取器和私有特征提取器为以下深度学习网络中的任意一种:卷积神经网络、长短期记忆网络以及预先训练的变换的双向编码器表示(bidirectionalencoderrepresentationfromtransformer,bert)模型。

其中,卷积神经网络是一类包含卷积计算且具有深度结构的前馈神经网络。

其中,bert模型是一种自然语言处理模型,可以对用户输入的一个句子分类输出标签。可以先在大量语料上预训练,使bert模型学习到自然语言内在的语法规律,然后在特定的任务上微调预先训练的bert模型,具有很好的泛化能力。

下面解释一下预训练。假设已有a训练集,先用a训练集对网络进行预训练,在a任务上学会网络参数,然后保存以备后用。当来一个新的任务b,采取相同的网络结构,网络参数初始化的时候可以加载a任务学习好的参数,其他的高层参数随机初始化。之后用b任务的训练数据来训练网络。当加载的参数随着b任务的训练进行不断的改变,称为微调,即更好地把参数进行调整使得更适合当前的b任务。

通过使用预先训练好的bert模型,可以实现当b任务的训练样本较少的时候,达到更好的训练效果。

其中,公有特征提取器和每个私有特征提取器可以均为同一种网络,也可以为不同的网络。

需要说明的是,当获取训练样本集中的文本样本之后,为了将文本样本处理成计算机可以理解的向量数据,可以先对文本样本进行分词处理,得到该文本样本对应的词序列。然后,根据预设的向量转换模型,得到词序列中对应的向量。接着,将文本样本对应的词序列对应的向量分别输入公有特征提取器和该文本样本关联的私有特征提取器,即得到该文本样本的第一特征和第二特征。

在s230中,任务判别器是判断文本样本属于多个已知任务中的哪个任务。也就是说,任务判别器为多任务判别器。

为了避免多任务训练过程中信息的掺杂,希望最终训练的公有特征提取器可以准确提取多个任务下的文本样本之间的公有特征信息,而希望每个私有特征提取器可以提取该私有特征提取器对应任务下的文本样本的私有特征信息。

因此,需要对公有特征提取器和任务判别器进行对抗训练,以实现任务判别器无法根据公有特征器提取的文本样本的特征判断该文本样本所属任务,但可以根据私有特征提取器提取的特征判断该文本样本所属任务,从而提高对文本分类的准确性。

在本说明书的一个或多个实施例中,s240包括将文本样本的第一特征和文本样本的第二特征进行综合处理,得到文本样本的综合特征;将文本样本的综合特征输入与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果。

在一些示例中,综合处理包括拼接处理、求和处理或均值处理。

作为一个示例,文本样本的第一特征和文本样本的第二特征的表现形式均为特征向量。则拼接处理是指将两个特征向量进行拼接。求和处理是指将两个特征向量进行求和。均值处理是指对两个特征向量进行求平均值。

通过对文本样本的第一特征和第二特征进行综合处理,则分类器可以根据该文本样本的丰富的特征信息对该文本样本进行分类,提高了对文本样本分类的准确率。

下面介绍s250的具体实现方式。在一些实施例中,s250包括s2501~s2504。

s2501,基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,计算第一损失函数值。

需要说明的是,任务标签是指文本样本真实所属任务类别。每个文本样本的任务标签是预先标定的。

在本说明书的实施例中,将各个文本样本的第一任务判别结果和各个文本样本的任务标签代入第一损失函数,即可得到第一损失函数值。

在本说明书的一个或多个实施例中,损失函数(lossfunction)可以用于估计模型训练的结果与模型训练的目标之间的差距。

作为一个示例,第一损失函数可以是交叉熵损失函数或均方差损失函数等,在此不做具体限定。

s2502,对于各个分类器,根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,计算第二损失函数值。

其中,分类标签是指文本样本真实所属的文本类别,每个文本样本的分类标签也是预先标定的。

需要说明的是,每个任务具有对应的私有特征提取器和分类器,即每个任务下的文本样本需要输入与该任务对应的私有特征提取器。每个私有特征提取器具有对应的分类器,即每个私有特征提取器提取的第二特征需要输入与其对应的分类器。私有特征提取器关联的各个第一文本样本是指在一批训练样本中属于该私有特征提取器对应的任务下的每个文本样本。

需要说明的是,一次训练过程是针对一批训练样本而言的。由于一批训练样本中可能只包括部分任务下的文本样本,因此在利用一批训练样本对文本分类模型进行训练时,只有部分私有特征提取器进行了特征提取工作。相应地,也只有进行了特征提取工作的私有特征提取器对应的分类器进行了分类处理。

在一次训练过程中,对于每个进行了分类处理的第一分类器,将与该第一分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,代入第二损失函数,即可得到第二损失函数值。也就是说,每个第一分类器均对应一个第二损失函数值。

对于没有关联的文本样本的私有特征提取器对应的分类器,即文本分类模型中除第一分类器之外的分类器,则不计算针对该分类器对应的第二损失函数值。

其中,第二损失函数可以和第一损失函数相同,也可以不同,在此不做限定。第二损失函数可以是交叉熵损失函数或均方差损失函数等,在此不做具体限定。

s2503,对于各个私有特征提取器,根据私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,计算第三损失函数值。

由上述可知,在利用一批训练样本对文本分类模型进行训练时,只有部分私有特征提取器进行了特征提取工作,因此只有进行了特征提取工作的第一私有特征提取器具有关联的第一文本样本。

对于没有关联的文本样本的私有特征提取器,即文本分类模型中除第一私有特征提取器之外的其他私有特征提取器,则不计算针对该私有特征提取器的第三损失函数值。

对于各个第一私有特征提取器,将该私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,代入第三损失函数,即可以得到第三损失函数值。

其中,第三损失函数可以和第一损失函数或第二损失函数相同,也可以三者均不同,在此不做限定。第三损失函数可以是交叉熵损失函数或均方差损失函数等,在此不做具体限定。

其中,第三损失函数值的个数与第一私有特征提取器的个数相同。

s2504,判断第一损失函数值是否大于第一预设阈值,各个第二损失函数值是否小于第二预设阈值,且各个第三损失函数值是否小于第三预设阈值。

在本说明书的实施例中,通过判断第一损失函数值是否大于第一预设阈值,来判断任务判别器是否无法根据公有特征提取器提取的文本样本的第二特征来正确判断该文本样本所属类别。

若第一损失函数值大于第一预设阈值,则证明任务判别器无法根据公有特征提取器提取的文本样本的第二特征来正确判断该文本样本所属类别,即实现了公有特征提取器提取的特征为多个任务下的文本样本所共有的特征信息。

对于每个分类器,通过判断该分类器对应的第二损失函数值,来判断该分类器是否能够正确对文本样本进行分类。

若第二损失函数值小于第二预设阈值,则证明分类器可以正确对该分类器对应的文本样本进行分类。

对于每个私有特征提取器,通过判断该私有特征提取器对应的第三损失函数值是否小于第三预设阈值,来判断任务判别器是否能够根据该私有特征提取器提取的文本样本的第一特征,正确判断该文本样本所属任务类别。

若私有特征提取器对应的第三损失函数值小于第三预设阈值,则证明任务判别器能够根据该私有特征提取器提取的文本样本的第二特征,正确判断出该文本样本所属任务类别。

若第一损失函数值大于第一预设阈值,每个第二损失函数值均小于第二预设阈值,且每个第三损失函数值均小于第三损失函数值,则证明任务判别器无法根据公有特征提取器提取的文本样本的第一特征判断该文本样本所属任务类别,但能够根据该文本样本对应的私有特征提取器提取的该文本样本的第二特征判断该文本样本所属任务类别,且该文本样本对应的分类器可以正确对其进行分类,实现了训练目标,即可以停止训练。

也就是说,预设训练停止条件为第一损失函数值大于第一预设阈值,每个第二损失函数值均小于第二预设阈值,且每个第三损失函数值均小于第三损失函数值。

在另外一些实施例中,预设的训练停止条件还可以为训练次数达到预设次数阈值。

在本说明书的一些实施例中,s270包括s2701、s2702、s2703和s2704。

s2701,基于各个文本样本的第一任务判别结果、各个文本样本的任务标签、各个文本样本的分类结果和各个文本样本的分类标签,调整公有特征提取器的参数。

由于每个文本样本的第一特征均会输入公有特征提取器,以得到每个文本样本的第一任务判别结果,并且每个文本样本的分类结果也都用到了公有特征提取器提取的该文本样本的第一特征,因此需要利用每个文本样本的第一任务判别结果和每个文本样本的分类结果共同调整公有特征提取器的参数。

s2702,基于各个文本样本的第一任务判别结果、各个文本样本的第二任务判别结果和各个文本样本的任务标签,调整任务判别器的参数。

在本说明书的实施例中,由于任务判别器既基于每个文本样本的第一特征对该文本样本所属任务进行判别,也根据该文本样本的第二特征对该文本样本所属任务进行判别,因此需要利用每个文本样本的第一任务判别结果和第二任务判别结果共同调整任务判别器的参数。

s2703,对于各个私有特征提取器,基于私有特征提取器关联的各个第一文本样本的第二任务判别结果、各个第一文本样本的任务标签、各个第一文本样本的分类结果和各个第一文本样本的分类标签,调整私有特征提取器的参数。

需要说明的是,一次调参过程是针对一批训练样本而言的。由于一批训练样本中可能只包括部分任务下的文本样本,因此在利用一批训练样本对文本分类模型进行训练时,只有部分私有特征提取器进行了特征提取工作。也就是说,在一次调参过程中,只有一批训练样本对应的各个第一私有特征提取器需要进行参数调整,对于文本分类模型中除了第一私有特征提取器之外的私有特征提取器在本次调参过程中不需要进行参数调整。

因此,在s2703中,在利用一批训练样本对文本分类模型进行训练的过程中,私有特征提取器为具有关联的第一文本样本的第一私有特征提取器。对于每个第一私有特征提取器,基于该私有特征提取器关联的各个第一文本样本的第二任务判别结果、各个第一文本样本的任务标签、各个第一文本样本的分类结果和各个第一文本样本的分类标签,调整该私有特征提取器的参数。若私有特征提取器不是第一私有特征提取器,则在此次调参过程中暂不对该私有特征提取器进行调参。

s2704,对于各个分类器,基于分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,调整分类器的参数。

相类似地,由于一批训练样本可能只包括部分任务下的文本样本,因此也只有部分分类器进行了分类处理。也就是说,在一次调参过程中,只有各个第一私有特征提取器对应的第一分类器需要进行参数调整,对于文本分类模型中除了第一分类器之外的分类器不需要进行参数调整。

下面分别对s2701~s2704中的每个步骤的具体实现方式进行介绍。

在本说明书的一些实施例中,s2701包括步骤a1~步骤a3。

步骤a1,基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,利用第一损失函数和梯度上升法,计算公有特征提取器的参数关于第一损失函数的第一梯度。

在本说明书的实施例中,对于文本分类模型中的每个参数,可以利用该参数关于损失函数的梯度进行调整。

在一些实施例中,可以利用反向传播算法计算文本分类模型中每个参数关于损失函数的梯度。

由于公有特征提取器和任务判别器需要进行对抗训练,因此需要利用梯度上升法计算公有特征提取器的参数关于第一损失函数的第一梯度,以提高对任务判别器和公有特征提取器的训练效果。

作为一个示例,首先利用链式求导法则计算出公有特征提取器的参数关于第一损失函数的偏导函数。然后基于各个文本样本的第一任务判别结果、各个文本样本的任务标签以及公有特征提取器的参数关于第一损失函数的偏导函数,可以得到公有特征提取器的参数关于第一损失函数的偏导值,在该偏导值前加一个负号,即实现梯度上升,得到第一梯度。也就是说,为了实现与任务判别器的对抗训练,利用第一损失函数和梯度上升法,给公有特征提取器生成了一个减弱任务信号,即第一梯度。

步骤a2,对于各个分类器,根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算公有特征提取器的参数关于第二损失函数的第二梯度。

需要说明的是,步骤a2中的各个分类器指的是各个第一分类器。也就是说,第二梯度的个数等于第一分类器的个数。

文本分类模型的训练目标是想实现分类器根据公有特征提取器提取的文本样本的第一特征以及该文本样本对应的私有特征提取器提取的第二特征,能够正确得出该文本样本的分类结果。因此,需要利用梯度下降法计算公有特征提取器的参数关于第二损失函数的第二梯度。也就是说,利用第二损失函数和梯度下降法,给公有特征提取器生成了一个增强任务信号,即第二梯度。

作为一个示例,首先利用链式求导法则计算出公有特征提取器的参数关于第二损失函数的偏导函数。然后基于各个第一文本样本的分类结果、各个第一文本样本的分类标签和公有特征提取器的参数关于第二损失函数的偏导函数,得到公有特征提取器的参数关于第二损失函数的偏导值,即为第二梯度。

由于第一分类器的个数可能为多个,因此将会得到多个第二梯度。

步骤a3,基于第一梯度以及各个第二梯度,调整公有特征提取器的参数。

在本说明书的实施例中,将第一梯度和各个第二梯度相加,得到公有特征提取器的参数对应的总梯度。将公有特征提取器的参数对应的总梯度,加上该参数调整前的数值,即可以得到该参数调整后的数值。

在本说明书的一些实施例中,s2702包括步骤b1~步骤b3。

步骤b1,基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,利用第一损失函数和梯度下降法,计算任务判别器的参数关于第一损失函数的第三梯度。

由于对任务判别器的训练结果是要求任务判别器可以准确地判别出每个文本样本所属任务类别,因此需要利用梯度下降法对任务判别器进行调参。也就是说,利用第一损失函数和梯度下降法,给任务判别器生成了一个增强任务信号。

作为一个示例,利用链式求导法则计算出任务判别器的参数关于第一损失函数的偏导函数。然后基于各个文本样本的第一任务判别结果、各个文本样本的任务标签和任务判别器的参数关于第一损失函数的偏导函数,任务判别器的参数关于第一损失函数的偏导值,该偏导值即为第三梯度。

步骤b2,对于各个私有特征提取器,根据私有特征提取器对应的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算任务判别器的参数关于第三损失函数的第四梯度。

需要说明的是,步骤b2中的私有特征提取器为第一特征提取器,由于文本分类模型训练的目的是可以使任务判别器根据每个文本样本的私有特征信息准确判别每个文本样本所属任务,因此需要利用第三损失函数和梯度下降法,对任务判别器进行调参,即给任务判别器再生成一个任务增强信号。

作为一个示例,利用链式求导法则以及各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,可以计算出任务判别器的参数关于第三损失函数的偏导值,该偏导值即为第四梯度。

其中,第四梯度的个数等于第一私有特征提取器的个数。

步骤b3,基于第三梯度和各个第四梯度,调整任务判别器的参数。

在本说明书的实施例中,将第三梯度和各个第四梯度相加,得到任务判别器的参数对应的总梯度。将任务判别器的参数对应的总梯度,加上该参数调整前的数值,即可以得到该参数调整后的数值。

在本说明书的一些实施例中,s2703包括对各个私有特征提取器执行步骤c1~步骤c3。需要说明的是,s2703中的各个私有特征提取器为各个第一私有特征提取器。

步骤c1,根据私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算私有特征提取器的参数关于第三损失函数的第五梯度。

对于第五梯度的计算方法可以参见上述第四梯度的计算方法,在此不再赘述。

步骤c2,根据各个第一文本样本的分类结果和各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算私有特征提取器的参数关于第二损失函数的第六梯度。

对于第六梯度的计算方法可以参见上述第二梯度的计算方法,在此不再赘述。

步骤c3,基于第五梯度和第六梯度,调整私有特征提取器的参数。

在本说明书的实施例中,将第五梯度和第六梯度相加,得到私有特征提取器的参数对应的总梯度。将私有特征提取器的参数对应的总梯度,加上该参数调整前的数值,即可以得到该参数调整后的数值。

在本说明书的一些实施例中,s2704包括对各个分类提取器执行步骤d1~步骤d2。需要说明的是,s2703中的各个分类器为各个第一分类器。

步骤d1,根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的任务标签,利用第二损失函数和梯度下降法,计算分类器的参数关于第二损失函数的第七梯度。

对于第七梯度的计算方法与第二梯度的计算方法相类似,在此不再赘述。

步骤d2,基于第七梯度,调整分类器的参数。

在本说明书的实施例中,将分类器的参数调整前的数值加上与该参数对应的第七梯度,即可以得到该参数调整后的数值。

在本说明书的实施例中,利用训练集中的多批训练样本,通过综合使用多任务训练和对抗训练法,对文本分类模型进行迭代训练,直至满足预设训练停止条件,得到训练后的文本分类模型。

下面结合一个具体的示例介绍文本分类模型的训练方法。图3示出文本分类模型的结构示意图,如图3所示,文本分类模型包括公有特征提取器、两个私有特征提取器(目标特征提取器和辅助特征提取器)、任务判别器和两个分类器(目标分类器和辅助分类器)。其中,两个私有特征提取器和公有特征提取器均为bert模型。

其中,训练样本集中包括目标任务下的多个文本样本和辅助任务下的多个文本样本。其中,目标任务是指使用训练后的文本分类模型进行分类的待分类文本所属任务。任务可以理解为一个领域。

作为一个示例,若想训练得到一个能够对支付宝领域的文本进行分类的文本分类模型,但由于支付宝领域的标签数据过少,则可以采样其他领域的与支付相关的辅助文本样本对目标特征提取器、公有特征提取和目标分类器进行辅助训练,以提高训练效果。

其中,任务判别器、辅助特征提取器和辅助分类器则是用于辅助训练目标特征提取器、公有特征提取和目标分类器。

其中,公有特征提取器用于提取目标任务下目标文本样本的第一特征以及辅助任务下辅助文本样本的第一特征。目标特征提取器用于提取目标任务下的目标文本样本的第二特征。辅助特征提取器用于提取辅助任务下的辅助文本样本的第二特征。

辅助分类器用于基于辅助文本样本的第一特征和第二特征对该辅助文本样本进行分类,目标分类器用于基于目标文本样本的第一特征和第二特征对该目标文本样本进行分类。

参见图3,图3中的实线代表对辅助文本样本进行分类处理时的数据流向,图3中的虚线代表对目标文本样本进行分类处理时的数据流向。

参见图3和图4,对于训练集中的一批训练样本,对于该批训练样本中的每个文本样本,即如论是目标文本样本还是辅助文本样本均需要输入公有特征提取器。参见图4,当目标文本样本或辅助文本样本输入公有特征提取器之后,公有特征提取器提取该文本样本的第一特征。然后将公有特征提取器输出的目标文本样本或辅助文本样本的第一特征输入任务判别器,得到该文本样本的第一任务判别结果。

参见图3和图4,若文本样本属于辅助任务,即该文本为辅助文本样本,则还将该辅助文本样本输入辅助特征提取器。辅助特征提取器提取辅助文本样本的第二特征。然后将辅助特征提取器提取的辅助文本样本的第二特征输入任务判别器。任务判别器基于辅助文本样本的第二特征进行任务判别,得到辅助文本样本的第二任务判别结果。另外,将辅助文本样本的第一特征和第二特征进行综合处理之后输入辅助分类器。辅助分类器基于辅助文本样本的第一特征和第二特征进行分类,得到辅助文本样本的分类结果。

参见图3和图4,若文本样本属于目标任务,即该文本为目标文本样本,则还将该目标文本样本输入目标特征提取器。目标特征提取器提取目标文本样本的第二特征。然后将目标特征提取器提取的目标文本样本的第二特征输入任务判别器。任务判别器基于目标文本样本的第二特征进行任务判别,得到目标文本样本的第二任务判别结果。另外,将目标文本样本的第一特征和第二特征进行综合处理之后输入目标分类器。目标分类器基于目标文本样本的第一特征和第二特征进行分类,得到目标文本样本的分类结果。

当将一批训练样本中的每个文本样本均输入文本分类模型中之后,则可以得到每个目标文本样本的第一任务判别结果、第二任务判别结果、分类结果,以及每个辅助文本样本的第一任务判别结果、第二任务判别结果和分类结果。

若基于每个目标文本样本的第一任务判别结果、第二任务判别结果、分类结果,以及每个辅助文本样本的第一任务判别结果、第二任务判别结果和分类结果,确定不满足预设训练停止条件,则基于每个目标文本样本的第一任务判别结果、第二任务判别结果、分类结果,以及每个辅助文本样本的第一任务判别结果、第二任务判别结果和分类结果,调整文本分类模型的参数。

下面介绍调整公有特征提取器的参数的具体实现方式。

首先,根据每个目标文本样本的第一任务判别结果、每个辅助文本样本的第一任务判别结果,可以得到公有特征提取器的参数关于第一损失函数的第一梯度。具体可参见步骤a1,在此不再赘述。

然后,基于每个目标文本样本的分类结果和每个目标文本样本的分类标签,可以计算公有特征提取器的参数关于第二损失函数的一个第二梯度。然后,基于每个辅助文本样本的分类结果和每个辅助文本样本的分类标签,可以计算公有特征提取器的参数关于第二损失函数的另一个第二梯度。具体可参见步骤a2,在此不再叙述。

最后根据公有特征提取器的参数关于第一损失函数的第一梯度以及公有特征提取器的参数关于第二损失函数的两个第二梯度,对公有特征提取器的参数进行调整。具体可参见步骤a3,在此不再赘述。

下面介绍调整任务判别器的参数的具体实现方式。

首先,根据每个目标文本样本的第一任务判别结果、每个辅助文本样本的第一任务判别结果,可以得到任务判别器的参数关于第一损失函数的第三梯度。具体可参见步骤b1,在此不再赘述。

然后,基于每个目标文本样本的第二任务判别结果和每个目标文本样本的任务标签,可以计算任务判别器的参数关于第三损失函数的一个第四梯度。然后,基于每个辅助文本样本的第二任务判别结果和每个辅助文本样本的任务标签,可以计算任务判别器的参数关于第三损失函数的另一个第四梯度。具体可参见步骤b2,在此不再叙述。

最后根据任务判别器的参数关于第一损失函数的第三梯度以及任务判别器的参数关于第三损失函数的两个第四梯度,对任务判别器的参数进行调整。具体可参见步骤b3,在此不再赘述。

下面介绍调整目标特征提取器的参数的具体实现方式。

首先,根据每个目标文本样本的第二任务判别结果、每个目标文本样本的任务标签,可以得到目标特征提取器的参数关于第三损失函数的第五梯度。具体可参见步骤c1,在此不再赘述。

然后,基于每个目标文本样本的分类结果和每个目标文本样本的分类标签,可以计算目标特征提取器的参数关于第二损失函数的第六梯度。具体可参见步骤c2,在此不再叙述。

最后根据目标特征提取器的参数关于第三损失函数的第五梯度以及目标特征提取器的参数关于第二损失函数的第六梯度,对目标特征提取器的参数进行调整。具体可参见步骤c3,在此不再赘述。

其中,辅助特征提取器的参数的调整方式与目标特征提取器的参数的调整方式相类似,在此不再赘述。

下面介绍调整目标分类器的参数的具体实现方式。

首先,根据每个目标文本样本的分类结果和分类标签,得到目标分类器的参数关于第二损失函数的第七梯度。然后基于目标分类器的参数关于第二损失函数的第七梯度调整该分类器的参数。具体可参考步骤d1和步骤d3,在此不再赘述。

其中,辅助分类器的参数的调整方式与目标分类器的参数的调整方式相类似,在此不再赘述。

通过利用训练样本集中的多批训练样本对文本分类模型进行迭代训练,可以得到满足预设训练停止条件的文本分类模型。

本说明书实施例还提供一种文本分类方法,该文本方法利用上述实施例提供的文本分类模型的训练方法训练后的文本分类模型对待分类文本进行文本分类。图5示出本说明书实施例提供的文本分类方法的流程示意图。如图5所示,文本分类方法包括:

s510,获取待分类文本。

s520,将待分类文本输入训练后的文本分类模型中的公有特征提取器,得到待分类文本的第一特征。

s530,将待分类文本输入训练后的文本分类模型中与待分类文本关联的私有特征提取器,得到待分类文本的第二特征。

s540,基于待分类文本的第一特征和待分类文本的第二特征,利用训练后的文本分类模型中与待分类文本关联的私有特征提取器对应的分类器,得到待分类文本的分类结果。

本说明书的实施例提供的文本分类方法,通过利用上述实施例提供的文本分类模型的训练方法所训练的文本分类模型,提高了对待分类文本的分类准确率。

需要说明的是,由于训练后的文本分类模型中包括多个任务下的私有特征提取器和分类器,因此需要将待分类文本输入公有特征提取器以及与其对应的私有特征提取器,以使与待分类文本对应的分类器基于该文本的第一特征和第二特征对该文本进行分类。

在s540中,将待分类文本的第一特征和待分类文本的第二特征进行综合处理,得到待分类文本的综合特征;将待分类文本的综合特征输入与待分类文本对应的分类器,得到待分类文本的分类结果。

对于综合处理的叙述可参照上述描述,在此不再赘述。

通过利用待分类文本的第一特征和第二特征对待分类文本进行分类,可以利用丰富的特征信息对待分类文本进行分类,提高了分类准确率。

作为一个示例,若待分类文本属于目标任务,则将该待分类文本分别输入训练后的文本分类模型中的公有特征提取器和训练后的文本分类模型中的目标特征提取器,得到待分类文本的第一特征和第二特征。

然后,将待分类文本的第一特征和第二特征进行综合处理,得到待分类文本的综合特征。将待分类文本的综合特征输入训练后的文本分类模型中的目标分类器,得到待分类文本的分类结果。

相类似地,若待分类文本属于辅助任务,则可以利用公有特征提取器、辅助特征提取器和辅助分类器对该待分类文本进行分类。

图6示出了根据本说明书一实施例提供的文本分类模型的训练装置的结构示意图。如图6所示,文本分类模型的训练装置600包括:

训练集获取模块610,用于获取训练样本集;

训练模块620,用于对训练样本集中多个文本样本中的各个文本样本,执行以下步骤:

将文本样本分别输入公有特征提取器和与文本样本关联的私有特征提取器,得到文本样本的第一特征和文本样本的第二特征;

将文本样本的第一特征和文本样本的第二特征分别输入任务判别器,得到文本样本的第一任务判别结果和第二任务判别结果,以对公有特征提取器和任务判别器进行对抗训练;

基于文本样本的第一特征和文本样本的第二特征,利用与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果;

基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,判断是否满足预设训练停止条件;

若不满足,基于各个文本样本的第一任务判别结果、第二任务判别结果和分类结果,调整文本分类模型的参数,并继续利用训练样本集训练调整后的文本分类模型,直至满足预设训练停止条件,得到训练后的文本分类模型。

本说明书实施例提供的文本分类模型的训练装置,通过结合多任务训练和对抗训练法,提高了对文本分类的准确度率。

在本说明书的实施例中,训练模块620包括:

第一损失函数值计算单元,用于基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,计算第一损失函数值。

第二损失函数值计算单元,用于对于各个分类器,根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,计算第二损失函数值。

第三损失函数值计算单元,用于对于各个私有特征提取器,根据私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,计算第三损失函数值。

判断单元,用于判断第一损失函数值是否大于第一预设阈值,各个第二损失函数值是否小于第二预设阈值,且各个第三损失函数值是否小于第三预设阈值。

在本说明书的实施例中,训练模块620包括:

第一调整单元,用于基于各个文本样本的第一任务判别结果、各个文本样本的任务标签、各个文本样本的分类结果和各个文本样本的分类标签,调整公有特征提取器的参数。

第二调整单元,用于基于各个文本样本的第一任务判别结果、各个文本样本的第二任务判别结果和各个文本样本的任务标签,调整任务判别器的参数。

第三调整单元,用于对于各个私有特征提取器,基于私有特征提取器关联的各个第一文本样本的第二任务判别结果、各个第一文本样本的任务标签、各个第一文本样本的分类结果和各个第一文本样本的分类标签,调整私有特征提取器的参数。

第四调整单元,用于对于各个分类器,基于分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,调整分类器的参数。

在本说明书的实施例中,第一调整单元用于:

基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,利用第一损失函数和梯度上升法,计算公有特征提取器的参数关于第一损失函数的第一梯度;

对于各个分类器,根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算公有特征提取器的参数关于第二损失函数的第二梯度;

基于第一梯度以及各个第二梯度,调整公有特征提取器的参数。

在本说明书的实施例中,第二调整单元用于:

基于各个文本样本的第一任务判别结果和各个文本样本的任务标签,利用第一损失函数和梯度下降法,计算任务判别器的参数关于第一损失函数的第三梯度;

对于各个私有特征提取器,根据私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算任务判别器的参数关于第三损失函数的第四梯度;

基于第三梯度和各个第四梯度,调整任务判别器的参数。

在本说明书的实施例中,第三调整单元用于对各个私有特征提取器,执行以下步骤:

根据私有特征提取器关联的各个第一文本样本的第二任务判别结果和各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算私有特征提取器的参数关于第三损失函数的第五梯度;

根据各个第一文本样本的分类结果和各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算私有特征提取器的参数关于第二损失函数的第六梯度;

基于第五梯度和第六梯度,调整私有特征提取器的参数。

在本说明书的实施例中,第四调整单元用于对各个分类器,执行以下步骤:

根据分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和各个第一文本样本的任务标签,利用第二损失函数和梯度下降法,计算分类器的参数关于第二损失函数的第七梯度;

基于第七梯度,调整分类器的参数。

在本说明书的实施例中,公有特征提取器和私有特征提取器为以下深度学习网络中的任意一种:

卷积神经网络、长短期记忆网络以及预先训练的变换的双向编码器表示bert模型。

在本说明书的实施例中,训练模块620包括:

综合处理单元,用于将文本样本的第一特征和文本样本的第二特征进行综合处理,得到文本样本的综合特征。

分类处理单元,用于将文本样本的综合特征输入与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果。

在本说明书的实施例中,综合处理包括拼接处理、求和处理或均值处理。

根据本说明书实施例的文本分类模型的训练装置的其他细节与以上结合图2至图4描述的根据本说明书实施例的文本分类模型的训练方法类似,在此不再赘述。

图7示出了根据本说明书一实施例提供的文本分类装置的结构示意图。如图7所示,文本分类装置700应用于由上述文本分类模型的训练方法训练得到的训练后的文本分类模型,该装置包括:

待分类文本获取模块710,用于获取待分类文本。

第一特征确定模块720,用于将待分类文本输入训练后的文本分类模型中的公有特征提取器,得到待分类文本的第一特征。

第二特征确定模块730,用于将待分类文本输入训练后的文本分类模型中与待分类文本关联的私有特征提取器,得到待分类文本的第二特征。

分类结果确定模块740,用于基于待分类文本的第一特征和待分类文本的第二特征,利用训练后的文本分类模型中与待分类文本关联的私有特征提取器对应的分类器,得到待分类文本的分类结果。

在本说明书的实施例中,通过利用上述文本分类模型的训练方法训练得到的文本分类模型对待分类文本进行分类,提高了分类的准确率。

在本说明书的实施例中,分类结果确定模块740用于:

将待分类文本的第一特征和待分类文本的第二特征进行综合处理,得到待分类文本的综合特征;

将待分类文本的综合特征输入训练后的文本分类模型中与待分类文本关联的私有特征提取器对应的分类器,得到待分类文本的分类结果。

根据本说明书实施例的文本分类装置的其他细节与以上结合图5描述的根据本说明书实施例的文本分类方法类似,在此不再赘述。

结合图2~图7描述的根据本说明书实施例的文本分类方法、文本分类模型的训练方法、文本分类装置以及文本分类模型的训练装置均可以由计算设备来实现。图8是示出根据说明书实施例的计算设备的硬件结构800示意图。

如图8所示,计算设备800包括输入设备801、输入接口802、中央处理器803、存储器804、输出接口805、以及输出设备806。其中,输入接口802、中央处理器803、存储器804、以及输出接口805通过总线810相互连接,输入设备801和输出设备806分别通过输入接口802和输出接口805与总线810连接,进而与计算设备800的其他组件连接。

具体地,输入设备801接收来自外部的输入信息,并通过输入接口802将输入信息传送到中央处理器803;中央处理器803基于存储器804中存储的计算机可执行指令对输入信息进行处理以生成输出信息,将输出信息临时或者永久地存储在存储器804中,然后通过输出接口805将输出信息传送到输出设备806;输出设备806将输出信息输出到计算设备800的外部供用户使用。

也就是说,图8所示的计算设备也可以被实现为包括:存储有计算机可执行指令的存储器;以及处理器,该处理器在执行计算机可执行指令时可以实现本说明书实施例提供的文本分类方法或文本分类模型的训练方法。

本说明书实施例还提供一种计算机存储介质,该计算机存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现本说明书实施例提供的文本分类方法或文本分类模型的训练方法。

以上的结构框图中所示的功能块可以实现为硬件、软件、固件或者它们的组合。当以硬件方式实现时,其可以例如是电子电路、专用集成电路(asic)、适当的固件、插件、功能卡等等。当以软件方式实现时,本说明书的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中,或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、rom、闪存、可擦除rom(erom)、软盘、cd-rom、光盘、硬盘、光纤介质、射频(rf)链路,等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

以上,仅为本说明书的具体实施方式,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、模块和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。应理解,本说明书的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本说明书揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本说明书的保护范围之内。


技术特征:

1.一种文本分类模型的训练方法,其中,所述文本分类模型包括公有特征提取器、至少两个私有特征提取器、任务判别器以及与各个私有特征提取器对应的分类器,所述方法包括:

获取训练样本集;

对所述训练样本集中多个文本样本中的各个所述文本样本,执行以下步骤:

将所述文本样本分别输入所述公有特征提取器和与所述文本样本关联的私有特征提取器,得到所述文本样本的第一特征和所述文本样本的第二特征;

将所述文本样本的第一特征和所述文本样本的第二特征分别输入所述任务判别器,得到所述文本样本的第一任务判别结果和第二任务判别结果,以对所述公有特征提取器和所述任务判别器进行对抗训练;

基于所述文本样本的第一特征和所述文本样本的第二特征,利用与所述文本样本关联的私有特征提取器对应的分类器,得到所述文本样本的分类结果;

基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,判断是否满足预设训练停止条件;

若不满足,基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,调整所述文本分类模型的参数,并继续利用所述训练样本集训练调整后的文本分类模型,直至满足所述预设训练停止条件,得到训练后的文本分类模型。

2.根据权利要求1所述的方法,其特征在于,所述基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,判断是否满足预设训练停止条件,包括:

基于各个所述文本样本的第一任务判别结果和各个所述文本样本的任务标签,计算第一损失函数值;

对于各个所述分类器,根据所述分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,计算第二损失函数值;

对于各个所述私有特征提取器,根据所述私有特征提取器关联的各个第一文本样本的第二任务判别结果和所述各个第一文本样本的任务标签,计算第三损失函数值;

判断所述第一损失函数值是否大于第一预设阈值,各个所述第二损失函数值是否小于第二预设阈值,且各个所述第三损失函数值是否小于第三预设阈值。

3.根据权利要求1所述的方法,其特征在于,所述基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,调整所述文本分类模型的参数,包括:

基于各个所述文本样本的第一任务判别结果、各个所述文本样本的任务标签、各个所述文本样本的分类结果和各个所述文本样本的分类标签,调整所述公有特征提取器的参数;

基于各个所述文本样本的第一任务判别结果、各个所述文本样本的第二任务判别结果和各个所述文本样本的任务标签,调整所述任务判别器的参数;

对于各个私有特征提取器,基于所述私有特征提取器关联的各个第一文本样本的第二任务判别结果、所述各个第一文本样本的任务标签、所述各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,调整所述私有特征提取器的参数;

对于各个分类器,基于所述分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,调整所述分类器的参数。

4.根据权利要求3所述的方法,其特征在于,所述基于各个所述文本样本的第一任务判别结果、各个所述文本样本的任务标签、各个所述文本样本的分类结果和各个所述文本样本的分类标签,调整所述公有特征提取器的参数,包括:

基于各个所述文本样本的第一任务判别结果和各个所述文本样本的任务标签,利用第一损失函数和梯度上升法,计算所述公有特征提取器的参数关于所述第一损失函数的第一梯度;

对于各个分类器,根据所述分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算所述公有特征提取器的参数关于所述第二损失函数的第二梯度;

基于所述第一梯度以及各个所述第二梯度,调整所述公有特征提取器的参数。

5.根据权利要求3所述的方法,其特征在于,所述基于各个所述文本样本的第一任务判别结果、各个所述文本样本的第二任务判别结果和各个所述文本样本的任务标签,调整所述任务判别器的参数,包括:

基于各个所述文本样本的第一任务判别结果和各个所述文本样本的任务标签,利用第一损失函数和梯度下降法,计算所述任务判别器的参数关于所述第一损失函数的第三梯度;

对于各个私有特征提取器,根据所述私有特征提取器关联的各个第一文本样本的第二任务判别结果和所述各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算所述任务判别器的参数关于所述第三损失函数的第四梯度;

基于所述第三梯度和各个所述第四梯度,调整所述任务判别器的参数。

6.根据权利要求3所述的方法,其特征在于,所述对于各个私有特征提取器,基于所述私有特征提取器关联的各个第一文本样本的第二任务判别结果、所述各个第一文本样本的任务标签、所述各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,调整所述私有特征提取器的参数,包括:

对于各个私有特征提取器,执行以下步骤:

根据所述私有特征提取器关联的各个第一文本样本的第二任务判别结果和所述各个第一文本样本的任务标签,利用第三损失函数和梯度下降法,计算所述私有特征提取器的参数关于所述第三损失函数的第五梯度;

根据所述各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,利用第二损失函数和梯度下降法,计算所述私有特征提取器的参数关于所述第二损失函数的第六梯度;

基于所述第五梯度和所述第六梯度,调整所述私有特征提取器的参数。

7.根据权利要求3所述的方法,其特征在于,所述对于各个分类器,基于所述分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和所述各个第一文本样本的分类标签,调整所述分类器的参数,包括:

对于各个分类器,执行以下步骤:

根据所述分类器对应的私有特征提取器关联的各个第一文本样本的分类结果和所述各个第一文本样本的任务标签,利用第二损失函数和梯度下降法,计算所述分类器的参数关于所述第二损失函数的第七梯度;

基于所述第七梯度,调整所述分类器的参数。

8.根据权利要求1所述的方法,其特征在于,所述公有特征提取器和所述私有特征提取器为以下深度学习网络中的任意一种:

卷积神经网络、长短期记忆网络以及预先训练的变换的双向编码器表示bert模型。

9.根据权利要求1所述的方法,其特征在于,所述基于所述文本样本的第一特征和所述文本样本的第二特征,利用与所述文本样本关联的私有特征提取器对应的分类器,得到所述文本样本的分类结果,包括:

将所述文本样本的第一特征和所述文本样本的第二特征进行综合处理,得到所述文本样本的综合特征;

将所述文本样本的综合特征输入与所述文本样本关联的私有特征提取器对应的分类器,得到所述文本样本的分类结果。

10.根据权利要求9所述的方法,其特征在于,所述综合处理包括拼接处理、求和处理或均值处理。

11.一种文本分类方法,应用于由权利要求1-10任意一项所述的文本分类模型的训练方法训练得到的训练后的文本分类模型,其特征在于,所述方法包括:

获取待分类文本;

将所述待分类文本输入所述训练后的文本分类模型中的公有特征提取器,得到所述待分类文本的第一特征;

将所述待分类文本输入所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器,得到所述待分类文本的第二特征;

基于所述待分类文本的第一特征和所述待分类文本的第二特征,利用所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器对应的分类器,得到所述待分类文本的分类结果。

12.根据权利要求11所述的方法,其特征在于,所述基于所述待分类文本的第一特征和所述待分类文本的第二特征,利用所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器对应的分类器,得到所述待分类文本的分类结果,包括:

将所述待分类文本的第一特征和所述待分类文本的第二特征进行综合处理,得到所述待分类文本的综合特征;

将所述待分类文本的综合特征输入所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器对应的分类器,得到所述待分类文本的分类结果。

13.一种文本分类模型的训练装置,其特征在于,所述文本分类模型包括公有特征提取器、至少两个私有特征提取器、任务判别器以及与各个私有特征提取器对应的分类器,所述装置包括:

训练集获取模块,用于获取训练样本集;

训练模块,用于对所述训练样本集中多个文本样本中的各个所述文本样本,执行以下步骤:

将所述文本样本分别输入所述公有特征提取器和与所述文本样本关联的私有特征提取器,得到所述文本样本的第一特征和所述文本样本的第二特征;

将所述文本样本的第一特征和所述文本样本的第二特征分别输入所述任务判别器,得到所述文本样本的第一任务判别结果和第二任务判别结果,以对所述公有特征提取器和所述任务判别器进行对抗训练;

基于所述文本样本的第一特征和所述文本样本的第二特征,利用与所述文本样本关联的私有特征提取器对应的分类器,得到所述文本样本的分类结果;

基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,判断是否满足预设训练停止条件;

若不满足,基于各个所述文本样本的所述第一任务判别结果、所述第二任务判别结果和所述分类结果,调整所述文本分类模型的参数,并继续利用所述训练样本集训练调整后的文本分类模型,直至满足所述预设训练停止条件,得到训练后的文本分类模型。

14.一种文本分类装置,其特征在于,应用于由权利要求1-10任意一项所述的文本分类模型的训练方法训练得到的训练后的文本分类模型,其特征在于,所述装置包括:

待分类文本获取模块,用于获取待分类文本;

第一特征确定模块,用于将所述待分类文本输入所述训练后的文本分类模型中的公有特征提取器,得到所述待分类文本的第一特征;

第二特征确定模块,用于将所述待分类文本输入所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器,得到所述待分类文本的第二特征;

分类结果确定模块,用于基于所述待分类文本的第一特征和所述待分类文本的第二特征,利用所述训练后的文本分类模型中与所述待分类文本关联的私有特征提取器对应的分类器,得到所述待分类文本的分类结果。

15.一种计算设备,其特征在于,所述计算设备包括:处理器以及存储有计算机程序指令的存储器;

所述处理器执行所述计算机程序指令时实现如权利要求1-12任意一项所述的文本分类方法。

16.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现如权利要求1-12任意一项所述的方法。

技术总结
本说明书实施例提供一种文本分类模型的训练方法和文本分类方法。在一个实施例中,一种文本分类模型的训练方法,包括:获取训练样本集;将训练样本集中文本样本分别输入公有特征提取器和与文本样本关联的私有特征提取器,得到文本样本的第一特征和第二特征;将文本样本的第一特征和第二特征分别输入任务判别器,得到文本样本的第一任务判别结果和第二任务判别结果;基于文本样本的第一特征和第二特征,利用与文本样本关联的私有特征提取器对应的分类器,得到文本样本的分类结果;判断是否满足预设训练停止条件;若不满足,调整文本分类模型的参数,并继续训练调整后的文本分类模型,直至满足预设训练停止条件,得到训练后的文本分类模型。

技术研发人员:蒋亮;温祖杰;张家兴;梁忠平
受保护的技术使用者:支付宝(杭州)信息技术有限公司
技术研发日:2020.01.07
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-57426.html

最新回复(0)