广告词违禁检测模型的训练方法、检测方法及装置与流程

专利2022-06-29  78


本申请涉及人工智能技术领域,具体而言,涉及一种广告词违禁检测模型的训练方法、检测方法及装置。



背景技术:

广告词的违禁检测是对广告词进行检查的核心步骤,广告法中列明了一系列的违禁词汇及违禁表达以供参考。

目前,广告词的违禁检测主要是对广告词进行直接的违禁词汇匹配或违禁表达的正则化匹配,通过此种方式可以有效地检测出大部分违禁广告词,但对于小部分广告词仍然存在误判或者漏判的情形,例如,广告词“这个款式不能说是最流行的,但可以说是相当流行于中老年群体的”的违禁检测,因为该广告词含有“最流行”一词,所以通过此种方式检测得到的是该广告词违禁,而实质上该广告词并不属于违禁的情况。



技术实现要素:

本申请实施例的目的在于提供一种广告词违禁检测模型的训练方法、检测方法及装置,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,得到广告词违禁检测模型,使得广告词违禁检测模型能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

第一方面,本申请实施例提供了一种广告词违禁检测模型的训练方法,包括:

获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;

将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;

基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量;

基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量;

基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量;

基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量;

基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率;

基于每个样本词序列的标签序列、所述每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

在上述实现过程中,本申请实施例的广告词违禁检测模型的训练方法,获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列,以违禁词汇的检测作为序列标注任务,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,并对神经网络模型的参数进行更新,得到广告词违禁检测模型,使得该广告词违禁检测模型在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

进一步地,所述基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量,包括:

将所述每个样本词序列的编码矩阵分别与神经网络模型的三个参数矩阵相乘,得到每个样本词序列对应的三个转化矩阵,其中,每个样本词序列中的词汇对应三个转化向量。

在上述实现过程中,该方法获得每个样本词序列中词汇对应的三个转化向量的方式较为合理、简单,降低了每个样本词序列中词汇对应的三个转化向量的计算难度,减少了计算时间。

进一步地,所述基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量,包括:

将单个样本词序列中单个词汇的第一转化向量分别与该样本词序列中所有词汇的第二转化向量相乘,并对相乘结果做softmax的运算,得到该词汇的转化几率;

将该词汇的转化几率与该样本词序列中所有词汇的第三转化向量对应相乘,并做求和运算,得到该词汇的注意力向量。

在上述实现过程中,该方法获得每个样本词序列中词汇的注意力向量的方式较好地挖掘了样本句子样本词序列中词汇间的关系,能更好地保障广告词违禁检测模型的训练效果,提高广告词违禁检测模型的训练效率。

进一步地,所述每个样本词序列中词汇的位置向量内部的数值通过以下公式计算得到:

p(pos,2i)=sin(pos/10000^(2i/h))

p(pos,2i 1)=cos(pos/10000^(2i/h))

其中,pos表示词汇在样本词序列中的位置,i表示在向量p中的维度下标,h表示向量p的长度;

当词汇的位置向量内部的数值在偶数维度时,应用正弦函数进行运算;当词汇的位置向量内部的数值在奇数维度时,应用余弦函数进行运算。

在上述实现过程中,该方法计算每个样本词序列中词汇的位置向量内部的数值的方式综合了词汇在其样本句子中的绝对位置信息以及词汇间的相对位置信息,以较为准确地计算每个样本词序列中词汇的位置向量。

进一步地,所述基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量,包括:

将所述每个样本词序列中词汇的注意力向量与所述每个样本词序列中词汇的位置向量对应相加,得到每个样本词序列中词汇的目标向量。

在上述实现过程中,该方法获得每个样本词序列中词汇的目标向量的方式较为合理、简单,降低了计算难度,并减少了计算时间。

进一步地,所述基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率,包括:

基于所述每个样本词序列中词汇的目标向量,得到每个样本词序列的目标矩阵;

将所述每个样本词序列的目标矩阵与神经网络模型的参数向量相乘,并通过sigmoid函数处理,得到每个样本词序列中的词汇属于违禁词汇的几率。

在上述实现过程中,该方法计算每个样本词序列中的词汇属于违禁词汇的几率的方式较为合理及科学,便于每个样本词序列中的词汇属于违禁词汇的几率的计算。

第二方面,本申请实施例提供了一种广告词违禁检测模型的训练装置,包括:

样本获取模块,用于获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;

编码换算模块,用于将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;

第一计算模块,用于基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量;

第二计算模块,用于基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量;

第三计算模块,用于基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量;

第四计算模块,用于基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量;

第五计算模块,用于基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率;

参数更新模块,用于基于每个样本词序列的标签序列、所述每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

在上述实现过程中,本申请实施例的广告词违禁检测模型的训练装置,获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列,以违禁词汇的检测作为序列标注任务,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,并对神经网络模型的参数进行更新,得到广告词违禁检测模型,使得该广告词违禁检测模型在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

第三方面,本申请实施例提供了一种广告词违禁检测方法,包括:

获取待检测广告句子;

对所述待检测广告句子进行分词,得到多个构成所述待检测广告句子的检测词汇;

输入所述检测词汇至广告词违禁检测模型,得到对应所述检测词汇的检测标签;

根据所述检测词汇的检测标签,得到所述待检测广告句子是否违禁的检测结果;

其中,所述广告词违禁检测模型基于上述的广告词违禁检测模型的训练方法训练得到。

在上述实现过程中,本申请实施例的广告词违禁检测方法,通过将对待检测广告句子进行分词得到的多个检测词汇,输入至广告词违禁检测模型,得到对应检测词汇的检测标签,根据检测词汇的检测标签,得到待检测广告句子是否违禁的检测结果,该广告词违禁检测模型是基于上述的广告词违禁检测模型的训练方法训练得到,其在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,使得本申请实施例的广告词违禁检测方法能更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

第四方面,本申请实施例提供了一种广告词违禁检测装置,包括:

获取模块,用于获取待检测广告句子;

分词模块,用于对所述待检测广告句子进行分词,得到多个构成所述待检测广告句子的检测词汇;

检测模块,用于输入所述检测词汇至广告词违禁检测模型,得到对应所述检测词汇的检测标签;

分析模块,用于根据所述检测词汇的检测标签,得到所述待检测广告句子是否违禁的检测结果;

其中,所述广告词违禁检测模型基于上述的广告词违禁检测模型的训练方法训练得到。

在上述实现过程中,本申请实施例的广告词违禁检测装置,通过将对待检测广告句子进行分词得到的多个检测词汇,输入至广告词违禁检测模型,得到对应检测词汇的检测标签,根据检测词汇的检测标签,得到待检测广告句子是否违禁的检测结果,该广告词违禁检测模型是基于上述的广告词违禁检测模型的训练方法训练得到,其在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,使得本申请实施例的广告词违禁检测装置能更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

第五方面,本申请实施例提供了一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的广告词违禁检测模型的训练方法,和/或上述的广告词违禁检测方法。

第六方面,本申请实施例提供了一种计算机可读存储介质,其存储有上述的电子设备中所使用的计算机程序。

附图说明

为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。

图1为本申请实施例一提供的广告词违禁检测模型的训练方法的流程示意图;

图2为本申请实施例一提供的广告词违禁检测模型的训练方法的流程设计图;

图3为本申请实施例一提供的步骤s140的流程示意图;

图4为本申请实施例一提供的步骤s170的流程示意图;

图5为本申请实施例二提供的广告词违禁检测模型的训练装置的结构示意图;

图6为本申请实施例三提供的广告词违禁检测方法的流程示意图;

图7为本申请实施例四提供的广告词违禁检测装置的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。

目前,广告词的违禁检测主要是对广告词进行直接的违禁词汇匹配或违禁表达的正则化匹配,通过此种方式可以有效地检测出大部分违禁广告词,但对于小部分广告词仍然存在误判或者漏判的情形。

针对上述现有技术中的问题,本申请提供了一种广告词违禁检测模型的训练方法、检测方法及装置,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,得到广告词违禁检测模型,使得广告词违禁检测模型能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

实施例一

参见图1,图1为本申请实施例提供的广告词违禁检测模型的训练方法的流程示意图。本申请实施例中执行下述的广告词违禁检测模型的训练方法的执行主体可以是计算机或服务器。

本申请实施例的广告词违禁检测模型的训练方法,包括如下步骤:

步骤s110,获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列。

在本实施例中,训练样本集包括多个训练样本。

训练样本构成单个样本句子的样本词序列可以表示为x=x1,x2,x3,…,xn;训练样本对应样本词序列的标签序列可以表示为y=y1,y2,y3,…,yn,其中,句长为n,x表示词汇,当y取值为1时,表示词汇“违禁”,当y取值为0时,表示词汇“正常”。

结合图2,图2为本申请实施例提供的广告词违禁检测模型的训练方法的流程设计图。以图2中的样本句子为“这款产品是全球十大品牌之一”来举例,该样本句子属于违禁广告词,其样本词序列可以表示为x=[“这款”,“产品”,“是”,“全球”,“十大”,“品牌”,“之一”],对应于该样本词序列的标签序列可以表示为y=[0,0,0,1,1,1,1]。

步骤s120,将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵。

在本实施例中,在将每个样本词序列中的词汇表示为独热编码时,可以统计训练样本集中所有出现过的词汇,建立一个词典,为每一个词汇分配一个id,根据id将每个样本词序列中的词汇表示为独热编码。

举例来说,假设词典为{w0:0,w1:1,w2:2,w3:3},那么词汇w1对应的独热编码为[1,0,0,0],词汇w2对应的独热编码为[0,1,0,0],以此类推,其中,独热编码的维度为词典的长度,针对某一词汇,其id对应的下标位置处为1,其余为0。

假设训练样本集中的词汇大小标记为m,每个样本词序列的编码矩阵xd的大小为n*m。

步骤s130,基于神经网络模型的参数矩阵,将每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量。

在本实施例中,神经网络模型的参数矩阵是预设的。神经网络模型的参数矩阵可以是三个参数矩阵,也可以是多组参数矩阵,每组参数矩阵包括三个参数矩阵。

每个样本词序列中词汇对应的三个转化向量,可通过每个样本词序列的编码矩阵xd与神经网络模型的参数矩阵计算得到。

步骤s140,基于每个样本词序列中词汇对应的三个转化向量,对每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量。

在本实施例中,对每个样本词序列中的词汇进行自注意力机制处理,挖掘了样本词序列中词汇间的关系。

在对每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量时,以单个样本词序列中单个词汇的注意力向量为例,单个样本词序列中单个词汇的注意力向量可通过该词汇对应的三个转化向量与该样本词序列中其他词汇对应的三个转化向量进行计算。

步骤s150,基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量。

在本实施例中,可对每个样本词序列中词汇的位置信息进行编码,根据每个样本词序列中词汇的位置信息的编码,得到每个样本词序列中词汇的位置向量。

步骤s160,基于每个样本词序列中词汇的注意力向量及每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量。

在本实施例中,以单个样本词序列中单个词汇的目标向量为例,单个样本词序列中单个词汇的目标向量可通过该词汇的注意力向量及该词汇的位置向量计算得到。

步骤s170,基于每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率。

在本实施例中,神经网络模型的参数向量是预设的。

在计算每个样本词序列中的词汇属于违禁词汇的几率时,以单个样本词序列中单个词汇属于违禁词汇的几率为例,单个样本词序列中单个词汇属于违禁词汇的几率可通过单个样本词序列中单个词汇的目标向量与神经网络模型的参数向量去计算。

步骤s180,基于每个样本词序列的标签序列、每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

在本实施例中,神经网络模型的损失函数是预设的。

可选地,神经网络模型的损失函数可以为floss=-∑[ylogp (1-y)log(1-p)],其中,y为样本词序列中的词汇的标签,p为样本词序列中的词汇的属于违禁词汇的几率。

神经网络模型的参数可以是上述神经网络模型的参数矩阵的参数和神经网络模型的参数向量的参数。

可选地,可通过梯度下降法对神经网络模型的参数进行更新,以训练出广告词违禁检测模型的参数。

示意性地,本申请实施例的广告词违禁检测模型的训练方法,可参见图2所示的流程设计图,在图2中,以样本句子“这款产品是全球十大品牌之一”作为示例,p1、p2、p3、…p7表示样本句子“这款产品是全球十大品牌之一”中各词汇属于违禁词汇的几率。

本申请实施例的广告词违禁检测模型的训练方法,获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列,以违禁词汇的检测作为序列标注任务,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,并对神经网络模型的参数进行更新,得到广告词违禁检测模型,使得该广告词违禁检测模型在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

神经网络模型的训练通常需要耗费较多时间,为了减少神经网络模型训练所需耗费的时间,可减少神经网络模型训练过程中的计算时间,为此,本申请实施例提供一种可能的实施方式,本申请实施例的广告词违禁检测模型的训练方法,步骤s130,基于神经网络模型的参数矩阵,将每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量,包括:

将每个样本词序列的编码矩阵分别与神经网络模型的三个参数矩阵相乘,得到每个样本词序列对应的三个转化矩阵,其中,每个样本词序列中的词汇对应三个转化向量。

在此种实施方式下,神经网络模型的三个参数矩阵可分别用wq、wk、及wv表示,神经网络模型的三个参数矩阵的大小均为m*h;每个样本词序列对应的三个转化矩阵可分别用xq、xk、及xv表示,那么,每个样本词序列对应的三个转化矩阵即是xq=xdwq,xk=xdwk,xv=xdwv,每个样本词序列对应的三个转化矩阵的大小均为n*h。

在上述过程中,该方法获得每个样本词序列中词汇对应的三个转化向量的方式较为合理、简单,降低了每个样本词序列中词汇对应的三个转化向量的计算难度,减少了计算时间。

需要说明的是,在本实施例中,每个样本词序列对应的三个转化矩阵还可以通过将每个样本词序列的编码矩阵分别与神经网络模型的多组参数矩阵(每组参数矩阵有三个参数矩阵)相乘,并进行加权平均的方式计算得到。

在神经网络模型的训练中,为了更好地保障广告词违禁检测模型的训练效果,本申请实施例提供一种可能的实施方式,可参见图3,图3为本申请实施例提供的步骤s140的流程示意图,本申请实施例的广告词违禁检测模型的训练方法,步骤s140,基于每个样本词序列中词汇对应的三个转化向量,对每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量,包括:

步骤s141,将单个样本词序列中单个词汇的第一转化向量分别与该样本词序列中所有词汇的第二转化向量相乘,并对相乘结果做softmax的运算,得到该词汇的转化几率;

步骤s142,将该词汇的转化几率与该样本词序列中所有词汇的第三转化向量对应相乘,并做求和运算,得到该词汇的注意力向量。

上述的步骤为单个样本词序列中单个词汇的注意力向量的计算方式,每个样本词序列中词汇的注意力向量的计算方式以单个样本词序列中单个词汇的注意力向量的计算方式为基础进行计算。

在此种实施方式下,假设每个样本词序列中词汇对应的三个转化向量分别为q、k、v,每个样本词序列中词汇对应的三个转化向量的长度均为h,以x中的词汇x1为例,x1对应的三个转化向量表示为q1、k1、v1,x中的其他词汇同理,则x1的转化向量q1与分别与x中的所有词汇的转化向量k相乘,并对相乘结果做softmax的运算的表示方式如下:

softmax([q1k1,q1k2,...,q1kn])=[a1,a2,...,an]

[a1,a2,...,an]即x中的词汇x1的转化几率,由于转化向量之间越相似,其相乘的值越大,那么ak越大,说明x1与xk之间的关联越大。

将x中的词汇x1的转化几率与x中的所有词汇的转化向量v相乘,并做求和运算,得到x中的词汇x1的注意力向量wx1,即wx1为长度为h的向量,对于wx1而言,越是与x1关联大的词汇,占的比重越大。

同理,对于每个样本词序列中词汇的注意力向量的计算方式以单个样本词序列中单个词汇的注意力向量wxk,可参照上述内容。

在上述过程中,该方法获得每个样本词序列中词汇的注意力向量的方式较好地挖掘了样本句子样本词序列中词汇间的关系,能更好地保障广告词违禁检测模型的训练效果,提高广告词违禁检测模型的训练效率。

在本实施例中,样本词序列中词汇的位置信息对于广告词违禁检测模型的训练是较为重要的,为了更好地利用样本词序列中词汇的位置信息去计算样本词序列中词汇的位置向量,本申请实施例提供一种可能的实施方式,本申请实施例的广告词违禁检测模型的训练方法,步骤s150,基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量时,可对每个样本词序列中词汇的位置信息进行编码,将每个样本词序列中词汇的位置向量表示为长度为h的向量,通过以下公式计算得到每个样本词序列中词汇的位置向量内部的数值:

p(pos,2i)=sin(pos/10000^(2i/h))

p(pos,2i 1)=cos(pos/10000^(2i/h))

其中,pos表示词汇在样本词序列中的位置,i表示在向量p中的维度下标,h表示向量p的长度;

当词汇的位置向量内部的数值在偶数维度时,应用正弦函数进行运算;当词汇的位置向量内部的数值在奇数维度时,应用余弦函数进行运算。

在此种实施方式下,以pxk表示样本词序列中词汇的位置向量。

在上述过程中,该方法计算每个样本词序列中词汇的位置向量内部的数值的方式综合了词汇在其样本句子中的绝对位置信息以及词汇间的相对位置信息,以较为准确地计算每个样本词序列中词汇的位置向量。

结合上述内容,在本实施例中,本申请实施例的广告词违禁检测模型的训练方法,步骤s160,基于每个样本词序列中词汇的注意力向量及每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量,可通过将每个样本词序列中词汇的注意力向量与每个样本词序列中词汇的位置向量对应相加,得到每个样本词序列中词汇的目标向量。

在此种实施方式下,以exk表示样本词序列中词汇的目标向量,样本词序列中词汇的目标向量的长度为h,也即,样本词序列中词汇的目标向量exk=wxk pxk,样本词序列中词汇的目标向量结合了样本词序列中词汇的联系及位置关系,能使得神经网络模型的语义抓取能力更强。

在上述过程中,该方法获得每个样本词序列中词汇的目标向量的方式较为合理、简单,降低了计算难度,并减少了计算时间。

参见图4,图4为本申请实施例提供的步骤s170的流程示意图。

作为一种可选的实施方式,本申请实施例的广告词违禁检测模型的训练方法,步骤s170,基于每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率,包括:

步骤s171,基于每个样本词序列中词汇的目标向量,得到每个样本词序列的目标矩阵;

步骤s172,将每个样本词序列的目标矩阵与神经网络模型的参数向量相乘,并通过sigmoid函数处理,得到每个样本词序列中的词汇属于违禁词汇的几率。

在此种实施方式下,为了更清楚地说明上述步骤,以上述内容为基础,并以单个样本词序列为例,样本词序列中词汇的目标向量为exk,那么,该样本词序列的目标矩阵为e,样本词序列的目标矩阵的大小为n*h。

该样本词序列的目标矩阵与神经网络模型的参数向量相乘,并通过sigmoid函数处理,得到该样本词序列中的词汇属于违禁词汇的几率,可表示为:

p=sigmoid(el)=[p1,p2,...,pn]

其中,l表示神经网络模型的参数向量,p1,p2,...,pn表示该样本词序列中的词汇属于违禁词汇的几率。

在上述过程中,该方法计算每个样本词序列中的词汇属于违禁词汇的几率的方式较为合理及科学,便于每个样本词序列中的词汇属于违禁词汇的几率的计算。

实施例二

为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种广告词违禁检测模型的训练装置。

参见图5,图5为本申请实施例提供的广告词违禁检测模型的训练装置的结构示意图。

本申请实施例的广告词违禁检测模型的训练装置,包括:

样本获取模块210,用于获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;

编码换算模块220,用于将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;

第一计算模块230,用于基于神经网络模型的参数矩阵,将每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量;

第二计算模块240,用于基于每个样本词序列中词汇对应的三个转化向量,对每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量;

第三计算模块250,用于基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量;

第四计算模块260,用于基于每个样本词序列中词汇的注意力向量及每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量;

第五计算模块270,用于基于每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率;

参数更新模块280,用于基于每个样本词序列的标签序列、每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

本申请实施例的广告词违禁检测模型的训练装置,获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列,以违禁词汇的检测作为序列标注任务,通过自注意力机制,挖掘广告词各个词汇间的关系,对广告词进行深层次的语义分析,以训练神经网络模型,并对神经网络模型的参数进行更新,得到广告词违禁检测模型,使得该广告词违禁检测模型在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

作为一种可选的实施方式,第一计算模块230,可具体用于:

将每个样本词序列的编码矩阵分别与神经网络模型的三个参数矩阵相乘,得到每个样本词序列对应的三个转化矩阵,其中,每个样本词序列中的词汇对应三个转化向量。

作为一种可选的实施方式,第二计算模块240,可具体用于:

将单个样本词序列中单个词汇的第一转化向量分别与该样本词序列中所有词汇的第二转化向量相乘,并对相乘结果做softmax的运算,得到该词汇的转化几率;

将该词汇的转化几率与该样本词序列中所有词汇的第三转化向量对应相乘,并做求和运算,得到该词汇的注意力向量。

作为一种可选的实施方式,第三计算模块250在计算每个样本词序列中词汇的位置向量时,可通过以下公式计算得到每个样本词序列中词汇的位置向量内部的数值:

p(pos,2i)=sin(pos/10000^(2i/h))

p(pos,2i 1)=cos(pos/10000^(2i/h))

其中,pos表示词汇在样本词序列中的位置,i表示在向量p中的维度下标,h表示向量p的长度;

当词汇的位置向量内部的数值在偶数维度时,应用正弦函数进行运算;当词汇的位置向量内部的数值在奇数维度时,应用余弦函数进行运算。

作为一种可选的实施方式,第四计算模块260,可具体用于:

将每个样本词序列中词汇的注意力向量与每个样本词序列中词汇的位置向量对应相加,得到每个样本词序列中词汇的目标向量。

作为一种可选的实施方式,第五计算模块270,可具体用于:

基于每个样本词序列中词汇的目标向量,得到每个样本词序列的目标矩阵;

将每个样本词序列的目标矩阵与神经网络模型的参数向量相乘,并通过sigmoid函数处理,得到每个样本词序列中的词汇属于违禁词汇的几率。

上述的广告词违禁检测模型的训练装置可实施上述实施例一的广告词违禁检测模型的训练方法。上述实施例一中的可选项也适用于本实施例,这里不再详述。

本申请实施例的其余内容可参照上述实施例一的内容,在本实施例中,不再进行赘述。

实施例三

参见图6,图6为本申请实施例提供的广告词违禁检测方法的流程示意图。本申请实施例中执行下述的广告词违禁检测方法的执行主体可以是计算机或服务器。

可选地,广告词违禁检测方法的执行主体与上述实施例一的广告词违禁检测模型的训练方法的执行主体可以是同一计算机或同一服务器。

本申请实施例的广告词违禁检测方法,包括如下步骤:

步骤s310,获取待检测广告句子。

在本实施例中,待检测广告句子也即待检测广告词。举例来说,待检测广告句子可以是“这款产品是全球十大品牌之一”、“这款产品是xx县的唯一自主品牌”等等。

步骤s320,对待检测广告句子进行分词,得到多个构成待检测广告句子的检测词汇。

在本实施例中,对待检测广告句子进行分词,即将待检测广告句子划分为多个检测词汇。以待检测广告句子“这款产品是全球十大品牌之一”为例,其分词后得到的检测词汇包括“这款”、“产品”、“是”、“全球”、“十大”、“品牌”、“之一”。

步骤s330,输入上述检测词汇至广告词违禁检测模型,得到对应上述检测词汇的检测标签。

在本实施例中,广告词违禁检测模型基于上述实施例一的广告词违禁检测模型的训练方法训练得到。

本申请实施例中的广告词违禁检测模型的训练方法可参照上述实施例一的内容,在本实施例中,不再进行赘述。

检测词汇的检测标签用于表示检测词汇是否属于违禁词汇。

步骤s340,根据上述检测词汇的检测标签,得到待检测广告句子是否违禁的检测结果。

在本实施例中,检测词汇“这款”、“产品”、“是”、“全球”、“十大”、“品牌”、“之一”,输入至广告词违禁检测模型,可确定违禁检测词汇是“全球”、“十大”、“品牌”、“之一”,进而,可确定待检测广告句子“这款产品是全球十大品牌之一”违禁。

以下是本申请实施例的广告词违禁检测方法与现有的匹配方法的检测对比表:

经过测验,本申请实施例的广告词违禁检测方法,能有效地减少广告词违禁检测中出现的误判或者漏判的情形。

本申请实施例的广告词违禁检测方法,通过将对待检测广告句子进行分词得到的多个检测词汇,输入至广告词违禁检测模型,得到对应检测词汇的检测标签,根据检测词汇的检测标签,得到待检测广告句子是否违禁的检测结果,该广告词违禁检测模型是基于上述的广告词违禁检测模型的训练方法训练得到,其在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,使得本申请实施例的广告词违禁检测方法能更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

实施例四

为了执行上述实施例三对应的方法,以实现相应的功能和技术效果,下面提供一种广告词违禁检测装置。

参见图7,图7为本申请实施例提供的广告词违禁检测装置的结构示意图。

本申请实施例的广告词违禁检测装置,包括:

获取模块410,用于获取待检测广告句子;

分词模块420,用于对所述待检测广告句子进行分词,得到多个构成所述待检测广告句子的检测词汇;

检测模块430,用于输入所述检测词汇至广告词违禁检测模型,得到对应所述检测词汇的检测标签;

分析模块440,用于根据所述检测词汇的检测标签,得到所述待检测广告句子是否违禁的检测结果;

其中,所述广告词违禁检测模型基于上述的广告词违禁检测模型的训练方法训练得到。

本申请实施例的广告词违禁检测装置,通过将对待检测广告句子进行分词得到的多个检测词汇,输入至广告词违禁检测模型,得到对应检测词汇的检测标签,根据检测词汇的检测标签,得到待检测广告句子是否违禁的检测结果,该广告词违禁检测模型是基于上述的广告词违禁检测模型的训练方法训练得到,其在用于广告词的违禁检测时能挖掘广告词深层次的语义信息,使得本申请实施例的广告词违禁检测装置能更好地对广告词进行违禁检测,减少误判或漏判的情形,提高广告词违禁检测的准确率。

本申请实施例中的广告词违禁检测模型的训练方法可参照上述实施例一的内容,在本实施例中,不再进行赘述。

上述的广告词违禁检测装置可实施上述实施例三的广告词违禁检测方法。上述实施例三中的可选项也适用于本实施例,这里不再详述。

本申请实施例的其余内容可参照上述实施例三的内容,在本实施例中,不再进行赘述。

实施例五

本申请实施例提供一种电子设备,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行上述的广告词违禁检测模型的训练方法,和/或上述的广告词违禁检测方法。

可选地,上述电子设备可以是计算机或服务器。

另外,本申请实施例还提供一种计算机可读存储介质,其存储有上述的电子设备中所使用的计算机程序。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。


技术特征:

1.一种广告词违禁检测模型的训练方法,其特征在于,包括:

获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;

将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;

基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量;

基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量;

基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量;

基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量;

基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率;

基于每个样本词序列的标签序列、所述每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

2.根据权利要求1所述的广告词违禁检测模型的训练方法,其特征在于,所述基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量,包括:

将所述每个样本词序列的编码矩阵分别与神经网络模型的三个参数矩阵相乘,得到每个样本词序列对应的三个转化矩阵,其中,每个样本词序列中的词汇对应三个转化向量。

3.根据权利要求1所述的广告词违禁检测模型的训练方法,其特征在于,所述基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量,包括:

将单个样本词序列中单个词汇的第一转化向量分别与该样本词序列中所有词汇的第二转化向量相乘,并对相乘结果做softmax的运算,得到该词汇的转化几率;

将该词汇的转化几率与该样本词序列中所有词汇的第三转化向量对应相乘,并做求和运算,得到该词汇的注意力向量。

4.根据权利要求1所述的广告词违禁检测模型的训练方法,其特征在于,所述每个样本词序列中词汇的位置向量内部的数值通过以下公式计算得到:

p(pos,2i)=sin(pos/10000^(2i/h))

p(pos,2i 1)=cos(pos/10000^(2i/h))

其中,pos表示词汇在样本词序列中的位置,i表示在向量p中的维度下标,h表示向量p的长度;

当词汇的位置向量内部的数值在偶数维度时,应用正弦函数进行运算;当词汇的位置向量内部的数值在奇数维度时,应用余弦函数进行运算。

5.根据权利要求1所述的广告词违禁检测模型的训练方法,其特征在于,所述基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量,包括:

将所述每个样本词序列中词汇的注意力向量与所述每个样本词序列中词汇的位置向量对应相加,得到每个样本词序列中词汇的目标向量。

6.根据权利要求1所述的广告词违禁检测模型的训练方法,其特征在于,所述基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率,包括:

基于所述每个样本词序列中词汇的目标向量,得到每个样本词序列的目标矩阵;

将所述每个样本词序列的目标矩阵与神经网络模型的参数向量相乘,并通过sigmoid函数处理,得到每个样本词序列中的词汇属于违禁词汇的几率。

7.一种广告词违禁检测模型的训练装置,其特征在于,包括:

样本获取模块,用于获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;

编码换算模块,用于将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;

第一计算模块,用于基于神经网络模型的参数矩阵,将所述每个样本词序列的编码矩阵转换为每个样本词序列中词汇对应的三个转化向量;

第二计算模块,用于基于所述每个样本词序列中词汇对应的三个转化向量,对所述每个样本词序列中的词汇进行自注意力机制处理,得到每个样本词序列中词汇的注意力向量;

第三计算模块,用于基于每个样本词序列中词汇的位置信息,得到每个样本词序列中词汇的位置向量;

第四计算模块,用于基于所述每个样本词序列中词汇的注意力向量及所述每个样本词序列中词汇的位置向量,得到每个样本词序列中词汇的目标向量;

第五计算模块,用于基于所述每个样本词序列中词汇的目标向量及神经网络模型的参数向量,得到每个样本词序列中的词汇属于违禁词汇的几率;

参数更新模块,用于基于每个样本词序列的标签序列、所述每个样本词序列中的词汇属于违禁词汇的几率及神经网络模型的损失函数,对神经网络模型的参数进行更新,得到广告词违禁检测模型。

8.一种广告词违禁检测方法,其特征在于,包括:

获取待检测广告句子;

对所述待检测广告句子进行分词,得到多个构成所述待检测广告句子的检测词汇;

输入所述检测词汇至广告词违禁检测模型,得到对应所述检测词汇的检测标签;

根据所述检测词汇的检测标签,得到所述待检测广告句子是否违禁的检测结果;

其中,所述广告词违禁检测模型基于权利要求1至6中任一项所述的广告词违禁检测模型的训练方法训练得到。

9.一种广告词违禁检测装置,其特征在于,包括:

获取模块,用于获取待检测广告句子;

分词模块,用于对所述待检测广告句子进行分词,得到多个构成所述待检测广告句子的检测词汇;

检测模块,用于输入所述检测词汇至广告词违禁检测模型,得到对应所述检测词汇的检测标签;

分析模块,用于根据所述检测词汇的检测标签,得到所述待检测广告句子是否违禁的检测结果;

其中,所述广告词违禁检测模型基于权利要求1至6中任一项所述的广告词违禁检测模型的训练方法训练得到。

10.一种电子设备,其特征在于,包括存储器及处理器,所述存储器用于存储计算机程序,所述处理器运行所述计算机程序以使所述电子设备执行根据权利要求1至6中任一项所述的广告词违禁检测模型的训练方法,和/或根据权利要求8所述的广告词违禁检测方法。

11.一种计算机可读存储介质,其特征在于,其存储有权利要求10所述的电子设备中所使用的计算机程序。

技术总结
本申请提供一种广告词违禁检测模型的训练方法、检测方法及装置,广告词违禁检测模型的训练方法,包括:获取训练样本集,每个训练样本包括构成单个样本句子的样本词序列及对应每个样本词序列的标签序列;将每个样本词序列中的词汇表示为独热编码,并获得每个样本词序列的编码矩阵;基于每个样本词序列的编码矩阵及神经网络模型,得到每个样本词序列中的词汇属于违禁词汇的几率;对神经网络模型的参数进行更新,得到广告词违禁检测模型。本申请通过自注意力机制,对广告词进行深层次的语义分析,使得训练得到的广告词违禁检测模型能挖掘广告词深层次的语义信息,从而更好地对广告词进行违禁检测,减少误判或漏判的情形。

技术研发人员:胡盼盼;周玥;赵茜;佟博;高玮
受保护的技术使用者:广东博智林机器人有限公司
技术研发日:2020.01.08
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54802.html

最新回复(0)