分类方法、介质、装置和计算设备与流程

专利2022-06-29  104


本申请的实施方式涉及人工智能技术领域,更具体地,本申请的实施方式涉及分类方法、介质、装置和计算设备。



背景技术:

本部分旨在为权利要求书中陈述的本申请的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

分类是深度学习中常见的问题,如图像分类、文本分类、视频分类等。对于一个n分类任务(n是类别数量),现有神经网络中均是基于多元分类,即构建一个n分类器,输入待判别样本,经过n分类器后,输出所属类别。这种多分类方法需要同时在n个类别间进行区分,不仅需要关注特定类和其他类的间隔,还需要去关注其他类别是一个怎样的形式,导致分类模型的学习难度大;并且,这种分类方法缺乏对每一类进行特定的映射,导致分类模型的性能较低。



技术实现要素:

本申请期望提供一种分类方法和装置,以降低分类模型的学习难度,并提高分类模型的性能。

在本申请实施方式的第一方面中,提供了一种分类方法,包括:

接收多媒体数据;

获取多媒体数据的多媒体特征;

将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;

基于多个分类概率值,确定多媒体数据的类别。

在本申请的一个实施例中,获取多媒体数据的多媒体特征,包括:

提取多媒体数据的第一特征向量;

对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;

将第二特征向量作为多媒体数据的多媒体特征。

在本申请的一个实施例中,还包括:对多个二元分类器进行训练,训练的方法包括:

接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器;

根据每个二元分类器输出的类别概率值以及预先设置的损失函数分别对每个二元分类器模型参数进行调整,以实现对多个二元分类器的训练。

在本申请的一个实施例中,预先设置的损失函数为:

;其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

k表示多个样本数据组训练的二元分类器的序列号;

l表示多个样本数据组训练的二元分类器的个数;

i表示一个样本数据组对应的二元分类器组中,二元分类器的序列号;

c等于2;

yijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据相对于该二元分类器组中组内序列号为i的二元分类器所对应的类别的标签;

pijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据被预测属于该二元分类器组中组内序列号为i的二元分类器所对应的类别的概率;

其中,组内序列号为二元分类器在所属的二元分类器组内部的序列号,组内序列号的取值为1或2。

在本申请的一个实施例中,pijk采用下式表示:

其中,

e表示自然常数;

sijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,将序列号为j的样本数据的多媒体特征输入该二元分类器组中组内序列号为i的二元分类器时,该二元分类器输出的分类概率值。

在本申请的一个实施例中,预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

i表示多个样本数据组训练的二元分类器的序列号;

c表示多个样本数据组训练的二元分类器的个数;

yij表示序列号为j的样本数据相对于序列号为i的二元分类器所对应的类别的标签;

pij表示序列号为j的样本数据被训练的二元分类器预测属于序列号为i的二元分类器所对应的类别的概率。

在本申请的一个实施例中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率。

在本申请的一个实施例中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率;

s[0]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第二分类概率值;其中,第二分类概率值表示输入的样本数据属于不二元分类器对应类别的概率。

在本申请实施方式的第二方面中,提供了一种分类装置,包括:

接收模块,用于接收多媒体数据;

特征提取模块,用于获取多媒体数据的多媒体特征;

输入模块,用于将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;

确定模块,用于基于多个分类概率值,确定多媒体数据的类别。

在本发明的一个实施例中,特征提取模块包括:

提取子模块,用于提取多媒体数据的第一特征向量;

降维子模块,用于对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;将第二特征向量作为多媒体数据的多媒体特征。

在本发明的一个实施例中,上述装置还包括:

训练模块,用于接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器;根据每个二元分类器输出的类别概率值以及预先设置的损失函数分别对每个二元分类器模型参数进行调整,以实现对多个二元分类器的训练。

在本发明的一个实施例中,预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

k表示多个样本数据组训练的二元分类器的序列号;

l表示多个样本数据组训练的二元分类器的个数;

i表示一个样本数据组对应的二元分类器组中,二元分类器的序列号;

c等于2;

yijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据相对于该二元分类器组中组内序列号为i的二元分类器所对应的类别的标签;

pijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据被预测属于该二元分类器组中组内序列号为i的二元分类器所对应的类别的概率;

其中,组内序列号为二元分类器在所属的二元分类器组内部的序列号,组内序列号的取值为1或2。

在本发明的一个实施例中,pijk采用下式表示:

其中,

e表示自然常数;

sijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,将序列号为j的样本数据的多媒体特征输入该二元分类器组中组内序列号为i的二元分类器时,该二元分类器输出的分类概率值。

在本发明的一个实施例中,预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

i表示多个样本数据组训练的二元分类器的序列号;

c表示多个样本数据组训练的二元分类器的个数;

yij表示序列号为j的样本数据相对于序列号为i的二元分类器所对应的类别的标签;

pij表示序列号为j的样本数据被训练的二元分类器预测属于序列号为i的二元分类器所对应的类别的概率。

在本发明的一个实施例中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率。

在本发明的一个实施例中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率;

s[0]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第二分类概率值;其中,第二分类概率值表示输入的样本数据属于不二元分类器对应类别的概率。

在本发明实施方式的第三方面中,提供了一种分类模型,包括:接收模块、特征提取模块、输入模块及多个二元分类器及确定模块,各个二元分类器分别对应不同的类别;其中,

接收模块,用于接收多媒体数据,对多媒体数据进行预处理,并输出预处理之后的多媒体数据;

特征提取模块,用于接收预处理之后的多媒体数据,从预处理之后的多媒体数据中提取多媒体数据的多媒体特征;

输入模块,用于将多媒体特征分别输入各个二元分类器;

各个二元分类器,分别用于接收多媒体特征,并输出分类概率值;

确定模块,用于根据各个二元分类器输出的分类概率值确定多媒体数据的类别。

在本发明的一个实施例中,接收模块用于,在多媒体数据为图像数据的情况下,将图像数据进行尺寸规范处理;或者,

在多媒体数据为视频数据的情况下,提取视频数据中的视频帧,并对提取的视频帧进行尺寸规范处理。

在本发明的一个实施例中,特征提取模块包括:

提取子模块,用于提取多媒体数据的第一特征向量;

降维子模块,用于对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;将第二特征向量作为多媒体数据的多媒体特征。

在本发明的一个实施例中,输入模块,还用于接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器。

在本申请实施方式的第四方面中,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行实现上述分类方法的步骤。

在本申请实施方式的第五方面中,提供了一种计算设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行程序时实现分类方法的步骤。

根据本申请实施方式的分类方法和装置,采用多个二元分类器实现多分类任务,每个二元分类器对应不同的类别。由于不需要同时在n个类别之间进行区分,因此仅需要关注特定类和其他类的间隔,使得分类模型的学习难度较小;并且,这种分类方法使得分类模型可以学习每一类的特定映射,能够提升分类模型的性能。

附图说明

通过参考附图阅读下文的详细描述,本申请示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本申请的若干实施方式,其中:

图1示意性地示出了根据本申请一实施方式的分类方法实现流程图;

图2示意性地示出了根据本申请一实施方式的分类方法中,步骤s12的实现流程图;

图3示意性地示出了根据本申请一实施方式的分类方法所使用的神经网络结构示意图;

图4示意性地示出了根据本申请一实施方式的分类方法中,对多个二元分类器进行训练的方法流程图;

图5示意性地示出了根据本申请一实施方式的分类方法中,采用snet网络进行标签转换的神经网络结构示意图;

图6示意性地示出了根据本申请一实施方式的分类方法中,加入了类间比较的神经网络结构示意图;

图7示意性地示出了根据本申请一实施方式的分类方法应用于图像分类时采用的图像分类网络结构示意图;

图8示意性地示出了根据本申请一实施方式的分类方法应用于视频分类时采用的视频分类网络结构示意图;

图9示意性地示出了根据本申请一实施方式的分类方法应用于视频分类时采用的视频分类网络结构中,特征提取模块的结构示意图;

图10示意性地示出了根据本申请一实施方式的用于分类方法的介质示意图;

图11示意性地示出了根据本申请一实施方式的分类装置结构示意图;

图12示意性地示出了根据本申请一实施方式的计算设备的结构示意图。

在附图中,相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本申请的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本申请,而并非以任何方式限制本申请的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道,本申请的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。

根据本申请的实施方式,提出了一种分类方法、介质、装置和计算设备,还提出一种分类模型。

在本文中,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。

下面参考本申请的若干代表性实施方式,详细阐释本申请的原理和精神。

发明概述

本申请人发现,现有的多分类方法需要同时在n个类别间进行区分,导致分类模型的学习难度大;并且,现有的多分类方法缺乏对每一类进行特定的映射,导致分类模型的性能较低。

有鉴于此,本申请提供一种分类方法和装置,采用多个二元分类器实现多分类任务,每个二元分类器对应不同的类别。由于不需要同时在n个类别之间进行区分,因此分类模型的学习难度较小;并且使得分类模型可以学习每一类的特定映射,能够提升分类模型的性能。

在介绍了本申请的基本原理之后,下面具体介绍本申请的各种非限制性实施方式。

示例性方法

下面参考图1来描述根据本申请示例性实施方式的分类方法。

图1示意性地示出了根据本申请一实施方式的分类方法实现流程图,包括:

s11:接收多媒体数据;

s12:获取多媒体数据的多媒体特征;

s13:将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;

s14:基于多个分类概率值,确定多媒体数据的类别。

通过上述过程,本申请实施例将复杂的多分类问题转化为不可再分的简单的二元分类问题,采用多个二元分类器实现多分类任务,每个二元分类器对应不同的类别。由于不需要同时在n个类别之间进行区分,因此仅需要关注特定类和其他类的间隔,使得分类模型的学习难度较小;并且,这种分类方法使得分类模型可以学习每一类的特定映射,能够提升分类模型的性能。

图2示意性地示出了根据本申请一实施方式的分类方法中,步骤s12的实现流程图,包括:

s21:提取多媒体数据的第一特征向量;

s23:对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;

s23:将第二特征向量作为多媒体数据的多媒体特征。

图3示意性地示出了根据本申请一实施方式的分类方法所使用的神经网络结构示意图,包括:

输入模块、特征提取模块、降维模块以及特征分类模块;其中,特征分类模块包括n个二元分类器。

输入模块,用于依据任务不同选用不同的输入形式;例如,在图像分类任务中输入图像,在视频分类任务中输入视频数据等。

特征提取模块,用于提取多媒体数据的特征向量。

特征提取模块的设置方式可以为:首先,依据分类任务的不同选择不同的多元分类器网络;例如,针对图像分类任务,选择二维卷积神经网络(2dcnn,2-dimensionconvolutionalneuralnetwork);针对视频分类任务,选择3dcnn。之后,将选择的多元分类器网络的最后一层(即分类层)去掉,将剩余的部分作为特征提取模块。

降维模块,用于对特征提取模块所提取的特征向量(例如上述第一特征向量)进行降维处理。例如,假定特征提取模块提取的特征向量的维度为d1,降维模块可以将该特征向量的维度降低为d2,其中d2小于d1,降维后的特征向量可以为上述第二特征向量。降维处理一方面可以降低模型复杂度,减少参数,为n个二元分类器并行训练提供可能,并行训练可以使得模型迭代更快,gpu利用资源高;另一方面是由于该特征向量用于二分类,因此较低维度的特征向量足以解决该问题。值得注意的是,降维模块可以根据需要进行取舍,具体可以参考后续实施例中对该模块的应用方法。

特征分类模块,用于对提取的特征进行分类,输出最终类别。如图3所示,特征分类模块包括n个二元分类器,分别为ova0、ova1、…、ovan,各个二元分类器的损失函数分别为loss0、loss1、…、lossn。

本申请实施例将用于特征提取的网络最后输出层替换成n个二分类器,可以带来较好的性能增益,其原因在于每个二元分类器可以针对特定类进行特定的标签映射,映射函数只需去关注特定类和其他类的间隔即可,而不需要去关注其他类别是一个怎样的形式。这样就把一个复杂的n类的分类问题划分成了n个不可再分的简单的二分类问题,从而提高算法性能。

本申请实施例还可以包括:对多个二元分类器进行训练。图4示意性地示出了根据本申请一实施方式的分类方法中,对多个二元分类器进行训练的方法流程图,包括:

s41:接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器;

s42:根据每个二元分类器输出的类别概率值以及预先设置的损失函数分别对每个二元分类器模型参数进行调整,以实现对多个二元分类器的训练。

由于二元分类器将除了该分类器对应类别以外的样本都作为负例,因此,如果采用通常的训练方法,会使得负例的数量远大于正例,导致类分布不均衡,从而影响网络性能。本申请实施例采用上述步骤s41解决二元分类器正负样本均衡的问题。上述步骤s41中,利用转换网络(snet网络)将输入样本数据的标签进行转换,将转换后的样本数据及其标签送入指定的二元分类器进行训练。

图5示意性地示出了根据本申请一实施方式的分类方法中,采用snet网络进行标签转换的神经网络结构示意图。如图5所示例子中,一个样本数据组中包含2m个样本数据(m为正整数),其中m个样本数据的类别为ova32对应的类别(以下简称类别32),另外m个样本数据的类别为ova24对应的类别(以下简称类别24)。通过snet网络后,将各个样本数据的标签进行转换。具体地,对于类别32的样本数据,将该样本数据相对于类别32的标签转换成1,并将该样本数据相对于类别24的标签转换成0,以此来表示该样本数据属于类别32、并且不属于类别24。对于类别24的样本数据,将该样本数据相对于类别24的标签转换成1,并将该样本数据相对于类别32的标签转换成0,以此来表示该样本数据属于类别24、并且不属于类别32。之后,snet网络将该组样本数据分别发送至ova32和ova24,该组样本数据用于训练ova32和ova24。这样,每次二元分类器得到的正负样本比例均为1:1,可以解决正负样本不平衡问题,且通过标签的重新组合可以训练指定类别的分类器并更新其参数。

在一种可能的实施方式中,上述预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

k表示多个样本数据组训练的二元分类器的序列号;

l表示多个样本数据组训练的二元分类器的个数;

i表示一个样本数据组对应的二元分类器组中,二元分类器的序列号;

c等于2;

yijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据相对于该二元分类器组中组内序列号为i的二元分类器所对应的类别的标签;

pijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据被预测属于该二元分类器组中组内序列号为i的二元分类器所对应的类别的概率;

其中,组内序列号为二元分类器在所属的二元分类器组内部的序列号,组内序列号的取值为1或2。

其中,上述pijk可以采用下式表示:

其中,

e表示自然常数;

sijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,将序列号为j的样本数据的多媒体特征输入该二元分类器组中组内序列号为i的二元分类器时,该二元分类器输出的分类概率值。

上述损失函数可以记为loss_1。loss_1对每个二元分类器单独计算二分类交叉熵损失,再将l个分类器的损失函数相加作为总的损失函数进行优化。

基于二元的多类别分类算法将一个数据输入到n个二元分类器中计算对应标签的概率,由于二元分类器之间置信值的范围可能不同,单独产生的类标签可能会导致归类的不明确,以致于一个样例会被预测属于多个类别。本申请实施例可以选择n个分类器中概率最大的作为最后结果,为了使n个二元分类器输出的概率之间具有可比较性,本申请实施例可以在训练过程中对这n个二元分类器之间进行纵向比较(没有类间归一化)。

图6示意性地示出了根据本申请一实施方式的分类方法中,加入了类间比较的神经网络结构示意图。如图6所示,本申请实施例可以在n个二元分类器之后加入归一化(softmax)层,将n个二元分类器输出的概率送入softmax层进行归一化,计算交叉熵函数,从而达到对n个二元分类器进行纵向比较的效果。

在一种可能的实施方式中,上述预先设置的损失函数可以为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

i表示多个样本数据组训练的二元分类器的序列号;

c表示多个样本数据组训练的二元分类器的个数;

yij表示序列号为j的样本数据相对于序列号为i的二元分类器所对应的类别的标签;

pij表示序列号为j的样本数据被训练的二元分类器预测属于序列号为i的二元分类器所对应的类别的概率。

其中,上述损失函数中的pij可以采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率。

上述损失函数可以记为loss_2。loss_2将每个二元分类器中正样本的分数(即上述s[1]ij)送入softmax层进行归一化,再通过交叉熵函数使网络在分类器之间进行纵向比较。

本申请实施例还可以对上述loss_2作进一步的改进,在loss_2的基础上加入正负样本之间的比较。

具体地,pij还可以采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率;

s[0]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第二分类概率值;其中,第二分类概率值表示输入的样本数据属于不二元分类器对应类别的概率。

采用上述pij的损失函数可以记为loss_3。在这种情况下,每个二元分类器针对一个样本产生概率scorei,该概率是二维的,分别表示负类别的分数和正类别的分数。由loss_3中的pij的计算公式可见,最终的优化目标是使得s[1]ij和(s[1]ij-s[0]ij)均尽可能大,即正样本被判断为正样本的概率尽可能大,且正样本与负样本之间的距离尽可能的远。这种方式可以使得在反向传播的过程中,计算负样本的分数的支路的参数能够得到更新,从物理角度分析即为每个二元分类器具备分辨正负样本的能力。这样,既有纵向比较,拉开了类间的距离;也有正负样本的比较,拉开了类内之间的距离,可以很好的解决多个二元分类器分类导致最终结果归类不明确问题。

综上可见,本申请实施例提出了一种基于二元分类器的多分类算法框架,在多分类问题中引入二元分类思想,将多分类问题转换成n个不可再分的简单的二分类问题,使得每个二元分类器都可以针对特定的类进行特定的标签映射,从而提高特征的鲁棒性,提升分类器的分类性能。本申请实施例通过采用snet网络改善样本不平衡问题,并设计损失函数解决基于二元的多类别分类导致的结果归类不明确问题。本申请实施例提出的方法具有普适性,可以用于视频分类,图像分类,文本分类等分类任务,能够有效提升图像分类和视频分类的准确率,有效地推进了电商推荐、安防监控、视频内容分析等相关领域的发展。

图7示意性地示出了根据本申请一实施方式的分类方法应用于图像分类时采用的图像分类网络结构示意图。如图7所示,该图像分类网络结构中的特征提取模块可以选用2dcnn网络除去最后一层后剩余的结构;以常用的残差网络18(resnet18)网络为例进行说明,特征提取模块可以采用resnet18网络除去最后一层(即分类层)后剩余的结构。

本申请实施例可以选择模特图、单品图、细节图、尺码图、组合图、其他图共20000张图片,按3:1比例划分为训练集和测试集。

将上述图片尺寸缩放到224*224大小,送入特征提取模块提取512维的特征向量,由于特征向量的维度不大,该处可以不使用降维模块。

如图7所示,将得到的512维度的特征向量输入到本申请实施例提出的基于二元分类器的多分类网络框架中,输出最终类别。图7所示的实施例中共有6个类别,即设置6个二元分类器,包括ova0至ova5。snet网络及损失函数的设置在上述实施例中已有介绍,在此不再赘述。

图8示意性地示出了根据本申请一实施方式的分类方法应用于视频分类时采用的视频分类网络结构示意图。该图像分类网络结构中的特征提取模块可以选用3dcnn中去除最后一层后剩余的结构。

图9示意性地示出了根据本申请一实施方式的分类方法应用于视频分类时采用的视频分类网络结构中,特征提取模块的结构示意图。如图9所示,现有的一种3dcnn架构包括8个卷积层(conv1a、conv2a、conv3a、conv3b、conv4a、conv4b、conv5a、conv5b)、5个最大池化层(pool1至pool3)、两个全连接层(fc6、fc7)以及归一化层(softmax),本申请实施例可以采用去除最后的全连接层(fc7)及softmax层后剩余的结构作为特征提取模块。

本实施例可以应用于视频中的乐器识别。收集吉他、琴类、二胡、架子鼓、古筝、其他类直播视频共1200个视频,按3:1比例划分为训练集和测试集。

如图8所示,对上述每个视频采样16帧,对每帧缩放到320*240大小,将视频数据送入到特征提取模块中提取4096维特征。其中视频输入数据维度为16*320*240。

由于特征提取模块提取的特征数据的维度较大,本实施例可以采用降维模块,将4096维度的特征向量降维到512维。

之后,将得到的512维度的特征向量输入到本申请实施例提出基于二元分类器的多分类网络框架中,输出最终类别。图8所示的实施例中共有6个类别,即设置6个二元分类器,包括ova0至ova5。snet网络及损失函数的设置在上述实施例中已有介绍,在此不再赘述。

示例性介质

在介绍了本申请示例性实施方式的方法之后,接下来,参考图10对本申请示例性实施方式的介质进行说明。

在一些可能的实施方式中,本申请的各个方面还可以实现为一种计算机可读介质,其上存储有程序,当程序被处理器执行时用于实现本说明书上述“示例性方法”部分中描述的根据本申请各种示例性实施方式的分类方法中的步骤。

具体地,上述处理器执行上述程序时用于实现如下步骤:

接收多媒体数据;获取多媒体数据的多媒体特征;将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;基于多个分类概率值,确定多媒体数据的类别。

需要说明的是:上述的介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是但不限于:电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

如图10所示,描述了根据本申请的实施方式的介质100,其可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序,并可以在设备上运行。然而,本申请不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于:电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以以一种或多种程序设计语言的任意组合来编写用于执行本申请操作的程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如java、c 等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络—包括局域网(lan)或广域网(wan)—连接到用户计算设备。

示例性装置

在介绍了本申请示例性实施方式的介质之后,接下来,参考图11对本申请示例性实施方式的装置进行说明。

图11示意性地示出了根据本申请一实施方式的分类装置结构示意图,包括:

接收模块1110,用于接收多媒体数据;

特征提取模块1120,用于获取多媒体数据的多媒体特征;

输入模块1130,用于将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;

确定模块1140,用于基于多个分类概率值,确定多媒体数据的类别。

如图11所示,特征提取模块1120包括:

提取子模块1121,用于提取多媒体数据的第一特征向量;

降维子模块1122,用于对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;将第二特征向量作为多媒体数据的多媒体特征。

如图11所示,上述装置还可以包括:

训练模块1150,用于接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器;根据每个二元分类器输出的类别概率值以及预先设置的损失函数分别对每个二元分类器模型参数进行调整,以实现对多个二元分类器的训练。

在一种可能的实施方式中,预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

k表示多个样本数据组训练的二元分类器的序列号;

l表示多个样本数据组训练的二元分类器的个数;

i表示一个样本数据组对应的二元分类器组中,二元分类器的序列号;

c等于2;

yijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据相对于该二元分类器组中组内序列号为i的二元分类器所对应的类别的标签;

pijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据被预测属于该二元分类器组中组内序列号为i的二元分类器所对应的类别的概率;

其中,组内序列号为二元分类器在所属的二元分类器组内部的序列号,组内序列号的取值为1或2。

在一种可能的实施方式中,pijk采用下式表示:

其中,

e表示自然常数;

sijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,将序列号为j的样本数据的多媒体特征输入该二元分类器组中组内序列号为i的二元分类器时,该二元分类器输出的分类概率值。

在一种可能的实施方式中,预先设置的损失函数为:

其中,

j表示多个样本数据组中样本数据的序列号;

n表示多个样本数据组中样本数据的个数;

i表示多个样本数据组训练的二元分类器的序列号;

c表示多个样本数据组训练的二元分类器的个数;

yij表示序列号为j的样本数据相对于序列号为i的二元分类器所对应的类别的标签;

pij表示序列号为j的样本数据被训练的二元分类器预测属于序列号为i的二元分类器所对应的类别的概率。

在一种可能的实施方式中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率。

在一种可能的实施方式中,pij采用下式表示:

其中,

e表示自然常数;

s[1]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第一分类概率值;其中,第一分类概率值表示输入的样本数据属于二元分类器对应类别的概率;

s[0]ij表示序列号为j的样本数据的多媒体特征输入序列号为i的二元分类器时,该二元分类器输出的第二分类概率值;其中,第二分类概率值表示输入的样本数据属于不二元分类器对应类别的概率。

本申请实施例还提出一种分类模型,包括:接收模块、特征提取模块、输入模块、多个二元分类器及确定模块,各个二元分类器分别对应不同的类别;其中,

接收模块,用于接收多媒体数据,对多媒体数据进行预处理,并输出预处理之后的多媒体数据;

特征提取模块,用于接收预处理之后的多媒体数据,从预处理之后的多媒体数据中提取多媒体数据的多媒体特征;

输入模块,用于将多媒体特征分别输入各个二元分类器;

各个二元分类器,分别用于接收多媒体特征,并输出分类概率值;

确定模块,用于根据各个二元分类器输出的分类概率值确定多媒体数据的类别。

在一种可能的实施方式中,接收模块用于,在多媒体数据为图像数据的情况下,将图像数据进行尺寸规范处理;或者,

在多媒体数据为视频数据的情况下,提取视频数据中的视频帧,并对提取的视频帧进行尺寸规范处理。

在一种可能的实施方式中,特征提取模块包括:

提取子模块,用于提取多媒体数据的第一特征向量;

降维子模块,用于对第一特征向量进行降维处理,得到多媒体数据的第二特征向量;将第二特征向量作为多媒体数据的多媒体特征。

在一种可能的实施方式中,输入模块,还用于接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器。

示例性计算设备

在介绍了本申请示例性实施方式的方法、介质和装置之后,接下来,参考图12对本申请示例性实施方式的计算设备进行说明。

所属技术领域的技术人员能够理解,本申请的各个方面可以实现为系统、方法或程序产品。因此,本申请的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中,根据本申请实施方式的计算设备可以至少包括至少一个处理单元以及至少一个存储单元。其中,存储单元存储有程序代码,当程序代码被处理单元执行时,使得处理单元执行本说明书上述“示例性方法”部分中描述的根据本申请的各种示例性实施方式的分类方法中的步骤。

下面参照图12来描述根据本申请的这种实施方式的计算设备120。图12显示的计算设备120仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。

如图12所示,计算设备120以通用计算设备的形式表现。计算设备120的组件可以包括但不限于:上述至少一个处理单元1201、上述至少一个存储单元1202,连接不同系统组件(包括处理单元1201和存储单元1202)的总线1203。

总线1203包括数据总线、控制总线和地址总线。

存储单元1202可以包括易失性存储器形式的可读介质,例如随机存取存储器(ram)12021和/或高速缓存存储器12022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(rom)12023。

存储单元1202还可以包括具有一组(至少一个)程序模块12024的程序/实用工具12025,这样的程序模块12024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算设备120也可以与一个或多个外部设备1204(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口1205进行。并且,计算设备120还可以通过网络适配器1206与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图12所示,网络适配器1206通过总线1203与计算设备120的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备120使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

应当注意,尽管在上文详细描述中提及了分类装置的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本申请的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外,尽管在附图中以特定顺序描述了本申请方法的操作,但是,这并非要求或者暗示必须按照该特定顺序来执行这些操作,或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地,可以省略某些步骤,将多个步骤合并为一个步骤执行,和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本申请的精神和原理,但是应该理解,本申请并不限于所公开的具体实施方式,对各方面的划分也不意味着这些方面中的特征不能组合以进行受益,这种划分仅是为了表述的方便。本申请旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。


技术特征:

1.一种分类方法,其特征在于,包括:

接收多媒体数据;

获取所述多媒体数据的多媒体特征;

将所述多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个所述二元分类器分别对应不同的类别;

基于所述多个分类概率值,确定所述多媒体数据的类别。

2.根据权利要求1所述的方法,其特征在于,所述获取所述多媒体数据的多媒体特征,包括:

提取所述多媒体数据的第一特征向量;

对所述第一特征向量进行降维处理,得到所述多媒体数据的第二特征向量;

将所述第二特征向量作为所述多媒体数据的多媒体特征。

3.根据权利要求1所述的方法,其特征在于,还包括:对多个二元分类器进行训练,训练的方法包括:

接收多个样本数据组,每个样本数据组对应指定的两个二元分类器;利用转换网络对每个样本数据组进行标签转换处理,以将样本数据组中的样本数据按照正负样本均衡的比例发送至指定的两个二元分类器;

根据每个二元分类器输出的类别概率值以及预先设置的损失函数分别对每个二元分类器模型参数进行调整,以实现对多个二元分类器的训练。

4.根据权利要求3所述的方法,其特征在于,所述预先设置的损失函数为:

其中,

所述j表示所述多个样本数据组中样本数据的序列号;

所述n表示所述多个样本数据组中样本数据的个数;

所述k表示所述多个样本数据组训练的二元分类器的序列号;

所述l表示所述多个样本数据组训练的二元分类器的个数;

所述i表示一个所述样本数据组对应的二元分类器组中,二元分类器的序列号;

所述c等于2;

所述yijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据相对于该二元分类器组中组内序列号为i的二元分类器所对应的类别的标签;

所述pijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,序列号为j的样本数据被预测属于该二元分类器组中组内序列号为i的二元分类器所对应的类别的概率;

其中,所述组内序列号为二元分类器在所属的二元分类器组内部的序列号,组内序列号的取值为1或2。

5.根据权利要求4所述的方法,其特征在于,所述pijk采用下式表示:

其中,

所述e表示自然常数;

所述sijk表示序列号为j的样本数据对应的二元分类器组包含序列号为k的二元分类器的情况下,将序列号为j的样本数据的多媒体特征输入该二元分类器组中组内序列号为i的二元分类器时,该二元分类器输出的分类概率值。

6.根据权利要求3所述的方法,其特征在于,所述预先设置的损失函数为:

其中,

所述j表示所述多个样本数据组中样本数据的序列号;

所述n表示所述多个样本数据组中样本数据的个数;

所述i表示所述多个样本数据组训练的二元分类器的序列号;

所述c表示所述多个样本数据组训练的二元分类器的个数;

所述yij表示序列号为j的样本数据相对于序列号为i的二元分类器所对应的类别的标签;

所述pij表示序列号为j的样本数据被所述训练的二元分类器预测属于序列号为i的二元分类器所对应的类别的概率。

7.一种分类装置,其特征在于,包括:

接收模块,用于接收多媒体数据;

特征提取模块,用于获取所述多媒体数据的多媒体特征;

输入模块,用于将所述多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个所述二元分类器分别对应不同的类别;

确定模块,用于基于所述多个分类概率值,确定所述多媒体数据的类别。

8.一种分类模型,其特征在于,包括:接收模块、特征提取模块、输入模块及多个二元分类器及确定模块,各个所述二元分类器分别对应不同的类别;其中,

所述接收模块,用于接收多媒体数据,对所述多媒体数据进行预处理,并输出预处理之后的多媒体数据;

所述特征提取模块,用于接收所述预处理之后的多媒体数据,从所述预处理之后的多媒体数据中提取所述多媒体数据的多媒体特征;

所述输入模块,用于将所述多媒体特征分别输入各个所述二元分类器;

各个所述二元分类器,分别用于接收所述多媒体特征,并输出分类概率值;

所述确定模块,用于根据各个所述二元分类器输出的所述分类概率值确定所述多媒体数据的类别。

9.一种介质,其存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的方法。

10.一种计算设备,包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序;

当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1-6中任一所述的方法。

技术总结
本申请的实施方式提供了一种分类方法、介质、装置和计算设备。该方法包括:接收多媒体数据;获取多媒体数据的多媒体特征;将多媒体特征分别输入预先训练的多个二元分类器以得到多个分类概率值;其中,各个二元分类器分别对应不同的类别;基于多个分类概率值,确定所述多媒体数据的类别。本申请实施例能够降低分类模型的学习难度,并提高分类模型的性能。

技术研发人员:杨杨;姜波
受保护的技术使用者:网易(杭州)网络有限公司
技术研发日:2020.01.09
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-16855.html

最新回复(0)