本发明属于场景识别的技术领域,特别涉及一种基于通用对抗扰动的养猪场目标识别方法。
背景技术:
我国自古以来都是生猪养殖大国,生猪的养殖在我国有着悠久的历史。在现阶段,生猪养殖的模式逐渐由家庭作坊式的小型化养殖向规模化、集约化养殖发展。在一些技术手段,传统的人工养殖技术已经不能应对规模化养殖的需求,如:饲料适时投喂、猪舍卫生状况监控、猪群分布统计。
近年来,随着深度神经网络的发展,深度学习已经逐渐应用到各个领域,尤其在计算机视觉、语音识别、自然语言处理等方面已经达到甚至超过人类的能力。与此同时,深度学习带来的安全问题也越来越受到人们的关注。其中,对抗扰动的生成方法逐渐成为深度学习技术安全领域中的热点问题。对抗扰动是指在深度神经网络模型可以做出正确判断的原始数据上,增加人类感官难以分辨的微小扰动后,深度神经网络模型会做出错误判断的样本。为了提高模型的鲁棒性,利用通用对抗扰动进行数据增强就是一个其中一种方法。
深度神经网络在目标检测任务中取得的巨大成功,离不开海量的训练数据,主流公开数据集,如imagenet、pascalvoc和mscoco等,规模通常在数十万张乃至百万张。然而在现实工业界的应用中,针对特定任务标注如此庞大的数据集往往需要耗费大量的人力、物力和时间。通常的做法是基于少量标注数据,施加一些变换,扩充数据集规模。这些变换包括水平、旋转变换,随即擦除和高斯噪声注入等。
技术实现要素:
本发明旨在解决养猪场场景的目标识别问题,特别创新地提出了一种基于通用对抗扰动的养猪场目标识别方法。
本发明的主要目的在于提供一种基于通用对抗扰动的养猪场目标识别方法,可以有效解决背景技术中的问题。
1、一种基于通用对抗扰动的养猪场目标识别方法,其特征在于,包括以下步骤:
步骤1:通过视频监控设备随机采集不同情景下的养猪场监控图像,人工标注每张图的类别属性和目标属性;
步骤2:抽取目标检测网络ssd的骨干分类网络vgg-16,基于数据集的类别属性训练得到高精度的多标签三分类模型;
步骤3:将原始数据随机划分成若干组,每组生成一个通用对抗扰动;
步骤4:将上步生成的一系列通用对抗扰动添加到训练数据中,基于数据集的目标属性训练ssd得到高精度检测模型。
其中,所述步骤1中的数据标准为720p、rgb三通道图片,分辨率1280*720。图片的类别属性为三分类多标签,注明该图片是否包含人、是否包含猪、是否包含工具;图片的目标属性为若干个五元组,其中每个五元组分别注明了目标的类别、矩形框的左上角、右下角坐标。
其中,所述步骤2中的vgg-16还包含5组卷积-激活-池化层和3个带有dropout操作的全连接层,损失函数使用交叉熵损失,要求输入大小为3*300*300数组,预训练模型参数基于imagenet数据集,采用随机梯度下降法(sgd)优化得到。
其中,所述步骤3中每组图片生成通用对抗扰动的子步骤为:
4.1、初始化对抗扰动pert为零向量;
4.2、随机采样一批图片x0,由pert叠加后输入分类网络vgg-16后计算各类别输出概率yi;
4.3、记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y′0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度δx0、δx′0;
4.4、根据前向预测和上述后向梯度计算对抗扰动系数
4.5、重复子步骤3.2到子步骤3.4,直到生成的加性扰动噪声δxn能够扰动的图片数在验证集上占到特定的比例。
步骤4中,检测模型基于ssd网络,网络以步骤2中的vgg-16为骨干网络,增加到11组卷积层,在其中6个特征图上的每个点处设置1:1、1:2、1:3三种长宽比的anchor,做边框回归操作检测目标。训练过程使用adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
本发明由于采取以上技术方案,其具有以下有益效果:
(1)本发明提供一种基于通用对抗扰动的养猪场目标识别方法,基于划分得到的一组分类数据集和给定权重参数的vgg-16分类网络,该算法以迭代的方式从零向量开始生成一个对抗扰动值,在生成过程中,小幅度地调整该对抗扰动值可以满足对于单张图片的干扰,故通过不断地采样图片则可以最终生成一个能够干扰整个数据集的通用扰动值,即:把对抗扰动和该组数据集中所有的图片叠加后输入分类模型,输出的预测结果将和图片原本的标签都有不同。
(2)本发明通过基于上述生成的通用对抗扰动,在一定程度上反应了分类器在特征提取中的盲点,故而本发明提出将此类加性对抗扰动注入原始数据集,作为数据增强措施。相比于传统的高斯噪声增强策略,该措施可以提高目标检测模型的对于微小扰动的鲁棒性,从而提高检测精度。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明的措施整体流程图。
图2为本发明的对抗扰动生成流程图。
图3为本发明数据增强策略训练目标检测模型的流程图。
图4为基于通用对抗扰动和基于高斯噪声增强策略的检测结果对比图。
具体实施方式
现在结合附图对本发明作进一步详细的说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
需要说明的是,本发明为一种基于通用对抗扰动的养猪场目标识别方法,在使用过程中:具体的实施步骤为:
(1)通过视频监控设备随机采集不同情景下的养猪场监控图像,人工标注每张图的类别属性和目标属性;数据为标准720p、rgb三通道图片,格式为jpg,分辨率为1280*720,图片的类别属性是长度为3的0-1数组,注明该图片是否包含人、猪和工具;图片的目标属性为若干个五元组,表示若个个目标框。其中每个五元组的第1个元素为{0,1,2}中的一个,注明了目标的类别,第2-5个元素是整型数组,分别标注了该矩形目标框的左上角、右下角坐标。
(2)抽取目标检测网络ssd的骨干分类网络vgg-16,基于数据集的类别属性训练得到高精度的多标签三分类模型。vgg-16包含5组卷积-激活-池化层和3个带有dropout操作的全连接层,输出长度为3的向量表示三类预测的概率。损失函数使用交叉熵损失,要求输入大小为3*300*300数组,预训练模型参数基于imagenet数据集,采用随即梯度下降法(sgd)优化得到。
(3)每组图片生成通用对抗扰动pert,pert由全零向量迭代生成,其子步骤为:
①初始化对抗扰动pert为零向量;
②随机采样一批图片x0,由pert叠加后输入分类网络vgg-16后计算各类别输出概率yi;
③记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y′0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度δx0、δx‘0;
④根据前向预测和上述后向梯度计算对抗扰动系数
⑤重复子步骤2)到子步骤4),直到生成的加性对抗扰动噪声δxn能够扰动的图片数在干扰。
(4)检测模型基于ssd网络,网络以步骤2中的vgg-16为骨干网络,增加到11组卷积层,在其中6个特征图上的每个点处设置1:1、1:2、1:3三种长宽比的anchor,做边框回归操作检测目标。训练过程使用adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
以上仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,应视为本发明的保护范围。
1.一种基于通用对抗扰动的养猪场目标识别方法,其特征在于,包括以下步骤:
步骤1:通过视频监控设备随机采集不同情景下的养猪场监控图像,人工标注每张图的类别属性和目标属性;
步骤2:抽取目标检测网络ssd的骨干分类网络vgg-16,基于数据集的类别属性训练得到高精度的多标签三分类模型;
步骤3:将原始数据随机划分成若干组,每组生成一个通用对抗扰动;
步骤4:将上步生成的一系列通用对抗扰动添加到训练数据中,基于数据集的目标属性训练ssd得到高精度检测模型。
2.根据权利要求1所述的一种基于通用对抗扰动的养猪场目标识别方法,其特征在于:所述步骤1中的数据标准为720p、rgb三通道图片,其分辨率1280*720,图片的类别属性为三分类多标签,注明该图片是否包含人、是否包含猪、是否包含工具;图片的目标属性为若干个五元组,其中每个五元组分别注明了目标的类别、矩形框的左上角、右下角坐标。
3.根据权利要求1所述的一种基于通用对抗扰动的养猪场目标识别方法,其特征在于:所述步骤2中的vgg-16还包含5组卷积-激活-池化层和3个带有dropout操作的全连接层,损失函数使用交叉熵损失,要求输入大小为3*300*300数组,预训练模型参数基于imagenet数据集,采用随即梯度下降法(sgd)优化得到。
4.根据权利要求1所述的一种基于通用对抗扰动的养猪场目标识别方法,其特征在于:所述步骤3中每组图片生成通用对抗扰动的子步骤为:
4.1、初始化对抗扰动pert为零向量;
4.2、随机采样一批图片x0,由pert叠加后输入分类网络vgg-16后计算各类别输出概率yi;
4.3、记图片标签为y0,其他所有非图片标签的预测中,概率最大的为y‘0。在两处反向传播梯度,固定网络权重,分别得到输入数组的梯度δx0、δx′0;
4.4、根据前向预测和上述后向梯度计算对抗扰动系数
4.5、重复子步骤4.2到子步骤4.4,直到生成的加性对抗扰动噪声δxn能够扰动的图片数在验证集上占到特定的比例。
5.根据权利要求1所述的方法,其特征在于:步骤4中,检测模型基于ssd网络,网络以步骤2中的vgg-16为骨干网络,增加到11组卷积层,在其中6个特征图上的每个点处设置1:1、1:2、1:3三种长宽比的anchor,做边框回归操作检测目标。训练过程使用adam优化器,参数设置为:β1=0.9,β2=0.999,初始学习率设置为0.001。
技术总结