本发明属于图像处理及目标检测
技术领域:
,具体地涉及到标准化考场监控视频中获得的单帧图像中考生的识别、定位。
背景技术:
:考试是我国各类人才考核与选拔的重要手段,事关考生切身利益,社会关注度高,近年的各类重要考试中,标准化考场已经发挥着重要作用。在标准化考场的中央视频监控中,一名监控老师需要以人眼观察的方式同时监控9个考场的视频信息。长时间、不间断的连续工作不可避免地会引起监视人员的“视觉疲劳”和“顾此失彼”现象,极易导致考生异常情况漏报,因此将先进的计算机视觉技术融入标准化考场监控大数据,智能地分析考生行为的需求越来越迫切。对标准化考场中考生位置的准确检测是智能分析考生行为的前提和基础,而基于单帧场景的考生行为涉及图像中的目标检测技术,包含目标识别与定位。目标识别指根据图像中提取的特征判断目标是什么,而目标定位指在图像中进一步找出感兴趣目标的位置信息。考场监控视频单帧图像的学生定位与计数是目标检测技术在标准化考场的一个重要应用,其过程涉及到很多图像处理和图像分析技术,例如对图像中人的形体特征的提取、背景及噪声干扰的抑制、检测区域交并比计算等方面。目前,国内外的图像目标检测方法主要有基于图像阈值的目标检测方法、基于帧间差分和双线性插值的目标检测方法和基于边缘碎片模型的目标识别方法等。上述目标识别及定位方法应用于标准化考场监控视频的单帧图像时,所存在的主要技术问题是目标识别率不高,定位准确度低,甚至出现大量漏检或无法计算等问题。这导致现有方法在标准化考场监控的场景下以学生异常行为检测为目的的应用微乎其微。技术实现要素:本发明所要解决的技术问题在于克服现有技术的缺点,提供一种快速、高效的标准化考场考生实时监控方法。解决上述技术问题所采用的技术方案是由下述步骤组成:(1)制作单帧考场图像数据集将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为10~100分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:3~5划分为训练集和测试集。(2)预处理图像将训练集和测试集中图像的像素调整为长边w为800~1200像素,短边h为400~800像素的图像。(3)设置超参数设置分类数为2、训练集训练轮数为24~48、训练批次尺寸为2~6、基础学习率参数为0.005~0.015、学习率衰减因子为0.85~0.95。(4)构建实时监控模型监控模型包括特征提取阶段、特征融合阶段、候选区域建议阶段、分类回归阶段。1)特征提取阶段,选用mobilenetv2网络作为主干网络提取特征,输出到特征融合阶段。2)特征融合阶段,将1×1、w/32×h/32、w/16×h/16大小的特征图,通过1×1卷积、双线性插值,调整成大小为w/16×h/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段。3)候选区域建议阶段,用5×5深度可分离卷积核代替3×3的普通卷积核,将生成特征图输出到分类回归阶段。4)分类回归阶段,用深度可分离卷积层替代第一个全连接层,减少一层共享全连接层,得到实时监控模型。(5)训练实时监控模型通过考场图像数据集训练实时监控模型的步骤为:1)将标准化考场考生数据集中图像按照步骤(2)进行预处理,输出到实时监控模型,使用imagenet数据集上的权重对实时监控模型的mobilenetv2网络进行初始化;2)将按步骤(2)预处理后的训练集输入到实时监控模型;设定交叉熵函数为损失函数,使用梯度下降法降低损失函数的损失值进行前向传播和反向传播;反复循环24~48个前向传播和反向传播轮数,并更新网络的权重值和偏置,得到训练好的实时监控模型权重;(6)测试预处理后的测试集图像1)设置测试参数设置目标的类别置信度阈值为0.5~0.8;2)测试将步骤(2)预处理后的测试集内的图像输入到训练好的实时监控模型中,得到图像中每个目标的位置坐标、所属类别以及所属类别的置信度;3)筛选检测结果在检测结果中,保留类别置信度大于置信度阈值的目标位置坐标信息、类别信息和所属类别的置信度信息;4)输出考生位置输出图像中类别置信度大于置信度阈值的考生位置信息和定位结果图。在本发明的制作单帧考场图像数据集步骤(1)中,将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为30分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:4划分为训练集和测试集。在本发明的预处理图像步骤(2)中,将训练集和测试集中图像的像素调整为长边w为1000像素,短边h为600像素的图像;在构建实时监控模型步骤(4)的步骤2)中,所述的构建实时监控模型为:将1×1、1000/32×600/32、1000/16×600/16大小的特征图,通过1×1卷积、双线性插值,调整大小为1000/16×600/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段。在本发明设置超参数步骤(3)中,设置分类数最佳为2、训练集训练轮数最佳为36、训练批次尺寸最佳为4、基础学习率参数最佳为0.01、学习率衰减因子为最佳为0.9。在本发明的测试预处理后的测试集图像步骤(6)的步骤1)中,目标的类别置信度阈值最佳为0.7。本发明采用考场监控视频获取单帧图像,制作成考场图像数据集,划分为训练集和测试集,对数据集中图像大小进行预处理,构建标准化考场实时监控模型,将预处理后的训练集输入实时监控模型进行训练,提取图像特征并利用损失函数优化网络。用预处理后的测试集测试网络并输出考生定位结果。与现有技术相比,具有网络结构简单、检测速度快和检测精度高等优点,可在标准化考场监控环境下推广使用。附图说明图1是本发明标准化考场监控的实验的流程图。图2是标准化考场监控单帧图像数据集中随机抽取的9张图片的原图。图3是图2在实施案例1下的考生定位效果图。具体实施方式下面结合附图和实例对本发明进行进一步的说明,但本发明不限于下述实例。实施例1从标准化考场考生数据集中选取9张像素为704×576的考场图像(见图2)为例,在图1中,本实施例的标准化考场考生实时监控方法,由下述步骤组成:(1)制作单帧考场图像数据集将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为30分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:4划分为训练集和测试集。(2)预处理图像将训练集和测试集中图像的像素调整为长边w为1000像素,短边h为600像素的图像。(3)设置超参数设置分类数为2、训练集训练轮数为36、训练批次尺寸为4、基础学习率参数为0.01、学习率衰减因子为0.9。(4)构建实时监控模型监控模型包括特征提取阶段、特征融合阶段、候选区域建议阶段、分类回归阶段;1)特征提取阶段,选用mobilenetv2网络作为主干网络提取特征,输出到特征融合阶段,mobilenetv2网络为已知网络,已在cvpr国际会议2018年6月公开。通过此阶段改进,网络模型的参数量由64.4兆减少到18.89兆。2)特征融合阶段,将1×1、w/32×h/32、w/16×h/16大小的特征图,通过1×1卷积、双线性插值,调整成大小为w/16×h/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段;本实施例的w为1000,h为600。通过此阶段改进检测图片帧率由8.88帧数/秒提高到11.12帧数/秒。3)候选区域建议阶段,用5×5深度可分离卷积核代替3×3的普通卷积核,将生成特征图输出到分类回归阶段。通过此阶段改进检测图片帧率由11.12帧数/秒提高到25.63帧数/秒。4)分类回归阶段,用深度可分离卷积层替代第一个全连接层,减少一层共享全连接层,得到实时监控模型。通过此阶段改进模型参数量由17.02兆减少到4.19兆,同时检测图片帧率由25.63帧数/秒提高到26.70帧数/秒。(5)训练实时监控模型通过考场图像数据集训练实时监控模型的步骤为:1)将标准化考场考生数据集中图像按照步骤(2)进行预处理,输出到实时监控模型,使用imagenet数据集上的权重初始化实时监控模型的mobilenetv2网络权重,初始化的方法为本
技术领域:
的常规方法。2)将按步骤(2)预处理后的训练集输入到实时监控模型;设定交叉熵函数l为损失函数如下:其中y(i)为第i类期望输出,取值为0或1,为第i类实际输出,取值为0~1区间的实数,n是总类别数目、为有限的正整数,使用梯度下降法降低损失函数的损失值进行前向传播和反向传播,梯度下降法为本
技术领域:
的常规方法;反复循环24~48个前向传播和反向传播轮数,并更新网络的权重值和偏置,得到训练好的实时监控模型权重。(6)测试预处理后的测试集图像1)设置测试参数设置目标的类别置信度阈值为0.7。2)测试将步骤(2)预处理后的测试集内的图像输入到训练好的实时监控模型中,得到图像中每个目标的位置坐标、所属类别以及所属类别的置信度。3)筛选检测结果在检测结果中,保留类别置信度大于置信度阈值的目标位置坐标信息、类别信息和所属类别的置信度信息。4)输出考生位置输出图像中类别置信度大于置信度阈值的考生位置信息和定位结果图,见图3。由图2、3可见,该实时监控模型可以准确获取考生的位置信息。实施例2从标准化考场考生数据集中选取9张像素为704×576的考场图像为例,本实施例的标准化考场考生实时监控方法,由下述步骤组成:(1)制作单帧考场图像数据集将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为10分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:3划分为训练集和测试集。(2)预处理图像将训练集和测试集中图像的像素调整为长边w为800像素,短边h为400像素的图像。(3)设置超参数设置分类数为2、训练集训练轮数为24、训练批次尺寸为2、基础学习率参数为0.005、学习率衰减因子为0.85。(4)构建实时监控模型监控模型包括特征提取阶段、特征融合阶段、候选区域建议阶段、分类回归阶段;1)特征提取阶段,选用mobilenetv2网络作为主干网络提取特征,输出到特征融合阶段;2)特征融合阶段,将1×1、w/32×h/32、w/16×h/16大小的特征图,通过1×1卷积、双线性插值,调整成大小为w/16×h/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段;本实施例的w为800,h为400。该步骤的其它步骤与实施例1相同。(5)训练实时监控模型该步骤与实施例1相同。(6)测试预处理后的测试集图像1)设置测试参数设置目标的类别置信度阈值为0.5。该步骤与实施例1相同。其它步骤与实施例1相同。实施例3从标准化考场考生数据集中选取9张像素为704×576的考场图像为例,本实施例的标准化考场考生实时监控方法,由下述步骤组成:(1)制作单帧考场图像数据集将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为100分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:5划分为训练集和测试集。(2)预处理图像将训练集和测试集中图像的像素调整为长边w为1200像素,短边h为800像素的图像。(3)设置超参数设置分类数为2、训练集训练轮数为48、训练批次尺寸为6、基础学习率参数为0.015、学习率衰减因子为0.95。(4)构建实时监控模型监控模型包括特征提取阶段1、特征融合阶段2、候选区域建议阶段3、分类回归阶段4;1)特征提取阶段1,选用mobilenetv2网络作为主干网络提取特征,输出到特征融合阶段;2)特征融合阶段2,将1×1、w/32×h/32、w/16×h/16大小的特征图,通过1×1卷积、双线性插值,调整成大小为w/16×h/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段;本实施例的w为1200,h为800。该步骤的其它步骤与实施例1相同。(5)训练实时监控模型该步骤与实施例1相同。(6)测试预处理后的测试集图像1)设置测试参数设置目标的类别置信度阈值为0.8。该步骤与实施例1相同。其它步骤与实施例1相同。为了验证本发明的有益效果,发明人采用本发明实施例1的标准化考场考生实时监控方法与现有的目标检测(fpn)方法、目标检测(retinanet)方法、目标检测(ssd512)方法进行了对比试验,实验结果见表1。表1改进后模型和现有模型性能对比表网络模型参数量(兆)平均精度(%)训练时间(分钟/轮)测试速度(帧数/秒)fpn60.4489.910.226.70retinanet55.7289.47.748.64ssd51227.1989.53.5610.64实施例14.1988.23.1026.70由表1可见,本发明实时监控模型参数量比其它3种方法减少为4.19m;平均精度比最好的fpn模型下降了1.7%,达到88.2%;训练时间为3.10分钟/轮,最少;测试速度达到26.70帧数/秒,比其它3种方法提升,满足实时性要求。当前第1页1 2 3 
技术特征:1.一种标准化考场考生实时监控方法,其特征在于由下述步骤组成:
(1)制作单帧考场图像数据集
将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为10~100分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:3~5划分为训练集和测试集;
(2)预处理图像
将训练集和测试集中图像的像素调整为长边w为800~1200像素,短边h为400~800像素的图像;
(3)设置超参数
设置分类数为2、训练集训练轮数为24~48、训练批次尺寸为2~6、基础学习率参数为0.005~0.015、学习率衰减因子为0.85~0.95;
(4)构建实时监控模型
监控模型包括特征提取阶段、特征融合阶段、候选区域建议阶段、分类回归阶段;
1)特征提取阶段,选用mobilenetv2网络作为主干网络提取特征,输出到特征融合阶段;
2)特征融合阶段,将1×1、w/32×h/32、w/16×h/16大小的特征图,通过1×1卷积、双线性插值,调整成大小为w/16×h/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段;
3)候选区域建议阶段,用5×5深度可分离卷积核代替3×3的普通卷积核,将生成特征图输出到分类回归阶段;
4)分类回归阶段,用深度可分离卷积层替代第一个全连接层,减少一层共享全连接层,得到实时监控模型;
(5)训练实时监控模型
通过考场图像数据集训练实时监控模型的步骤为:
1)将标准化考场考生数据集中图像按照步骤(2)进行预处理,输出到实时监控模型,使用imagenet数据集上的权重对实时监控模型的mobilenetv2网络进行初始化;
2)将按步骤(2)预处理后的训练集输入到实时监控模型;设定交叉熵函数为损失函数,使用梯度下降法降低损失函数的损失值进行前向传播和反向传播;反复循环24~48个前向传播和反向传播轮数,并更新网络的权重值和偏置,得到训练好的实时监控模型权重;
(6)测试预处理后的测试集图像
1)设置测试参数
设置目标的类别置信度阈值为0.5~0.8;
2)测试
将步骤(2)预处理后的测试集内的图像输入到训练好的实时监控模型中,得到图像中每个目标的位置坐标、所属类别以及所属类别的置信度;
3)筛选检测结果
在检测结果中,保留类别置信度大于置信度阈值的目标位置坐标信息、类别信息和所属类别的置信度信息;
4)输出考生位置
输出图像中类别置信度大于置信度阈值的考生位置信息和定位结果图。
2.根据权利要求1所述的标准化考场考生实时监控方法,其特征在于:所述的在制作单帧考场图像数据集步骤(1)中,将标准化考场监控视频按不同的考场划分,每个考场提取时间间隔为30分钟的2帧图像,标注出每幅图像中考生所在位置及其类别标签,构成标注文件,图像与其对应的标注文件构成考场图像数据集,将考场图像数据集按1:4划分为训练集和测试集。
3.根据权利要求1所述的标准化考场考生实时监控方法,其特征在于:在预处理图像步骤(2)中,将训练集和测试集中图像的像素调整为长边w为1000像素,短边h为600像素的图像;在构建实时监控模型步骤(4)的步骤2)中,所述的构建实时监控模型为:将1×1、1000/32×600/32、1000/16×600/16大小的特征图,通过1×1卷积、双线性插值,调整大小为1000/16×600/16、通道数为256的特征图,三个特征图相加,输出到候选区域建议阶段。
4.根据权利要求1所述的标准化考场考生实时监控方法,其特征在于:在设置超参数步骤(3)中,设置分类数为2、训练集训练轮数为36、训练批次尺寸为4、基础学习率参数为0.01、学习率衰减因子为0.9。
5.根据权利要求1所述的标准化考场考生实时监控方法,其特征在于:所述的测试预处理后的测试集图像步骤(6)的步骤1)中,目标的类别置信度阈值为0.7。
技术总结一种标准化考场考生实时监控方法,由制作单帧考场图像数据集、预处理图像、设置超参数、构建实时监控模型、训练实时监控模型、测试预处理后的测试集图像步骤组成。与现有技术相比,具有网络结构简单、检测速度快和检测精度高等优点,可在标准化考场监控环境下推广使用。
技术研发人员:马苗;王哲;裴昭;杨楷芳
受保护的技术使用者:陕西师范大学
技术研发日:2020.01.21
技术公布日:2020.06.09