一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法与流程

专利2022-06-28  121


本发明属于图像处理技术领域,具体涉及一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法。



背景技术:

近年来,航拍视频跟踪技术在军事领域及民事领域得到了显著的发展,它在多样性和灵活性方面表现更为出色。相对于普通的手持设备拍摄视频,航拍视频具有更灵活的角度、尺度和视野。航拍视频目标跟踪技术的发展催生了许多新颖且重要的应用,例如人群监测、目标追踪以及空中导航。在传统通用场景目标跟踪技术中,许多算法根据第一帧中给定的初始状态在视频上定位其边界框,然而天气条件、飞行高度、目标大小和摄像机视角等特定因素都会影响目标跟踪结果;同时,由于高倾斜拍摄视角引入的阴影、背景干扰和弱光条件,航拍视频可能大幅损失物体原本丰富的纹理信息和细节。近年来,基于相关滤波的方法大量涌现,并在精度和速度上展现良好的跟踪性能,可以在一定程度上满足航拍视频的要求。然而,当航拍视频中捕捉到的目标在阴影中呈现模糊状态,或者被其他对象遮挡时,跟踪器会被误导。在这种情况下,当目标丢失一段时间后,传统相关滤波方法会产生模型漂移现象,导致无法重新跟踪定位。因此设计针对航拍场景的鲁棒目标跟踪算法意义重大且迫在眉睫。



技术实现要素:

要解决的技术问题

针对航拍视频中由于相机运动,目标发生模糊,被遮挡而造成外观模型漂移,进而易导致跟踪失败的问题,本发明充分利用目标语义信息不易受外观变化影响的优势,结合目标检测技术,在高效率的相关滤波类算法的基础上,设计一种鲁棒的实时目标跟踪方法。

技术方案

一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于步骤如下:

步骤1:读取第一帧图像数据以及目标块在第一帧图像中的参数rtarget=[x,y,w,h],其中x,y表示目标左上角的横纵坐标,w,h表示目标的宽和高;

步骤2:根据第一帧目标中心位置及长宽,确定一个目标区域r1,r1=[xcenter,ycenter,1.5w,1.5h];

步骤3:在区域r1上进行特征提取,特征提取网络使用带有特征金字塔fpn的resnet50残差网络结构,得到包含5种不同尺度s={1.0,0.8,0.4,0.2,0.1}倍原图大小的256维深度特征j;

步骤4:将步骤3得到的特征分别输入相关滤波模块和检测模块;在相关滤波模块中,截取特征j中对应于rtarget中的部分jtarget作为目标模板y1;检测模块将该目标特征jtarget输入其中的类别判定分支,网络输出目标的类别信息;

步骤5:读取第k帧图像,k≥2且起始值为2,根据前一帧目标参数[xk-1,yk-1,wk-1,hk-1],确定第k帧目标区域rk,采用步骤3中的方法对rk进行特征提取,得到目标特征jk,将jk分别输入相关滤波模块、检测模块和语义分割模块;

步骤6:相关滤波模块中,令jk等于该帧的训练样本xk,结合该帧的目标模板yk,训练相关滤波器w;对w的训练使用优化模型:

其中,f(·)表示相关操作,l(·)表示平方损失函数,λ为正则参数,为了求解方便,对xk,yk通过离散傅里叶变换得xk,yk,把上述公式转换到频域计算,w表示频域的w,解得

其中,h表示训练样本的特征维度;得到相关滤波器w后,根据下述公式计算出相关滤波模块输出的初始响应图r:

其中,f-1(·)表示傅里叶反变换,⊙表示点积,—表示复共轭算子;

步骤7:检测模块对jk先进行一个卷积核大小为3×3的卷积操作;将卷积操作的输出分别输入类别判定分支,目标框回归分支和掩膜分支;类别判定分支对输入进行3×3的卷积操作,输出维度为80,即coco数据集的类别数目,每一维数据表示属于该类别的置信度score;目标框回归分支对输入进行3×3的卷积操作,输出维度为4,包含目标框的左上和右下角坐标;掩膜分支对输入进行3×3的卷积操作,输出维度为32,并对输出使用tanh激活函数,生成每个像素点对应的系数ci,用于语义分割模块产生目标掩膜;所述的检测模块需在跟踪算法执行之前预训练;

步骤8:结合类别置信度和回归框,可以逐像素得到其类别和目标框;按{1:2,1:1,2:1}设定锚点,经过非极大值抑制nms处理,得到候选框;在这些候选框中根据第一帧得到的目标类别进行筛选,进一步得到区域rk中与目标类别相同的检测框,作为检测模块的输出;同时得到对应像素点的掩膜系数表示为c=tanh([c1,c2,...,ct])∈rt×32,t表示筛选出的目标框个数;

步骤9:语义分割模块将jk输入一个全卷积神经网络fcn,该网络先经过3层卷积核大小为3×3的卷积操作,保持维度不变,后经过一层2倍的上采样,在经过一层3×3的卷积,最后通过1×1的卷积输出32维的语义分割原型,表示为d=[d1,d2,...,d32]∈r32×n,n是特征图的尺寸,即特征图长宽的乘积;所述的语义分割模块需在跟踪算法执行之前预训练;

步骤10:结合步骤7输出的掩膜系数c,按下述公式生成目标掩膜mt,pi,x,y表示矩阵c×d中的元素,t表示共生产t个目标掩膜

步骤11:对mt按下述公式进行选择,得到最终的目标掩膜m,score表示类别的置信度,dist表示该掩膜中心到区域rk中心的距离,i表示掩膜的索引,找出比值最大的掩膜作为最终目标掩膜m:

步骤12:根据检测模块输出的目标框,对相关滤波器的初始响应图r进行裁剪,保留目标框区域内的值,区域外的值置0,得到新的响应图rb;然后根据下述公式结合分割模块的输出,得到最终融合语义的响应图rm,p表示掩膜m的权重;

rm=(1-p)rb pm

步骤13:找出rm上响应值最大的位置,作为该帧目标位置,依据下述公式对相关滤波器w进行更新:

wk=(1-η)wk-1 ηwk

其中,η表示学习率;

步骤14:判断是否处理完所有图像,如果是则结束;否则返回步骤5。

所述的λ取值为0.003。

所述的h=50。

所述的p取值为0.2。

所述的η取值为0.03。

所述的检测模块和语义分割模块联合预训练步骤如下:

1)对coco2017数据集的图片进行归一化操作,使数据集分布符合标准正态分布,然后将图像随机剪裁并固定尺寸到500×500的大小;

2)类别判定分支使用smooth-l1损失函数,目标框回归分支使用标准交叉熵损失函数,语义分割模块结合检测网络输出的掩膜系数,采用下述公式所示的损失函数:

其中,g表示真实的掩膜标签,s表示该图中掩膜个数;

网络的总损失函数为上述3个损失函数的和;

3)对于特征提取网络fpn resnet50,使用在imagenet上预训练的网络模型参数进行初始化;训练使用随机梯度下降sgd算法进行优化,优化器参数设置为:学习率0.001,动量为0.9,权值衰减为5×10-4

4)将数据输入网络进行训练,共训练27个周期,每个周期20000张图片,得到的网络模型用于跟踪过程。

有益效果

本发明提出的一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法,采用了相关滤波跟踪算法,通过融合目标区域语义信息,更鲁棒精确地定位目标的位置。针对相关滤波算法不易解决的目标模糊和遮挡问题,本发明引入了检测模块和分割模块,在第一帧记录目标的类别信息,在后续帧中对目标候选区域进行检测和语义分割,得到该区域内相同类别的目标候选框和分割掩膜,再融合候选框和掩膜对相关滤波算法的响应图进行处理,对响应图中响应值较大的非目标区域进行裁剪,得到准确的目标定位。得益于以上措施,本发明可以在多种具有挑战性的航拍场景下取得非常鲁棒的结果。

附图说明

图1本发明流程图

具体实施方式

现结合实施例、附图对本发明作进一步描述:

1.1跟踪过程

1)读取第一帧图像数据以及目标块在第一帧图像中的参数rtarget=[x,y,w,h],其中x,y表示目标左上角的横纵坐标,w,h表示目标的宽和高。

2)根据第一帧目标中心位置及长宽,确定一个目标区域r1,r1=[xcenter,ycenter,1.5w,1.5h]。

3)在区域r1上进行特征提取,特征提取网络使用带有特征金字塔fpn的resnet50残差网络结构,得到包含5种不同尺度s={1.0,0.8,0.4,0.2,0.1}倍原图大小的256维深度特征j。

4)将步骤3)得到的特征分别输入相关滤波模块和检测模块。在相关滤波模块中,我们截取特征j中对应于rtarget中的部分jtarget作为目标模板y1;检测模块将该目标特征jtarget输入其中的类别判定分支,网络输出目标的类别信息。

5)读取第k帧图像,k≥2且起始值为2,根据前一帧目标参数[xk-1,yk-1,wk-1,hk-1],确定第k帧目标区域rk,采用步骤3)中的方法对rk进行特征提取,得到目标特征jk,将jk分别输入相关滤波模块,检测模块和语义分割模块。

6)相关滤波模块中,令jk等于该帧的训练样本xk,结合该帧的目标模板yk,训练相关滤波器w。对w的训练使用优化模型:

f(·)表示相关操作,l(·)表示平方损失函数,λ为正则参数,取值为0.003。为了求解方便,对xk,yk通过离散傅里叶变换得xk,yk,把上述公式转换到频域计算,w表示频域的w,解得

h表示训练样本的特征维度,h=50。得到相关滤波器w后,根据下述公式计算出相关滤波模块输出的初始响应图r。

f-1(·)表示傅里叶反变换,⊙表示点积,—表示复共轭算子。

7)检测模块(预训练过程见1.2)对jk先进行一个卷积核大小为3×3的卷积操作,不改变特征维度,依旧保持256维。将卷积操作的输出分别输入类别判定分支,目标框回归分支和掩膜分支。类别判定分支对输入进行3×3的卷积操作,输出维度为80,即coco数据集的类别数目,每一维数据表示属于该类别的置信度score;目标框回归分支对输入进行3×3的卷积操作,输出维度为4,包含目标框的左上和右下角坐标;掩膜分支对输入进行3×3的卷积操作,输出维度为32,并对输出使用tanh激活函数,生成每个像素点对应的系数ci,用于语义分割模块产生目标掩膜。

8)结合类别置信度和回归框,可以逐像素得到其类别和目标框。按{1:2,1:1,2:1}设定锚点,经过非极大值抑制(nms)处理,得到较精确的候选框。在这些候选框中根据第一帧得到的目标类别进行筛选,进一步得到区域rk中与目标类别相同的检测框,作为检测模块的输出。同时得到对应像素点的掩膜系数表示为c=tanh([c1,c2,...,ct])∈rt×32,t表示筛选出的目标框个数。

9)分割模块(预训练过程见1.2)将jk输入一个全卷积神经网络(fcn),该网络先经过3层卷积核大小为3×3的卷积操作,保持维度不变,后经过一层2倍的上采样,在经过一层3×3的卷积,最后通过1×1的卷积输出32维的语义分割原型,表示为d=[d1,d2,...,d32]∈r32×n,n是特征图的尺寸,即特征图长宽的乘积。

10)结合步骤7)输出的掩膜系数c,按下述公式生成目标掩膜mt,pi,x,y表示矩阵c×d中的元素,t表示共生产t个目标掩膜

11)对mt按下述公式进行选择,得到最终的目标掩膜m,score表示类别的置信度,dist表示该掩膜中心到区域rk中心的距离,i表示掩膜的索引,找出比值最大的掩膜作为最终目标掩膜m。

12)根据检测模块输出的目标框,对相关滤波器的初始响应图r进行裁剪,保留目标框区域内的值,区域外的值置0,得到新的响应图rb。然后根据下述公式结合分割模块的输出,得到最终融合语义的响应图rm,p表示掩膜m的权重,本发明中取p为0.2。

rm=(1-p)rb pm

13)找出rm上响应值最大的位置,作为该帧目标位置,并对相关滤波器w进行更新,依据下述公式,η表示学习率,取0.03。

wk=(1-η)wk-1 ηwk

14)判断是否处理完所有图像,如果是则结束;否则转回步骤5)。

1.2检测和语义分割模块联合预训练

1)对coco2017数据集的图片进行归一化操作,使数据集分布符合标准正态分布,然后将图像随机剪裁并固定尺寸到500×500的大小。

2)检测模块和分割模块的网络结构如1.1所说,类别判定分支使用smooth-l1损失函数,目标框回归分支使用标准交叉熵损失函数,语义分割模块结合检测网络输出的掩膜系数,采用下述公式所示的损失函数,c,d,n含义如1.1所说,g表示真实的掩膜标签,s表示该图中掩膜个数,

网络的总损失函数为上述3个损失函数的和。

3)对于特征提取网络fpn resnet50,使用在imagenet上预训练的网络模型参数进行初始化。训练使用随机梯度下降(sgd)算法进行优化,优化器参数设置为:学习率0.001,动量为0.9,权值衰减为5×10-4

4)将数据输入网络进行训练,共训练27个周期,每个周期20000张图片,得到的网络模型用于跟踪过程。


技术特征:

1.一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于步骤如下:

步骤1:读取第一帧图像数据以及目标块在第一帧图像中的参数rtarget=[x,y,w,h],其中x,y表示目标左上角的横纵坐标,w,h表示目标的宽和高;

步骤2:根据第一帧目标中心位置及长宽,确定一个目标区域r1,r1=[xcenter,ycenter,1.5w,1.5h];

步骤3:在区域r1上进行特征提取,特征提取网络使用带有特征金字塔fpn的resnet50残差网络结构,得到包含5种不同尺度s={1.0,0.8,0.4,0.2,0.1}倍原图大小的256维深度特征j;

步骤4:将步骤3得到的特征分别输入相关滤波模块和检测模块;在相关滤波模块中,截取特征j中对应于rtarget中的部分jtarget作为目标模板y1;检测模块将该目标特征jtarget输入其中的类别判定分支,网络输出目标的类别信息;

步骤5:读取第k帧图像,k≥2且起始值为2,根据前一帧目标参数[xk-1,yk-1,wk-1,hk-1],确定第k帧目标区域rk,采用步骤3中的方法对rk进行特征提取,得到目标特征jk,将jk分别输入相关滤波模块、检测模块和语义分割模块;

步骤6:相关滤波模块中,令jk等于该帧的训练样本xk,结合该帧的目标模板yk,训练相关滤波器w;对w的训练使用优化模型:

其中,f(·)表示相关操作,l(·)表示平方损失函数,λ为正则参数,为了求解方便,对xk,yk通过离散傅里叶变换得xk,yk,把上述公式转换到频域计算,w表示频域的w,解得

其中,h表示训练样本的特征维度;得到相关滤波器w后,根据下述公式计算出相关滤波模块输出的初始响应图r:

其中,f-1(·)表示傅里叶反变换,⊙表示点积,—表示复共轭算子;

步骤7:检测模块对jk先进行一个卷积核大小为3×3的卷积操作;将卷积操作的输出分别输入类别判定分支,目标框回归分支和掩膜分支;类别判定分支对输入进行3×3的卷积操作,输出维度为80,即coco数据集的类别数目,每一维数据表示属于该类别的置信度score;目标框回归分支对输入进行3×3的卷积操作,输出维度为4,包含目标框的左上和右下角坐标;掩膜分支对输入进行3×3的卷积操作,输出维度为32,并对输出使用tanh激活函数,生成每个像素点对应的系数ci,用于语义分割模块产生目标掩膜;所述的检测模块需在跟踪算法执行之前预训练;

步骤8:结合类别置信度和回归框,可以逐像素得到其类别和目标框;按{1:2,1:1,2:1}设定锚点,经过非极大值抑制nms处理,得到候选框;在这些候选框中根据第一帧得到的目标类别进行筛选,进一步得到区域rk中与目标类别相同的检测框,作为检测模块的输出;同时得到对应像素点的掩膜系数表示为c=tanh([c1,c2,...,ct])∈rt×32,t表示筛选出的目标框个数;

步骤9:语义分割模块将jk输入一个全卷积神经网络fcn,该网络先经过3层卷积核大小为3×3的卷积操作,保持维度不变,后经过一层2倍的上采样,在经过一层3×3的卷积,最后通过1×1的卷积输出32维的语义分割原型,表示为d=[d1,d2,...,d32]∈r32×n,n是特征图的尺寸,即特征图长宽的乘积;所述的语义分割模块需在跟踪算法执行之前预训练;

步骤10:结合步骤7输出的掩膜系数c,按下述公式生成目标掩膜mt,pi,x,y表示矩阵c×d中的元素,t表示共生产t个目标掩膜

步骤11:对mt按下述公式进行选择,得到最终的目标掩膜m,score表示类别的置信度,dist表示该掩膜中心到区域rk中心的距离,i表示掩膜的索引,找出比值最大的掩膜作为最终目标掩膜m:

步骤12:根据检测模块输出的目标框,对相关滤波器的初始响应图r进行裁剪,保留目标框区域内的值,区域外的值置0,得到新的响应图rb;然后根据下述公式结合分割模块的输出,得到最终融合语义的响应图rm,p表示掩膜m的权重;

rm=(1-p)rb pm

步骤13:找出rm上响应值最大的位置,作为该帧目标位置,依据下述公式对相关滤波器w进行更新:

wk=(1-η)wk-1 ηwk

其中,η表示学习率;

步骤14:判断是否处理完所有图像,如果是则结束;否则返回步骤5。

2.根据权利要求1所述的基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于所述的λ取值为0.003。

3.根据权利要求1所述的基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于所述的h=50。

4.根据权利要求1所述的基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于所述的p取值为0.2。

5.根据权利要求1所述的基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于所述的η取值为0.03。

6.根据权利要求1所述的基于语义感知网络和相关滤波的航拍视频目标跟踪方法,其特征在于所述的检测模块和语义分割模块联合预训练步骤如下:

1)对coco2017数据集的图片进行归一化操作,使数据集分布符合标准正态分布,然后将图像随机剪裁并固定尺寸到500×500的大小;

2)类别判定分支使用smooth-l1损失函数,目标框回归分支使用标准交叉熵损失函数,语义分割模块结合检测网络输出的掩膜系数,采用下述公式所示的损失函数:

其中,g表示真实的掩膜标签,s表示该图中掩膜个数;

网络的总损失函数为上述3个损失函数的和;

3)对于特征提取网络fpn resnet50,使用在imagenet上预训练的网络模型参数进行初始化;训练使用随机梯度下降sgd算法进行优化,优化器参数设置为:学习率0.001,动量为0.9,权值衰减为5×10-4

4)将数据输入网络进行训练,共训练27个周期,每个周期20000张图片,得到的网络模型用于跟踪过程。

技术总结
本发明涉及一种基于语义感知网络和相关滤波的航拍视频目标跟踪方法,针对相关滤波算法不易解决的目标模糊和遮挡问题,本发明引入了检测模块和分割模块,在第一帧记录目标的类别信息,在后续帧中对目标候选区域进行检测和语义分割,得到该区域内相同类别的目标候选框和分割掩膜,再融合候选框和掩膜对相关滤波算法的响应图进行处理,对响应图中响应值较大的非目标区域进行裁剪,得到准确的目标定位。得益于以上措施,本发明可以在多种具有挑战性的航拍场景下取得非常鲁棒的结果。

技术研发人员:李映;尹霄越;朱奕昕;薛希哲
受保护的技术使用者:西北工业大学
技术研发日:2020.01.10
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-9976.html

最新回复(0)