基于可见光热红外融合的多目标跟踪方法及系统

专利2026-04-05 24

本发明涉及深度学习，尤其涉及多模态多目标跟踪。

背景技术：

1、多目标跟踪是计算机视觉领域的一项基本任务，旨在分析视频以识别和跟踪属于一个或多个类别的对象，如人、机动车、动物和无生命的物体，没有任何先验的目标外观和目标数量。由于其在视频分析、自动驾驶等现实世界场景中的工程实用性，越来越受到计算机视觉界的关注。近几年多目标跟踪取得了显著进步，然而它仍然面临着巨大的挑战。目前绝大多数主流跟踪器是基于可见光图像的，由于可见光成像的局限性，在低照度、烟雾和雾霾等复杂环境中，这些跟踪器的跟踪性能表面的并不是特别稳定。为了应对这些挑战，集成可见光和热红外数据已成为一种很有前途的解决方案。可见光图像能够提供丰富的颜色和纹理信息，但在低照度和雾霾的环境中数据质量较差，相反，热红外数据在这种环境中能够表现出良好的质量，但缺乏颜色和纹理信息。大量研究证明，集成可见光和热红外数据能够显著提高单目标跟踪、语义分割、显著性检测和目标检测等视觉任务的性能，如论文《quality-aware aggregation network for robust rgbt tracking》(yabin zhu，chenglong li，jin tang，and bin luo，ieee transactions on intelligent vehicles6,1(2020))通过集成可见光和热红外数据显著提高的单目标跟踪的性能，但该单目标跟踪方法通常无法分析和利用时间信息来关联多个目标。

2、目前，大多数目标跟踪技术都是基于可见光数据实现的，探索将可见光和热红外数据融合用于多目标跟踪的技术较少，现有技术中，公开号为cn116993781a的中国发明专利申请《基于监控场景的多模态视觉跟踪方法以及系统》中先提取可见光和热红外两个模态的共有特征，再提取这两个模态独立的特征，最后进行融合。但这种简单的将可见光和热红外数据进行集成并不能提供有效的判别性特征，由此无法显著保持多目标跟踪在复杂环境中的稳健性。

技术实现思路

1、本发明所要解决的技术问题在于如何提高复杂环境中多目标跟踪的稳健性。

2、本发明是通过以下技术方案解决上述技术问题的：基于可见光热红外融合的多目标跟踪方法，所述方法包括：

3、基于可见光相机进行数据采集，获得当前帧和前一帧的可见光图像；基于热红外相机进行数据采集，获得当前帧和前一帧的热红外图像；

4、将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取，获得当前帧、前一帧的可见光特征和热红外特征以及前一帧热图特征；

5、以前一帧热图特征为位置条件，对当前帧、前一帧的可见光特征和热红外特征分别进行时间特征融合，获得可见光时间特征和热红外时间特征，将可见光时间特征和热红外时间特征相加获得初始多模态特征，以初始多模态特征为桥接特征，将可见光时间特征和热红外时间特征分别与初始多模态特征进行交互，获得增强的模态特定特征和增强的多模态特征，合并增强的模态特定特征和增强的多模态特征，输入前馈神经网络，再经过归一化处理，获得细化多模态特征；

6、将细化多模态特征输入到基线centertrack跟踪网络，获得多目标跟踪结果。

7、本发明将可见光和热红外数据融合用于多目标跟踪，提出一种渐进式融合的多模态多目标跟踪框架pftrack，该框架以渐进的方式有效融合可见光模态和热红外模态的时间信息和互补信息，实现了跟踪器在复杂场景下对多目标的稳健跟踪。

8、优选的，所述可见光相机和热红外相机是手持设备或无人机或监控平台。

9、优选的，所述卷积神经网络包括7×7卷积层、批量归一化和校正线性单元。

10、优选的，所述将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取的过程包括：当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入7×7卷积层，获得高宽不变、通道数为16的特征图，将当前帧、前一帧的可见光特征图和热红外特征图以及前一帧的热图划分成16×16大小的图像块并平面化成序列，获得当前帧、前一帧的可见光特征序列和热红外特征序列以及前一帧热图特征序列。

11、优选的，所述对当前帧、前一帧的可见光特征进行时间特征融合的过程，与对当前帧、前一帧的热红外特征进行时间特征融合的过程相同，包括：

12、将当前帧的可见光特征前一帧的可见光特征输入到交叉注意力模块进行融合，得到融合后的可见光特征的中间值一xv；

13、将融合后的可见光特征的中间值一xv与当前帧的可见光特征相加后进行归一化处理，归一化处理后的值与前一帧热图特征相加，得到融合后的可见光特征的中间值二

14、将融合后的可见光特征的中间值二输入前馈网络，输出值与融合后的可见光特征的中间值二相加后再进行归一化处理，得到最终的可见光时间特征

15、优选的，所述获得细化多模态特征的过程包括：

16、将可见光时间特征和热红外时间特征相加获得初始多模态特征xf；

17、以初始多模态特征xf为键和值，可见光时间特征为查询输入交叉注意力模块进行融合得到增强的模态特定特征一以初始多模态特征xf为键和值，热红外时间特征为查询输入交叉注意力模块进行融合得到增强的模态特定特征二以可见光时间特征为键和值，初始多模态特征xf为查询输入交叉注意力模块进行融合得到增强的多模态特征一以热红外时间特征为键和值，初始多模态特征xf为查询输入交叉注意力模块进行融合得到增强的多模态特征二

18、以增强的模态特定特征一增强的模态特定特征二增强的多模态特征一增强的多模态特征二构造多维数组，得到多模态特征将多模态特征输入前馈网络，输出值进行归一化处理，获得最终的细化多模态特征

19、本发明还提供基于可见光热红外融合的多目标跟踪系统，所述系统包括：

20、数据采集模块，用于基于可见光相机进行数据采集，获得当前帧和前一帧的可见光图像；基于热红外相机进行数据采集，获得当前帧和前一帧的热红外图像；

21、特征提取模块，用于将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取，获得当前帧、前一帧的可见光特征和热红外特征以及前一帧热图特征；

22、渐进融合模块，用于以前一帧热图特征为位置条件，对当前帧、前一帧的可见光特征和热红外特征分别进行时间特征融合，获得可见光时间特征和热红外时间特征，将可见光时间特征和热红外时间特征相加获得初始多模态特征，以初始多模态特征为桥接特征，将可见光时间特征和热红外时间特征分别与初始多模态特征进行融合，获得增强的模态特定特征和增强的多模态特征，合并增强的模态特定特征和增强的多模态特征，输入前馈神经网络，再经过归一化处理，获得细化多模态特征；

23、数据处理模块，用于将细化多模态特征输入到基线centertrack跟踪网络，获得多目标跟踪结果。

24、优选的，所述特征提取模块中将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取的过程包括：当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入7×7卷积层，获得高宽不变、通道数为16的特征图，将当前帧、前一帧的可见光特征图和热红外特征图以及前一帧的热图划分成16×16大小的图像块并平面化成序列，获得当前帧、前一帧的可见光特征序列和热红外特征序列以及前一帧热图特征序列，作为渐进融合模块的输入特征。

25、优选的，所述渐进融合模块中对当前帧、前一帧的可见光特征进行时间特征融合的过程，与对当前帧、前一帧的热红外特征进行时间特征融合的过程相同，包括：

26、将当前帧的可见光特征前一帧的可见光特征输入到交叉注意力模块进行融合，得到融合后的可见光特征的中间值一xv；

27、将融合后的可见光特征的中间值一xv与当前帧的可见光特征相加后进行归一化处理，归一化处理后的值与前一帧热图特征相加，得到融合后的可见光特征的中间值二

28、将融合后的可见光特征的中间值二输入前馈网络，输出值与融合后的可见光特征的中间值二相加后再进行归一化处理，得到最终的可见光时间特征

29、优选的，所述渐进融合模块中获得细化多模态特征的过程包括：

30、将可见光时间特征和热红外时间特征相加获得初始多模态特征xf；

31、以初始多模态特征xf为键和值，可见光时间特征为查询输入交叉注意力模块进行融合得到增强的模态特定特征一以初始多模态特征xf为键和值，热红外时间特征为查询输入交叉注意力模块进行融合得到增强的模态特定特征二以可见光时间特征为键和值，初始多模态特征xf为查询输入交叉注意力模块进行融合得到增强的多模态特征一以热红外时间特征为键和值，初始多模态特征xf为查询输入交叉注意力模块进行融合得到增强的多模态特征二

32、以增强的模态特定特征一增强的模态特定特征二增强的多模态特征一增强的多模态特征二构造多维数组，得到多模态特征将多模态特征输入前馈网络，输出值进行归一化处理，获得最终的细化多模态特征

33、本发明提供的优点在于：

34、1、本发明将可见光和热红外数据融合用于多目标跟踪，提出一种渐进式融合的多模态多目标跟踪框架pftrack，该框架以渐进的方式有效融合可见光模态和热红外模态的时间信息和互补信息，在渐进式融合的第一个融合阶段，采用了一种不依赖于相邻帧的严格空间对齐的注意力机制来很好地整合时间信息，在渐进式融合模块的第二融合阶段，使用加法运算来获得粗糙的多模态特征，该特征被用作与单模态特征相互作用的桥接特征，避免了单模态特征直接交互所带来的问题，实现了跟踪器在复杂场景下对多目标的稳健跟踪。

35、2、本发明在渐进式融合的第一个融合阶段，通过交叉注意力模块来融合当前帧和前一帧的特征，以捕捉时空上下文信息。为了增强目标的定位能力，将前一帧的热图作为位置条件，并将其集成到融合的特征中，最终通过前馈网络获得最终的时间特征，以增强目标特征的表示。

36、3、本发明在渐进式融合的第二个融合阶段，使用四个交叉注意力模块来交互融合特征和单模态特征，以进一步增强融合特征和模态特定特征。最后将从这四种相互作用中获得的增强特征连接起来，并将其馈送到前馈神经网络中，以获得强大的多模态特征表示。

37、4、本发明可见光图像和热红外图像均可以通过手持设备、无人机和监控平台收集，收集的数据集包括来自不同角度和环境条件的数据，组合这些不同来源的数据，可以进一步增强跟踪器的稳健性和泛化能力，使其能够适应各种复杂的应用场景。

技术特征：

1.基于可见光热红外融合的多目标跟踪方法，其特征在于：所述方法包括：

2.根据权利要求1所述的基于可见光热红外融合的多目标跟踪方法，其特征在于：所述可见光相机和热红外相机是手持设备或无人机或监控平台。

3.根据权利要求1所述的基于可见光热红外融合的多目标跟踪方法，其特征在于：所述卷积神经网络包括7×7卷积层、批量归一化和校正线性单元。

4.根据权利要求3所述的基于可见光热红外融合的多目标跟踪方法，其特征在于：所述将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取的过程包括：当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入7×7卷积层，获得高宽不变、通道数为16的特征图，将当前帧、前一帧的可见光特征图和热红外特征图以及前一帧的热图划分成16×16大小的图像块并平面化成序列，获得当前帧、前一帧的可见光特征序列和热红外特征序列以及前一帧热图特征序列。

5.根据权利要求1所述的基于可见光热红外融合的多目标跟踪方法，其特征在于：所述对当前帧、前一帧的可见光特征进行时间特征融合的过程，与对当前帧、前一帧的热红外特征进行时间特征融合的过程相同，包括：

6.根据权利要求5所述的基于可见光热红外融合的多目标跟踪方法，其特征在于：所述获得细化多模态特征的过程包括：

7.基于可见光热红外融合的多目标跟踪系统，其特征在于：所述系统包括：

8.根据权利要求7所述的基于可见光热红外融合的多目标跟踪系统，其特征在于：所述特征提取模块中将当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入卷积神经网络进行特征提取的过程包括：当前帧、前一帧的可见光图像和热红外图像以及前一帧的热图分别输入7×7卷积层，获得高宽不变、通道数为16的特征图，将当前帧、前一帧的可见光特征图和热红外特征图以及前一帧的热图划分成16×16大小的图像块并平面化成序列，获得当前帧、前一帧的可见光特征序列和热红外特征序列以及前一帧热图特征序列，作为渐进融合模块的输入特征。

9.根据权利要求7所述的基于可见光热红外融合的多目标跟踪系统，其特征在于：所述渐进融合模块中对当前帧、前一帧的可见光特征进行时间特征融合的过程，与对当前帧、前一帧的热红外特征进行时间特征融合的过程相同，包括：

10.根据权利要求7所述的基于可见光热红外融合的多目标跟踪系统，其特征在于：所述渐进融合模块中获得细化多模态特征的过程包括：

技术总结
本发明提供了基于可见光热红外融合的多目标跟踪方法，属于深度学习领域，获得当前帧、前一帧的可见光图像和热红外图像；将其和前一帧的热图分别输入卷积神经网络，获得当前帧、前一帧的可见光特征和热红外特征以及前一帧热图特征；以前一帧热图特征为位置条件，进行时间特征融合获得可见光时间特征和热红外时间特征，将可见光时间特征和热红外时间特征相加获得初始多模态特征，与初始多模态特征进行交互，获得增强的模态特定特征和多模态特征，合并，输入前馈神经网络获得细化多模态特征；输入跟踪网络获得跟踪结果，提供基于可见光热红外融合的多目标跟踪系统；融合可见光和热红外模态的时间信息和互补信息，提高复杂环境中多目标跟踪的稳健性。

技术研发人员：李成龙,王谦武,朱亚彬
受保护的技术使用者：安徽大学
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-439673.html

专利

最新回复(0)