跨模态增强和残差注意的弱监督时序动作定位方法及系统

专利2026-03-08 28

本发明属于计算机视觉领域，涉及一种跨模态增强和残差注意的弱监督时序动作定位方法及系统。

背景技术：

1、随着视频数据的快速增长，如何高效、准确地理解和利用视频内容成为一个亟待解决的问题。弱监督时序动作定位的研究为在大规模视频数据中挖掘有价值信息提供了一种有效的方法，仅使用视频级别的标签进行时间动作定位，简化了数据收集过程。由于缺乏精确的时间边界，wtal现有工作主要遵循定位-分类管道。具体来标签来学习每个输入视频的时序类激活序列，它表示视频中每一帧属于每一个动作类的概率。然后，在测试阶段，可以通过时序类激活序列上的阈值分数来定位视频中动作实例的边界。为了有效区分动作背景，许多研究改进了注意力机制，抑制背景激活分数，突出动作激活分数。还有一些工作利用视频信息生成伪标签来提高类激活序列的质量。虽然这些方法在wtal上取得了显著的改进，但是在提高行动边界预测的准确性上仍然是一个需要解决的问题。

2、一方面，现有方法通常使用预训练模型来提取用于训练的rgb和光流特征，然而这些特征不是为wtal任务训练的，可能存在提取的特征信息无法充分利用或者包含冗余信息，使得得到的类激活序列不准确，进而导致动作片段定位的不完整；另一方面，不同的动作实例长短不一，覆盖的时间跨度存在差异，而用于训练的光流和rgb特征是每16帧为一个片段提取的，无法全面覆盖动作实例，使得时间信息不能得到充分利用，这也会导致边界预测不准确。

技术实现思路

1、本发明的目的是解决弱监督时序动作定位问题，由于预训练模型提取的用于训练的rgb和光流特征不是为wtal任务训练的，可能存在提取的特征信息无法充分利用或者包含冗余信息，导致动作片段定位的不完整。本发明提出一种跨模态增强和残差注意的弱监督时序动作定位方法及系统，用于解决初始特征不适配该任务导致有效信息无法充分利用的问题。通过协同增强rgb和光流特征，同时有效利用时间信息生成更准确的类激活序列，从而更好地促进弱监督时间动作定位（wtal）任务的定位和分类。

2、本发明的技术方案如下：

3、本发明第一方面，提供一种跨模态增强和残差注意的弱监督时序动作定位方法，包括如下步骤：

4、s1.特征提取：利用预训练的i3d网络对数据集上的rgb和光流片段进行特征提取，得到rgb和光流特征；

5、s2.多头跨模态信息交互：将提取的rgb和光流特征投影生成多头输入得到和光流特征，对每个头部使用一个可学习的权重矩阵并计算其相关性矩阵，通过softmax运算生成跨模态注意力权重，为所有头部重新加权rgb特征和光流特征；

6、s3.基于rgb的跨模态注意增强：将重新加权rgb特征送入跨模态注意模块对rgb特征进一步处理，在跨模态注意模块中，通过学习光流的跨模态信息保持两个模态间的一致性，同时学习rgb模态的全局特征来增强rgb特征；

7、s4.基于光流的残差注意增强：将增强后的rgb和光流特征送入lstm残差注意模块对光流特征进一步处理，充分挖掘时序数据中的依赖关系；

8、s5.双流特征融合与片段级动作分类：将增强后的rgb和光流特征在通道维度进行拼接，得到通道维度为2048的特征，然后使用卷积操作进行特征融合得到融合特征，再将融合特征送入分类模块得到时序类激活序列；

9、s6.视频级动作分类：将得到的时序类激活序列与时间注意权重相乘得到背景抑制的时序类激活序列，使用top-k聚合策略得到视频级动作分类概率，根据阈值来预测视频中所包含的动作类别，训练过程中由视频级类别标签监督。

10、s2具体过程如下：

11、s21.利用一组可学习的权重矩阵来计算不同模态的模态特性的相互关系，此外，将提取的rgb和光流特征投影生成多头输入得到提取的rgb生成多头输入特征和提取的光流特征生成多头输入特征对每个头部使用一个可学习的权重矩阵并计算其相关性矩阵，公式如下：

12、

13、其中，表示的维度是，其中表示的特征维度，表示头的个数，表示一个可学习的权重矩阵，表示转置；

14、然后，通过相关性矩阵逐行进行softmax运算生成rgb特征的跨模态注意权重，通过相关性矩阵的转置的逐行进行softmax运算生成光流的跨模态注意力权重，再为所有头部重新加权rgb特征和光流特征得到和，公式如下：

15、

16、

17、其中，表示所有头部重新加权rgb特征，表示所有头部重新加权光流特征，表示提取的rgb生成多头输入特征，表示提取的光流特征生成多头输入特征，表示gelu激活，表示头的个数；

18、最后，将所有头部重新加权的rgb和光流特征聚合起来，重新校准原始rgb特征和光流特征，得到增强的rgb特征和光流特征，公式如下：

19、),

20、)，

21、其中，表示为所有头重新加权的rgb特征，表示为所有头重新加权的光流特征，concat表示拼接操作，表示双曲正切激活函数。

22、s3具体过程如下：

23、将原始的rgb特征平均池化后与原始的光流模态送入共享的lstm得到rgb共享特征和光流模态共享特征，再将和分别经过sigmoid操作，作为权重与多头跨模态注意模块中输出的rgb特征进行加权，得到增强后的rgb特征以及对应的注意权重，总体公式如下：

24、,

25、,

26、其中，表示激活函数，表示元素乘法，是一个由三个卷积组成的注意模块。

27、s4具体过程如下：

28、经过多头跨模态注意模块初步增强的光流特征作为输入，送入第一层lstm模块，每个lstm模块要经过一个三层lstm和relu操作，再与上一层的lstm模块的输出相加得到，再进行sigmoid操作，然后与特征相乘，得到当前层的输出，然后送入下一个lstm模块进行相同的操作，选择叠加三个lstm残差块，每层lstm残差块的公式如下：

29、

30、，

31、，

32、，

33、其中，表示第一层lstm的输入，表示第一层残差块的输入，表示第n层残差块的输出，表示激活函数，表示第n层lstm残差块的输出，表示第n-1层lstm残差块的输出，表示激活函数，表示元素乘法；

34、把最后一层的输出作为权重与输入特征相乘得到最终增强的光流特征，将每层的输出都送入注意模块生成注意力权重，最终的注意权重为所有加权的平均值，公式如下：

35、

36、

37、其中是每层lstm残差块的注意权重，表示注意模块，表示权重系数。

38、s5具体公式如下：

39、，

40、

41、

42、其中，表示将两个特征在通道维度进行拼接，表示relu激活函数，表示卷积操作，表示时序类激活序列，表示分类器，背景被抑制的时序类激活序列。

43、s6具体如下：

44、分类损失设计如下：

45、，

46、其中，表示视频级分类概率，表示视频级真值标签，表示特征维度，表示动作类的个数；

47、此外，再通过视频级的互补学习损失排除确定性互补类别，减少模糊性，互补学习损失函数设计如下：

48、。

49、另一方面，本发明还提供了一种跨模态增强和残差注意的弱监督时序动作定位系统，包括如下步骤：

50、特征提取单元利用预训练的i3d网络对数据集上的rgb和光流片段进行特征提取，得到rgb和光流特征；

51、特征增强单元包括多头跨模态信息交互模块、基于rgb的跨模态注意增强模块和lstm残差注意模块，多头跨模态信息交互模块将提取的rgb和光流特征投影生成多头输入得到和光流特征，对每个头部使用一个可学习的权重矩阵并计算其相关性矩阵，通过softmax运算生成跨模态注意力权重，为所有头部重新加权rgb特征和光流特征；

52、基于rgb的跨模态注意增强模块把重新加权rgb特征送入跨模态注意模块对rgb特征进一步处理，在跨模态注意模块中，通过学习光流的跨模态信息保持两个模态间的一致性，同时学习rgb模态的全局特征来增强rgb特征；

53、基于光流的残差注意增强模块用于把得到增强的rgb和光流特征送入lstm残差注意模块对光流特征进一步处理，充分挖掘时序数据中的依赖关系，学习到更丰富和复杂的特征表示，增强的光流特征；

54、双流特征融合与片段级动作分类单元具有分类模块，用于把得到的增强的rgb和光流特征在通道维度进行拼接，得到通道维度2048维的特征，使用卷积操作进行特征融合得到融合特征，送入分类模块得到时序类激活序列；

55、视频级动作分类单元将得到的时序类激活序列与时间注意权重相乘得到背景抑制的时序类激活序列，使用top-k聚合策略得到视频级动作分类概率，根据阈值来预测视频中所包含的动作类别，训练过程中由视频级类别标签监督。

56、本发明的优点和有益效果；

57、本发明通过多头跨模态注意模块可以使两个模态的特征相互学习，挖掘不同模态之间的相关性；本发明可以通过增强光流特征的时间信息，捕获时序依赖关系，充分利用时间信息；本发明还乐意对rgb特征进行跨模态一致性增强，通过考虑自身的全局信息以及跨模态局部信息过滤rgb的冗余特征并增强有用信息，利用增强后的rgb和光流特征进行后续的分类得到类激活序列，获得鲁棒的定位和分类特征。

技术特征：

1.一种跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，包括如下步骤：

2. 根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s2具体过程如下：

3.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s3具体过程如下：

4.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s4具体过程如下：

5.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s5具体公式如下：

6.根据权利要求1所述跨模态增强和残差注意的弱监督时序动作定位方法，其特征在于，s6具体如下：

7.一种跨模态增强和残差注意的弱监督时序动作定位系统，其特征在于，包括如下步骤：

技术总结
本发明属于计算机视觉领域，涉及一种跨模态增强和残差注意的弱监督时序动作定位方法及系统。方法包括如下步骤：特征提取；多头跨模态信息交互；基于RGB的跨模态注意增强；基于光流的残差注意增强；双流特征融合与片段级动作分类；视频级动作分类。发明的优点是通过不同模态特征的信息交互学习到跨模态信息，以及学习跨模态信息和模态内全局信息来增强RGB特征，通过捕获序列数据之间的依赖关系增强时间信息。增强后的特征提取到了更多与任务相关的时间与空间信息，因而能够获得更精确的动作定位与分类结果。

技术研发人员：高赞,徐晓艺,赵一博,马春杰,袁立明,薛彦兵
受保护的技术使用者：天津理工大学
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-439564.html

专利

最新回复(0)