行为识别方法、装置、电子设备及存储介质与流程

专利2025-12-22 16

本技术涉及人工智能，特别是涉及一种行为识别方法、装置、电子设备及存储介质。

背景技术：

1、随着人工智能技术的迅速发展，行为识别技术成为了热度较高的研究方向。行为识别旨在解决在视频监控等场景下，自动识别视频中存在的目标行为(比如打架斗殴行为等)。

2、现有的行为识别算法，通常采用3dcnn(three dimensional convolutionalneural network，三维卷积神经网络)进行时空建模，然而随着网络层数的增加，三维卷积所带来的参数量和计算量也会逐渐递增，对实时视频检测提出了巨大挑战，此外，卷积有限的感受野限制了其捕捉序列中远距离依赖关系，无法通过一次操作来考虑到整个序列的上下文信息。因此，现有的行为识别算法的复杂度较高，准确度较低。

技术实现思路

1、鉴于上述问题，本技术实施例提出了一种行为识别方法、装置、电子设备及存储介质，用以降低行为识别的复杂度，提高行为识别的准确度。

2、根据本技术的实施例的一个方面，提供了一种行为识别方法，所述方法包括：

3、获取待识别视频序列；

4、将所述待识别视频序列输入预先训练的行为识别模型，在所述行为识别模型中，对所述待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述待识别视频序列的预测识别结果，所述行为识别模型输出所述待识别视频序列的预测识别结果；

5、基于所述待识别视频序列的预测识别结果，确定行为识别结果。

6、可选地，所述行为识别模型包括串行的特征映射层、通道时空分离算子网络和分类映射层；对所述待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述待识别视频序列的预测识别结果，包括：

7、通过所述特征映射层，对所述待识别视频序列进行通道维度的增加和时空分辨率的降低，得到映射特征序列；

8、通过所述通道时空分离算子网络，对所述映射特征序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到目标特征序列；

9、通过所述分类映射层，对所述目标特征序列进行分类解析，得到所述待识别视频序列的预测识别结果。

10、可选地，所述通道时空分离算子网络包括串行的至少一个第一通道时空分离算子网络以及第二通道时空分离算子网络；通过所述通道时空分离算子网络，对所述映射特征序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到目标特征序列，包括：

11、通过所述第一通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到中间特征序列；

12、通过所述第二通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合，得到所述目标特征序列。

13、可选地，所述第一通道时空分离算子网络包括串行的至少一个第一通道时空分离算子以及第二通道时空分离算子；通过所述第一通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到中间特征序列，包括：

14、通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列；

15、通过所述第二通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述中间特征序列。

16、可选地，所述第一通道时空分离算子包括第一通道分离层、第一时空深度可分离卷积块、第一时空分离变换器transformer块和第一通道重组层；通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列，包括：

17、通过所述第一通道分离层，对自身的输入进行分割，得到第一分支特征序列和第二分支特征序列；

18、通过所述第一时空深度可分离卷积块，对所述第一分支特征序列进行局部特征的提取，得到第一局部特征序列；

19、通过所述第一时空分离transformer块，对所述第二分支特征序列进行全局特征的提取，得到第一全局特征序列；

20、通过所述第一通道重组层，对所述第一局部特征序列与所述第一全局特征序列进行融合，得到所述临时特征序列。

21、可选地，所述第一时空深度可分离卷积块包括串行的第一时间卷积层和第一空间卷积层；所述第一空间卷积层包括串行的普通卷积层、第一深度卷积层、普通卷积层和残差连接层；所述第一深度卷积层的步长为1；所述第一时空分离transformer块包括串行的第一时间注意力层和第一空间注意力层；所述第一空间注意力层包括串行的层次归一化层、空间多头自注意力层、残差连接层、层次归一化层、多层感知器和残差连接层。

22、可选地，所述第二通道时空分离算子包括第二通道分离层、第二时空深度可分离卷积块、第二时空分离变换器transformer块和第二通道重组层；通过所述第二通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述中间特征序列，包括：

23、通过所述第二通道分离层，对自身的输入进行复制，得到第三分支特征序列和第四分支特征序列；

24、通过所述第二时空深度可分离卷积块，对所述第三分支特征序列进行局部特征的提取以及时空分辨率下采样，得到第二局部特征序列；

25、通过所述第二时空分离transformer块，对所述第四分支特征序列进行全局特征的提取以及时空分辨率下采样，得到第二全局特征序列；

26、通过所述第二通道重组层，对所述第二局部特征序列与所述第二全局特征序列进行融合，得到所述中间特征序列。

27、可选地，所述第二时空深度可分离卷积块包括第二时间卷积层和第二空间卷积层；所述第二空间卷积层包括串行的普通卷积层、第二深度卷积层、普通卷积层和残差连接层；所述第二深度卷积层的步长大于1；所述第二时空分离transformer块包括第二时间注意力层和第二空间注意力层；所述第二空间注意力层包括串行的层次归一化层、卷积层、空间多头自注意力层、残差连接层、层次归一化层、多层感知器和残差连接层。

28、可选地，所述第二通道时空分离算子网络包括串行的至少一个第一通道时空分离算子；通过所述第二通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合，得到所述目标特征序列，包括：

29、通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列；其中，最后一个第一通道时空分离算子得到的临时特征序列为所述目标特征序列。

30、可选地，所述行为识别模型通过如下方式训练：

31、获取样本集，所述样本集包括训练集、验证集和测试集；

32、利用所述样本集对待训练的行为识别模型进行训练和评估，得到所述行为识别模型；

33、其中，所述待训练的行为识别模型的输入为所述样本集中的样本视频序列，在所述待训练的行为识别模型中，对所述样本视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述样本视频序列的预测识别结果，所述待训练的行为识别模型的输出为所述样本视频序列的预测识别结果。

34、可选地，基于所述待识别视频序列的预测识别结果，确定行为识别结果，包括：

35、在所述待识别视频序列为一个的情况下，将所述待识别视频序列的预测识别结果，确定为所述行为识别结果；

36、在所述待识别视频序列为多个的情况下，将多个所述待识别视频序列的预测识别结果的平均值，确定为所述行为识别结果。

37、根据本技术的实施例的另一方面，提供了一种行为识别装置，所述装置包括：

38、获取模块，用于获取待识别视频序列；

39、识别模块，用于将所述待识别视频序列输入预先训练的行为识别模型，在所述行为识别模型中，对所述待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述待识别视频序列的预测识别结果，所述行为识别模型输出所述待识别视频序列的预测识别结果；

40、确定模块，用于基于所述待识别视频序列的预测识别结果，确定行为识别结果。

41、可选地，所述行为识别模型包括串行的特征映射层、通道时空分离算子网络和分类映射层；所述识别模块包括：

42、映射子模块，用于通过所述特征映射层，对所述待识别视频序列进行通道维度的增加和时空分辨率的降低，得到映射特征序列；

43、处理子模块，用于通过所述通道时空分离算子网络，对所述映射特征序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到目标特征序列；

44、分类子模块，用于通过所述分类映射层，对所述目标特征序列进行分类解析，得到所述待识别视频序列的预测识别结果。

45、可选地，所述通道时空分离算子网络包括串行的至少一个第一通道时空分离算子网络以及第二通道时空分离算子网络；所述处理子模块包括：

46、第一处理单元，用于通过所述第一通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到中间特征序列；

47、第二处理单元，用于通过所述第二通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合，得到所述目标特征序列。

48、可选地，所述第一通道时空分离算子网络包括串行的至少一个第一通道时空分离算子以及第二通道时空分离算子；所述第一处理单元包括：

49、第一处理子单元，用于通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列；

50、第二处理子单元，用于通过所述第二通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述中间特征序列。

51、可选地，所述第一通道时空分离算子包括第一通道分离层、第一时空深度可分离卷积块、第一时空分离变换器transformer块和第一通道重组层；所述第一处理子单元，具体用于：

52、通过所述第一通道分离层，对自身的输入进行分割，得到第一分支特征序列和第二分支特征序列；

53、通过所述第一时空深度可分离卷积块，对所述第一分支特征序列进行局部特征的提取，得到第一局部特征序列；

54、通过所述第一时空分离transformer块，对所述第二分支特征序列进行全局特征的提取，得到第一全局特征序列；

55、通过所述第一通道重组层，对所述第一局部特征序列与所述第一全局特征序列进行融合，得到所述临时特征序列。

56、可选地，所述第一时空深度可分离卷积块包括串行的第一时间卷积层和第一空间卷积层；所述第一空间卷积层包括串行的普通卷积层、第一深度卷积层、普通卷积层和残差连接层；所述第一深度卷积层的步长为1；所述第一时空分离transformer块包括串行的第一时间注意力层和第一空间注意力层；所述第一空间注意力层包括串行的层次归一化层、空间多头自注意力层、残差连接层、层次归一化层、多层感知器和残差连接层。

57、可选地，所述第二通道时空分离算子包括第二通道分离层、第二时空深度可分离卷积块、第二时空分离变换器transformer块和第二通道重组层；所述第二处理子单元，具体用于：

58、通过所述第二通道分离层，对自身的输入进行复制，得到第三分支特征序列和第四分支特征序列；

59、通过所述第二时空深度可分离卷积块，对所述第三分支特征序列进行局部特征的提取以及时空分辨率下采样，得到第二局部特征序列；

60、通过所述第二时空分离transformer块，对所述第四分支特征序列进行全局特征的提取以及时空分辨率下采样，得到第二全局特征序列；

61、通过所述第二通道重组层，对所述第二局部特征序列与所述第二全局特征序列进行融合，得到所述中间特征序列。

62、可选地，所述第二时空深度可分离卷积块包括第二时间卷积层和第二空间卷积层；所述第二空间卷积层包括串行的普通卷积层、第二深度卷积层、普通卷积层和残差连接层；所述第二深度卷积层的步长大于1；所述第二时空分离transformer块包括第二时间注意力层和第二空间注意力层；所述第二空间注意力层包括串行的层次归一化层、卷积层、空间多头自注意力层、残差连接层、层次归一化层、多层感知器和残差连接层。

63、可选地，所述第二通道时空分离算子网络包括串行的至少一个第一通道时空分离算子；所述第二处理单元，具体用于通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列；其中，最后一个第一通道时空分离算子得到的临时特征序列为所述目标特征序列。

64、可选地，所述行为识别模型通过如下方式训练：

65、获取样本集，所述样本集包括训练集、验证集和测试集；

66、利用所述样本集对待训练的行为识别模型进行训练和评估，得到所述行为识别模型；

67、其中，所述待训练的行为识别模型的输入为所述样本集中的样本视频序列，在所述待训练的行为识别模型中，对所述样本视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述样本视频序列的预测识别结果，所述待训练的行为识别模型的输出为所述样本视频序列的预测识别结果。

68、可选地，所述确定模块，具体用于在所述待识别视频序列为一个的情况下，将所述待识别视频序列的预测识别结果，确定为所述行为识别结果；在所述待识别视频序列为多个的情况下，将多个所述待识别视频序列的预测识别结果的平均值，确定为所述行为识别结果。

69、根据本技术的实施例的另一方面，提供了一种电子设备，包括：一个或多个处理器；和其上存储有指令的一个或多个计算机可读存储介质；当所述指令由所述一个或多个处理器执行时，使得所述处理器执行如上任一项所述的行为识别方法。

70、根据本技术的实施例的另一方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行如上任一项所述的行为识别方法。

71、本技术实施例中，获取待识别视频序列；将所述待识别视频序列输入预先训练的行为识别模型，在所述行为识别模型中，对所述待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述待识别视频序列的预测识别结果，所述行为识别模型输出所述待识别视频序列的预测识别结果；基于所述待识别视频序列的预测识别结果，确定行为识别结果。由此可知，本技术实施例中，通过对待识别视频序列进行局部特征和全局特征的分开提取之后再融合的方式，可以降低网络的参数量和计算量，通过动态调整待识别视频序列的通道维度和时空分辨率的方式，实现了从高时空分辨率、低通道容量到低时空分辨率、高通道容量的变化，既降低了模型计算量，又可以在处理不同分辨率的特征时保持良好的性能，从而提高了行为识别的准确度。

技术特征：

1.一种行为识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述行为识别模型包括串行的特征映射层、通道时空分离算子网络和分类映射层；对所述待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述待识别视频序列的预测识别结果，包括：

3.根据权利要求2所述的方法，其特征在于，所述通道时空分离算子网络包括串行的至少一个第一通道时空分离算子网络以及第二通道时空分离算子网络；通过所述通道时空分离算子网络，对所述映射特征序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到目标特征序列，包括：

4.根据权利要求3所述的方法，其特征在于，所述第一通道时空分离算子网络包括串行的至少一个第一通道时空分离算子以及第二通道时空分离算子；通过所述第一通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到中间特征序列，包括：

5.根据权利要求4所述的方法，其特征在于，所述第一通道时空分离算子包括第一通道分离层、第一时空深度可分离卷积块、第一时空分离变换器transformer块和第一通道重组层；通过所述第一通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合，得到临时特征序列，包括：

6.根据权利要求5所述的方法，其特征在于，

7.根据权利要求4所述的方法，其特征在于，所述第二通道时空分离算子包括第二通道分离层、第二时空深度可分离卷积块、第二时空分离变换器transformer块和第二通道重组层；通过所述第二通道时空分离算子，对自身的输入进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到所述中间特征序列，包括：

8.根据权利要求7所述的方法，其特征在于，

9.根据权利要求3所述的方法，其特征在于，所述第二通道时空分离算子网络包括串行的至少一个第一通道时空分离算子；通过所述第二通道时空分离算子网络，对自身的输入进行局部特征和全局特征的提取融合，得到所述目标特征序列，包括：

10.根据权利要求1所述的方法，其特征在于，所述行为识别模型通过如下方式训练：

11.根据权利要求1所述的方法，其特征在于，基于所述待识别视频序列的预测识别结果，确定行为识别结果，包括：

12.一种行为识别装置，其特征在于，所述装置包括：

13.一种电子设备，其特征在于，包括：

14.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，当所述计算机程序被处理器执行时，使得所述处理器执行如权利要求1至11任一项所述的行为识别方法。

技术总结
本申请实施例提供了一种行为识别方法、装置、电子设备及存储介质。行为识别方法包括：获取待识别视频序列；将待识别视频序列输入预先训练的行为识别模型，在行为识别模型中，对待识别视频序列进行局部特征和全局特征的提取融合、以及通道维度的增加和时空分辨率的降低，得到待识别视频序列的预测识别结果，行为识别模型输出待识别视频序列的预测识别结果；基于待识别视频序列的预测识别结果，确定行为识别结果。本申请实施例中，通过对待识别视频序列进行局部特征和全局特征的分开提取之后再融合的方式，可以降低网络的参数量和计算量，通过动态调整待识别视频序列的通道维度和时空分辨率的方式，降低了模型计算量，提高了行为识别的准确度。

技术研发人员：陶江龙,胡治满,于亚洲,陶和平,闫帅,张艺严,申润业
受保护的技术使用者：中国电信股份有限公司
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-436689.html

专利

最新回复(0)