一种具有长时序记忆的视频动作检测的方法及设备与流程

专利2026-03-09 65

本技术涉及人工智能领域，尤其涉及一种具有长时序记忆的视频动作检测的方法及设备。

背景技术：

1、随着计算机技术的不断发展，基于人体关键点的动作识别在人机交互、运动分析、智能监控等领域有着广泛的应用。在实际应用中，需要一些视频动作检测的操作，而动作检测是指利用视频中的空间特征和时序特征进行建模，从而使模型可以完成对视频中人物动作的检测任务和分类任务。通用的动作检测方式：

2、1)基于卷积神经网络(cnn)动作管道检测方式：通过3d卷积串联完成视频片段的特征提取，对于目标检测的候选框做3d延伸，生成对于一段视频的候选动作管道，根据管道内的特征进行动作标签预测。

3、该方式的缺点是：虽然cnn更加擅长于处理空间信息，但是人类动作是空间信息和时序信息的结合，所以基于cnn的方法大多需要双流结构或者光流信息，导致训练和推理需要的资源投入远超实际的产出，而且由于不能端到端学习，所以往往无法找到全局最优。

4、3)运用attention的动作管道检测方式：使用attention完成时空信息和时序信息的提取和融合，得到特征之间的关系并用人物框匹配算法得到动作在视频中的路径和时间定位结构。

5、该方式的缺点是：虽然实现了端到端训练，但是在计算自注意力时需要大量的资源，模型只能局限在3秒(90帧)左右的视频片段，导致模型长时序动作识别的效果很差。

技术实现思路

1、本技术的一个目的是提供一种具有长时序记忆的视频动作检测的方法及设备，解决现有技术中模型无法兼顾长时序动作检测的精确度和效率的问题。

2、根据本技术的一个方面，提供了一种具有长时序记忆的视频动作检测的方法，该方法包括：

3、对待检测的视频片段进行时序采样，对采样后的视频数据进行处理，根据处理后的视频数据和初始化的目标张量得到输入张量，其中，所述输入张量包括键张量、值张量和查询张量；

4、将所述输入张量输入到多头自注意力模块中，将输出张量输入记忆张量模块中，从所述记忆张量模块中得到的记忆矩阵的值初始化查询张量，得到记忆查询张量；

5、将记忆查询张量、键张量和值张量输入到交叉注意力模块中，得到输出特征，其中，所述输出特征包括视频序列特征张量和目标张量；

6、将输出特征中的视频序列特征张量和目标张量进行分离，将分离出的目标张量输入到全连接层中进行分类和回归，得到视频动作检测的识别结果。

7、可选地，对采样后的视频数据进行处理，根据处理后的视频数据和初始化的目标张量得到输入张量，包括：

8、对采样后的视频数据进行切割，切割成三维视频块序列；

9、根据三维视频块序列和初始化的一个目标张量确定输入张量。

10、可选地，根据三维视频块序列和初始化的一个目标张量确定输入张量，包括：

11、使用可训练的线性投影将所述三维视频块序列映射到指定的维度空间，得到特征图；

12、初始化一个目标张量，由预设的一段视频的最多对象目标个数以及指定的维度确定目标张量的形状；

13、将所述特征图与所述目标张量进行拼接，得到一份张量；

14、复制成三份张量，将三份张量分别作为键张量、值张量和查询张量。

15、可选地，将所述输入张量输入到所述多头自注意力模块中，包括：

16、初始化形状与输入张量相同的位置编码张量，将位置编码张量加在键张量和查询张量上，得到加码后的键张量和加码后的查询张量；

17、将加码后的键张量、加码后的查询张量以及值张量输入多头自注意力模块中，得到输出张量。

18、可选地，从所述记忆张量模块中得到的记忆矩阵的值初始化查询张量，包括：

19、对同一段的视频片段，初始化一个记忆矩阵，将所述记忆矩阵用于保存多头自注意力层模块中得到的视频特征；

20、根据多头自注意力模块的输出张量进行更新记忆矩阵；

21、获取更新后的记忆矩阵的值，根据获取到的值初始化加码后的查询张量，得到记忆查询张量。

22、可选地，根据多头自注意力模块的输出张量进行更新记忆矩阵，包括：

23、对多头自注意力模块的输出张量进行分离，去掉输入张量中的目标张量，得到目标尺寸的特征图；

24、将所述目标尺寸的特征图进行时间方向上的采样，将采样后的特征图拼接在记忆矩阵后面；

25、将拼接后的矩阵中最前面的指定个数的特征进行移除，保持与初始化的记忆矩阵的形状相同，得到更新后的记忆矩阵。

26、可选地，将记忆查询张量、键张量和值张量输入到交叉注意力模块中，包括：

27、将记忆查询张量进行线性变换，得到查询矩阵；

28、对值张量和加码后的键张量分别进行线性变换，得到值矩阵和键矩阵；

29、对查询矩阵和键矩阵计算点积，将点积结果除以缩放因子，接着进行softmax操作和dropout操作，得到交叉注意力的权重；

30、将交叉注意力的权重与值矩阵相乘，得到输出特征。

31、可选地，将输出特征中的视频序列特征张量和目标张量进行分离，包括：

32、将输出特征与输入张量中的特征进行残差计算，得到目标特征图；

33、构造transformer解码器，其中，所述transformer解码器包括多头自注意力模块、交叉注意力模块及记忆张量模块；

34、将所述目标特征图输入到与transformer解码器连接的全连接层中，得到指定尺寸的输出特征；

35、将指定尺寸的输出特征经过transformer解码器进行指定次数处理，对指定尺寸的输出特征中的视频序列特征张量和目标张量进行分离，得到目标张量。

36、可选地，将分离出的目标张量输入到全连接层中进行分类和回归，包括：

37、将分离出的目标张量输入全连接层，得到第一尺寸的特征；

38、对所述第一尺寸的特征输入全连接层和非线性relu层，得到分类分支的输出；

39、将目标张量输入全连接层和非线性relu层，得到新的第一尺寸的特征；

40、将所述新的第一尺寸的特征输入全连接层和非线性relu层，得到第二尺寸的特征；

41、将所述第二尺寸的特征输入全连接层和非线性sigmoid层，作为回归分支的输出。

42、根据本技术又一个方面，还提供了一种具有长时序记忆的视频动作检测的设备，所述设备包括：

43、一个或多个处理器；以及

44、存储有计算机可读指令的存储器，所述计算机可读指令在被执行时使所述处理器执行如前述所述方法的操作。

45、根据本技术再一个方面，还提供了一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如前述所述的方法。

46、与现有技术相比，本技术通过对待检测的视频片段进行时序采样，对采样后的视频数据进行处理，根据处理后的视频数据和初始化的目标张量得到输入张量，其中，所述输入张量包括键张量、值张量和查询张量；将所述输入张量输入到多头自注意力模块中，将输出张量输入记忆张量模块中，从所述记忆张量模块中得到的记忆矩阵的值初始化查询张量，得到记忆查询张量；将记忆查询张量、键张量和值张量输入到交叉注意力模块中，得到输出特征，其中，所述输出特征包括视频序列特征张量和目标张量；将输出特征中的视频序列特征张量和目标张量进行分离，将分离出的目标张量输入到全连接层中进行分类和回归，得到视频动作检测的识别结果。对历史视频片段具有记忆，提升识别效果，并不需要更多的计算资源。

技术特征：

1.一种具有长时序记忆的视频动作检测的方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，对采样后的视频数据进行处理，根据处理后的视频数据和初始化的目标张量得到输入张量，包括：

3.根据权利要求2所述的方法，其特征在于，根据三维视频块序列和初始化的一个目标张量确定输入张量，包括：

4.根据权利要求1所述的方法，其特征在于，将所述输入张量输入到所述多头自注意力模块中，包括：

5.根据权利要求4所述的方法，其特征在于，从所述记忆张量模块中得到的记忆矩阵的值初始化查询张量，包括：

6.根据权利要求5所述的方法，其特征在于，根据多头自注意力模块的输出张量进行更新记忆矩阵，包括：

7.根据权利要求5所述的方法，其特征在于，将记忆查询张量、键张量和值张量输入到交叉注意力模块中，包括：

8.根据权利要求1所述的方法，其特征在于，将输出特征中的视频序列特征张量和目标张量进行分离，包括：

9.根据权利要求8所述的方法，其特征在于，将分离出的目标张量输入到全连接层中进行分类和回归，包括：

10.一种具有长时序记忆的视频动作检测的设备，其特征在于，所述设备包括：

11.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现如权利要求1至9中任一项所述的方法。

技术总结
本申请的目的是提供一种具有长时序记忆的视频动作检测的方法及设备，本申请通过对待检测的视频片段进行时序采样，对采样后的视频数据进行处理，根据处理后的视频数据和初始化的目标张量得到输入张量，其中，所述输入张量包括键张量、值张量和查询张量；将输入张量输入到多头自注意力模块中，将输出张量输入记忆张量模块中，从所述记忆张量模块中得到的记忆矩阵的值初始化查询张量，得到记忆查询张量；将记忆查询张量、键张量和值张量输入到交叉注意力模块中，得到输出特征；将输出特征分离出的目标张量进行分类和回归，得到视频动作检测的识别结果。提升识别效果，并不需要更多的计算资源。

技术研发人员：武嘉妮
受保护的技术使用者：上海蜜度科技股份有限公司
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-439602.html

专利

最新回复(0)