一种基于人工智能的视频识别方法及系统与流程

专利2026-04-06 9

本发明属于人工智能的，尤其涉一种基于人工智能的视频识别方法及系统。

背景技术：

1、在当前的技术环境中，视频识别系统已广泛应用于安全监控、内容推荐、交通管理等多个领域，其核心功能是通过计算机视觉技术和深度学习算法对视频内容进行自动解析和识别。传统的视频识别系统通常依赖于卷积神经网络(cnn)或递归神经网络(rnn)来处理视频帧，并识别其中的对象、动作或事件。这些系统能够在标准化的环境中实现较高的准确率，但面对复杂多变的实际应用场景时，仍存在多个不足。例如，传统模型在处理非常复杂或动态变化的背景下的行为时，识别精度会显著下降。此外，大部分现有系统需要依赖大量的标注数据进行训练，这不仅成本高昂，而且在数据标注质量不一的情况下，会进一步影响模型的泛化能力和实用性。此外，现有的视频识别技术在实时性能处理、模型的自适应调整以及未来行为的预测等方面，仍然面临技术挑战。

2、因此，现有技术对于复杂场景的适应性、处理效率以及未标注数据的学习能力都有待提高。

技术实现思路

1、本发明的目的设计一种基于人工智能的视频识别方法及系统，集成多项新技术的智能视频识别与预测解决上述问题。

2、为了达到上述目的，在本发明第一方面提供了基于人工智能的视频识别方法，所述方法包括以下步骤：

3、s1、构建一个基于视频内容分析的自适应框架，根据实时视频帧的复杂性动态调整模型结构和参数；

4、s2、根据模型参数，应用高效的图像预处理技术和深度学习算法，从视频帧中提取特征；其中，所述图像预处理技术包括光照校正和噪声淲除；所述从视频帧中提取特征具体为使用改进的sobel算子提取视频帧的边缘信息，再利用局部二值模式算子分析图像纹理特征，具体为：

5、

6、

7、其中，gx和gy分别表示水平和垂直梯度，g表示最终的边缘强度；

8、

9、其中，gc表示中心像素值，gp表示邻域像素值，p表示邻域中像素的数量；lbp(x,y)表示lbp特征，反映当前像素与其周围邻域的相对强度；(x,y)表示当前像素的水平和垂直的坐标，p表示邻域中像素的总数；lbp(x,y)是在图像坐标(x,y)处计算得到的局部二值模式值；

10、s3、使用生成对抗网络处理视频帧中提取的特征，对关键帧进行风格化得到风格化视频帧，强化视觉上的行为特征，包括：

11、s302、设计特征强调的损失项生成总损失函数对生成网络进行训练，同时在判别网络加入感知层；其中，所述特征强调的损失项表示如下：

12、

13、其中，fk表示针对关键特征k的特征提取函数，k表示预定义的关联特征集合，λk表示与特征k相关的权重，用于调节各特征在总损失中的贡献，i表示原始帧，g(z)表示在输入为隐变量z是生成器g的输出；

14、所述总损失函数表示如下：

15、

16、其中，β表示控制特征强调损失项影响力的超参数，d表示判别器网络；

17、s303、采用渐进式训练方法对生成对抗网络进行训练；

18、s4、根据风格化视频帧，设计混合神经网络进行行为识别和基于历史数据的行为预测；其中，所述混合神经网络包括cnn网络和rnn网络；

19、所述方法还包括以下至少0个步骤：

20、a、整合无监督学习算法，基于实时反馈动态调整s1-s4的模型和参数；

21、b、设立反馈机制，根据用户和性能反馈动态调整策略，持续优化策略执行。

22、进一步地，所述s1具体包括：

23、s101、输入视频帧序列，每一帧视频首先通过一个特定的特征提取子网络进行处理；

24、s102、利用连续两帧间的特征向量差异来评估场景的变化程度，包括：

25、dt＝||vt-vt-1||2

26、其中，dt表示时刻t和t-1之间的帧的内容变化幅度，vt表示t时刻的每帧视频特征向量，vt-1表示t-1时刻的每帧视频特征向量；

27、通过一个固定大小的滑动窗口w计算这些差异的平均值，得到场景复杂度ct：

28、

29、s103、根据ct与预设阈值θ的比较结果，自动调整网络的配置；

30、s104、结合实时性能反馈，利用反向传播算法调整网络权重和结构参数。

31、进一步地，所述光照校正为对输入视频帧应用自动白平衡和曝光补偿，表示如下：

32、

33、其中，i(x,y)是原始像素值，icorr(x,y)是校正后的像素值，imin和imax分别是帧中的最小和最大像素值；

34、所述噪声淲除为应用双边滤波器去除潜在的图像噪声，保持边缘清晰度，表示如下：

35、

36、其中，wp是归一化系数，fr和fs分别是基于强度和空间近似的高斯函数，保证只有邻近且强度相似的像素影响当前像素值，(x,y)表示像素的坐标，(x',y')表示在应用滤波时参与计算的邻近像素的坐标，ifiltered(x,y)表示经过双边滤波处理后的图像在坐标(x,y)的像素值。

37、进一步地，所述生成网络的输入为t时刻的每帧视频特征向量，然后使用多层卷积层，每层后接批标准化和relu激活函数，最后一层使用tanh激活函数输出风格化的图像，表示如下：

38、istyled＝tanh(conv(bn(relu(conv(…vt…)))))

39、所述判别网络的输入包括istyled和原始帧i，使用多层卷积层进行特征提取，每层卷积后接入标准化和leakyrelu激活函数，最后一层使用sigmoid函数输出概率，表示如下：

40、preal＝σ(conv(lrelu(bn(conv(…istyled,i…)))))

41、其中，σ表示sigmoid激活函数。

42、进一步地，所述s303中，渐进式训练方法表示首先在低分辨率上训练网络，逐渐过渡到高分辨率。

43、进一步地，所述混合神经网络包括特征融合层、时序融合层和行为识别与预测输出层；所述特征融合层采用深度卷积网络提取每帧图像的空间特征，表示如下：

44、fspatial＝cnn(istyled)

45、其中，fspatial表示从风格化图像中提取的空间特征向量；

46、所述时序融合层将连续帧的特征向量fspatial作为输入，通过循环神经网络模块处理时间上的依赖和动态变化，表示如下：

47、st＝rnn(fspatial,st-1)

48、其中，st表示时刻t的隐状态，携带了过去视频帧的累积信息；st-1表示时刻t-1的隐状态；

49、所述行为识别与预测输出层结合fspatial和st生成最终的行为识别和行为预测输出，表示如下：

50、yaction＝softmax(dense(st))

51、ypredict＝softmax(dense(st,fspatial))

52、其中，yaction是当前帧的行为识别结果，ypredict是基于当前和过去信息预测未来行为的结果。

53、进一步地，采用交叉熵损失函数来同时优化行为识别和预测的准确性，表示如下：

54、

55、其中，yc是真实行为标签的独热编码，是模型预测的概率分布，c是行为类别数。

56、进一步地，所述步骤a具体包括如下步骤：

57、使用可逆的特征变换技术构建一个特征变换网络f'，从原始视频帧中提取并变换特征；

58、使用基于自编码器的异常检测技术设计重构与异常评分检测视频帧中的异常行为或突出事件；

59、定义总损失函数为重构误差和行为识别误差的加权和，同时引入额外的正则项以增强模型泛化能力和适应性，同时引入基于反馈的动态权重调整机制调整权重；

60、整合动态元素适应变化的视频内容优化特征变换网络；

61、引入模型自适应调整策略，基于当前检测到的行为模式和历史数据，自动调整网络架构或参数。

62、进一步地，所述步骤b具体包括如下步骤：

63、定期收集包括反馈数据，并使用统计分析和机器学习方法对收集的数据进行处理；

64、基于反馈数据，定义参数调整策略和根据模型的性能变化动态调整学习率；

65、周期性进行全面评估并根据评估结果更新模型的运行参数，反馈给运行参数调整函数和学习率更新策略。

66、在本发明的第二方面提供了一种基于人工智能的视频识别系统，所述系统包括：

67、自适应框架构建模块，用于构建一个基于视频内容分析的自适应框架，根据实时视频帧的复杂性动态调整模型结构和参数；

68、算法设计模块，用于根据模型参数，应用高效的图像预处理技术和深度学习算法，从视频帧中提取特征；其中，所述图像预处理技术包括光照校正和噪声淲除；所述从视频帧中提取特征具体为使用改进的sobel算子提取视频帧的边缘信息，再利用局部二值模式算子分析图像纹理特征，具体为：

69、

70、

71、其中，gx和gy分别表示水平和垂直梯度，g表示最终的边缘强度；

72、

73、其中，gc表示中心像素值，gp表示邻域像素值，p表示邻域中像素的数量；lbp(x,y)表示lbp特征，反映当前像素与其周围邻域的相对强度；(x,y)表示当前像素的水平和垂直的坐标，p表示邻域中像素的总数；lbp(x,y0是在图像坐标(x,y)处计算得到的局部二值模式值；

74、强化特征模块，用于使用生成对抗网络处理视频帧中提取的特征，对关键帧进行风格化得到风格化视频帧，强化视觉上的行为特征，包括：

75、s301、分别设计生成对抗网络，包括生成网络和判别网络；

76、s302、设计特征强调的损失项生成总损失函数对生成网络进行训练，同时在判别网络加入感知层；其中，所述特征强调的损失项表示如下：

77、

78、其中，fk表示针对关键特征k的特征提取函数，k表示预定义的关联特征集合，λk表示与特征k相关的权重，用于调节各特征在总损失中的贡献，i表示原始帧，g(z)表示在输入为隐变量z是生成器g的输出；

79、所述总损失函数表示如下：

80、

81、其中，β表示控制特征强调损失项影响力的超参数，d表示判别器网络；

82、s303、采用渐进式训练方法对生成对抗网络进行训练；

83、行为预测模块，用于根据风格化视频帧，设计混合神经网络进行行为识别和基于历史数据的行为预测；其中，所述混合神经网络包括cnn网络和rnn网络；

84、所述方法还包括以下至少0个模块：

85、无监督学习算法模块，用于整合无监督学习算法，基于实时反馈动态调整s1-s4的模型和参数；

86、反馈机制优化模块，用于设立反馈机制，根据用户和性能反馈动态调整策略，持续优化策略执行。

87、本发明的有益技术效果至少在于以下几点：

88、本发明一种基于人工智能的视频识别方法及系统提出了一个集成多项新技术的智能视频识别与预测系统。首先，引入自适应学习模型动态调整技术，该技术能够根据输入视频的复杂性自动调整深度学习模型的结构和参数，这一点对于提高系统在多变环境中的适应性和效率至关重要。其次，通过基于生成对抗网络(gans)的视频帧风格化处理，本系统能够在不增加额外传感器的情况下，通过视觉信息提高动作识别的准确性和鲁棒性，特别是在视觉上复杂或者质量较低的视频数据中表现更加优异。此外，结合时间序列分析与视频到视频翻译技术，本系统不仅能识别当前行为，还能预测接下来可能发生的行为序列，这在安全监控和紧急响应系统中尤其有价值。最后，采用无监督学习技术使得系统能够在没有标签数据的情况下，持续学习并优化模型，解决了现有技术中对大量标注数据依赖的问题。这些技术的结合，不仅显著提升了视频识别的精度和效率，而且增强了系统的实时处理能力和未来行为预测的前瞻性，有效地解决了现有技术中存在的核心问题。

技术特征：

1.一种基于人工智能的视频识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述s1具体包括：

3.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述光照校正为对输入视频帧应用自动白平衡和曝光补偿，表示如下：

4.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述生成网络的输入为t时刻的每帧视频特征向量，然后使用多层卷积层，每层后接批标准化和relu激活函数，最后一层使用tanh激活函数输出风格化的图像，表示如下：

5.根据权利要求4所述的一种基于人工智能的视频识别方法，其特征在于，所述s303中，渐进式训练方法表示首先在低分辨率上训练网络，逐渐过渡到高分辨率。

6.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述混合神经网络包括特征融合层、时序融合层和行为识别与预测输出层；

7.根据权利要求6所述的一种基于人工智能的视频识别方法，其特征在于，采用交叉熵损失函数来同时优化行为识别和预测的准确性，表示如下：

8.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述步骤a具体包括如下步骤：

9.根据权利要求1所述的一种基于人工智能的视频识别方法，其特征在于，所述步骤b具体包括如下步骤：

10.一种基于人工智能的视频识别系统，其特征在于，所述系统包括：

技术总结
本发明提出了一种基于人工智能的视频识别方法及系统，方法包括：构建一个基于视频内容分析的自适应框架，根据实时视频帧的复杂性动态调整模型结构和参数；根据模型参数，应用高效的图像预处理技术和深度学习算法，从视频帧中提取特征；使用生成对抗网络处理视频帧中提取的特征，对关键帧进行风格化得到风格化视频帧，强化视觉上的行为特征；根据风格化视频帧，设计混合神经网络进行行为识别和基于历史数据的行为预测。本发明不仅显著提升了视频识别的精度和效率，而且增强了系统的实时处理能力和未来行为预测的前瞻性，有效地解决了现有技术中存在的核心问题。

技术研发人员：宋运锋,张锦龙,王小敏,邹志光
受保护的技术使用者：广东迅科睿晟科技有限公司
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-439741.html

专利

最新回复(0)