一种基于规则的人脸抓拍摄像机语音处理方法、系统和装置与流程

专利2022-06-29 54

本发明涉及摄像机语音处理技术领域，尤其涉及一种基于规则的人脸抓拍摄像机语音处理方法、系统和装置。

背景技术：

传统摄像机语音播报功能较为单一，主要应用于固定场景固定语音，在不同应用场景解决办法，是根据场景播报需求单独设计一套固定的语音播报内容，软件维护成本较大。人脸识别抓拍摄像机是一款可以对人脸进行追踪、识别、智能放大的高清监控智能摄像机。弥补了传统摄像机只能看见人的大概，这款智能摄像机能够直接捕捉到人脸，只要进入监视范围，就会抓录人脸，极大的减少了犯罪。

技术实现要素：

本发明的目的是为了解决现有技术中存在的缺点，而提出的一种基于规则的人脸抓拍摄像机语音处理方法、系统和装置。

为了实现上述目的，本发明采用了如下技术方案：

一种基于规则的人脸抓拍摄像机语音处理方法，包括以下步骤：

步骤s1、配置语音规则模块；

步骤s2、传输报警事件；

步骤s3、查找语音模块；

步骤s4、播报语音模块。

优选的，所述步骤s1中，将应用场景scene_n、事件event_n_i和语音信息voicetext_n_i打包成规则rule_n_i添加到规则链表rule_list，并使系统运行在应用场景scene_n。

优选的，所述scene_n、event_n_i、voicetext_n_i、rule_n_i存在映射关系。

优选的，所述步骤s2中，将yuv格式视频帧传给算法库分析，输出报警事件event_n_i，将报警事件送入报警事件链表event_list进行缓冲。

优选的，所述步骤s3中，首先从报警事件链表event_list中获取报警事件event_n_i，然后通过应用场景scene_n作为查找条件，在规则链表rule_list中查找对应的rule_n_i规则，并匹配的语音文本voicetext_n_i。

优选的，所述步骤s4中，将voicetext_n_i文本转换成线性编码调制格式的声音文件voicelpcm_n_i播报语音。

还公开了一种基于规则的人脸抓拍摄像机语音处理系统，包括语音规则配置模块、报警事件传输模块、语音查找模块和语音播报模块，所述语音规则配置模块将应用场景scene_n、事件event_n_i和语音信息voicetext_n_i打包成规则rule_n_i添加到规则链表rule_list，并使系统运行在应用场景scene_n，所述报警事件传输模块将yuv格式视频帧传给算法库分析，并输出报警事件event_n_i，并将报警事件送入报警事件链表event_list进行缓冲，所述语音查找模块首先从报警事件链表event_list中获取报警事件event_n_i，然后通过应用场景scene_n作为查找条件，在规则链表rule_list中查找对应的rule_n_i规则，并匹配的语音文本voicetext_n_i，所述语音播报模块将voicetext_n_i文本转换成线性编码调制格式的声音文件voicelpcm_n_i播报语音。

还公开了一种基于规则的人脸抓拍摄像机语音处理装置，包括如上述方案所述的一种基于规则的人脸抓拍摄像机语音处理系统、摄像机、处理器和语音输出装置。

本发明的有益效果是：

本发明针对人脸抓拍摄像机在多个不同应用场景中，根据预设置的语音播报规则，自动播报语音功能，解决传统人脸抓拍摄像机不能根据场景的变化灵活切换语音播报内容问题，增加产品开发和维护成本，降低了成本并提高了效率。

附图说明

图1为本发明提出的一种基于规则的人脸抓拍摄像机语音处理方法的流程图；

图2为规则链表示意图；

图3为语音查找流程图；

图4为实施方式中配置语音规则的流程图；

图5为实施方式中报警事件传输流程图；

图6为实施方式中查找播报语音流程图。

具体实施方式

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

需要说明的是，当元件被称为“固定于”另一个元件，它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件，它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的，并不表示是唯一的实施方式。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述具体的实施方式的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

实施例

请参照图1-3，一种基于规则的人脸抓拍摄像机语音处理方法，包括以下步骤：

步骤s1、配置语音规则模块；

步骤s2、传输报警事件；

步骤s3、查找语音模块；

步骤s4、播报语音模块。

优选的，所述步骤s1中，将应用场景scene_n、事件event_n_i和语音信息voicetext_n_i打包成规则rule_n_i添加到规则链表rule_list，并使系统运行在应用场景scene_n。

优选的，所述scene_n、event_n_i、voicetext_n_i、rule_n_i存在映射关系。

优选的，所述步骤s2中，将yuv格式视频帧传给算法库分析，输出报警事件event_n_i，将报警事件送入报警事件链表event_list进行缓冲。

优选的，所述步骤s3中，首先从报警事件链表event_list中获取报警事件event_n_i，然后通过应用场景scene_n作为查找条件，在规则链表rule_list中查找对应的rule_n_i规则，并匹配的语音文本voicetext_n_i。如图2中所示映射关系，从报警事件event_n_i匹配到待播报语音文本voicetext_n_i，查找过程请参考图3。

优选的，所述步骤s4中，将voicetext_n_i文本转换成线性编码调制格式的声音文件voicelpcm_n_i播报语音。

本实施方式中，首先对语音规则进行配置，请参考图4通过网页配置场景scene_n，例如智慧工地场景、事件event_n_i，例如检测到没带安全帽的工人进入工地和语音信息voicetext_n_i，例如语音提示“请带安全帽”给摄像机。摄像机绑定场景、事件和语音信息生成一条规则rule_n_i，添加到规则链表rule_list。

然后传输报警事件，请参照图5，首先原始视频以yuv格式数据帧输入给算法模块，然后算法模块检测未带头盔的人时，输出报警信息event_n_i，最后缓存报警事件event_n_i至事件链表event_list。

接着查找播报语音，请参考图6，首先事件处理模块在scene_n应用场景下，从报警事件缓冲链表event_list中提取事件event_n_i。接着在规则链表rule_list中，通过event_n_i找到语音规则rule_n_i，并检索出待播报的语音文本voicetext_n_i。如图表1-2中所示映射关系，从报警事件event_n_i匹配到待播报语音文本voicetext_n_i，查找过程参见图标1-3。然后将语音文本voicetext_n_i转为线性编码调制格式的语音文件voicelpcm_n_i。最后音频解码模块ao将语音文件voicelpcm_n_i播放出来。

以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，根据本发明的技术方案及其发明构思加以等同替换或改变，都应涵盖在本发明的保护范围之内。

技术特征：

1.一种基于规则的人脸抓拍摄像机语音处理方法，其特征在于，包括以下步骤：

步骤s1、配置语音规则模块；

步骤s2、传输报警事件；

步骤s3、查找语音模块；

步骤s4、播报语音模块。

2.根据权利要求1所述的基于规则的人脸抓拍摄像机语音处理方法，其特征在于，所述步骤s1中，将应用场景scene_n、事件event_n_i和语音信息voicetext_n_i打包成规则rule_n_i添加到规则链表rule_list，并使系统运行在应用场景scene_n。

3.根据权利要求2所述的基于规则的人脸抓拍摄像机语音处理方法，其特征在于，所述scene_n、event_n_i、voicetext_n_i、rule_n_i存在映射关系。

4.根据权利要求1所述的基于规则的人脸抓拍摄像机语音处理方法，其特征在于，所述步骤s2中，将yuv格式视频帧传给算法库分析，输出报警事件event_n_i，将报警事件送入报警事件链表event_list进行缓冲。

5.根据权利要求1所述的基于规则的人脸抓拍摄像机语音处理方法，其特征在于，所述步骤s3中，首先从报警事件链表event_list中获取报警事件event_n_i，然后通过应用场景scene_n作为查找条件，在规则链表rule_list中查找对应的rule_n_i规则，并匹配的语音文本voicetext_n_i。

6.根据权利要求1所述的基于规则的人脸抓拍摄像机语音处理方法，其特征在于，所述步骤s4中，将voicetext_n_i文本转换成线性编码调制格式的声音文件voicelpcm_n_i播报语音。

7.一种基于规则的人脸抓拍摄像机语音处理系统，其特征在于，包括语音规则配置模块、报警事件传输模块、语音查找模块和语音播报模块，所述语音规则配置模块将应用场景scene_n、事件event_n_i和语音信息voicetext_n_i打包成规则rule_n_i添加到规则链表rule_list，并使系统运行在应用场景scene_n，所述报警事件传输模块将yuv格式视频帧传给算法库分析，并输出报警事件event_n_i，并将报警事件送入报警事件链表event_list进行缓冲，所述语音查找模块首先从报警事件链表event_list中获取报警事件event_n_i，然后通过应用场景scene_n作为查找条件，在规则链表rule_list中查找对应的rule_n_i规则，并匹配的语音文本voicetext_n_i，所述语音播报模块将voicetext_n_i文本转换成线性编码调制格式的声音文件voicelpcm_n_i播报语音。

8.一种基于规则的人脸抓拍摄像机语音处理装置，其特征在于，包括如权利要求7所述的一种基于规则的人脸抓拍摄像机语音处理系统、摄像机、处理器和语音输出装置。

技术总结
本发明涉及摄像机语音处理技术领域，具体公开了一种基于规则的人脸抓拍摄像机语音处理方法、系统及装置,所述方法包括以下步骤：步骤S1、配置语音规则模块；步骤S2、传输报警事件；步骤S3、查找语音模块；步骤S4、播报语音模块，还公开了一种基于规则的人脸抓拍摄像机语音处理系统以及具有该系统的装置，本发明针对人脸抓拍摄像机在多个不同应用场景中，根据预设置的语音播报规则，自动播报语音功能，解决传统人脸抓拍摄像机不能根据场景的变化灵活切换语音播报内容问题，增加产品开发和维护成本，降低了成本并提高了效率。

技术研发人员：晏冬
受保护的技术使用者：深圳英飞拓科技股份有限公司
技术研发日：2020.01.20
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54077.html

专利

最新回复(0)