一种基于卷积神经网络和连接性时序分类的录音处理方法与流程

专利2022-06-29 67

本发明涉及语音通信技术领域，具体涉及一种基于卷积神经网络和连接性时序分类的呼叫中心录音处理方法。

背景技术：

当前呼叫中心技术已经广泛应用于各个行业，在实际使用中，会产生大量的录音文件，这些录音文件对于提升呼叫中心的服务水平有非常重要的作用。因此，对于录音文件的质检是日常的重要工作。目前，质检工作存在两大缺陷：1、质检过程基本采用人工的模式，对于录音文件的调取基本采用抽样的方式，存在覆盖面小、无法事先拦截等问题，并且费时费力；2、每次质检只能调取部分录音，无法对整体情况进行分析，对于整体的把握只能通过话务员操作的业务系统，而话务员自身，由于能力、责任感等因素，水平参差不齐，可能无法完整的描述每次通话所涉及的业务过程。

因此，需要一种可以替代人工处理录音文件的方法。在不影响质检工作质量的前提下，达到提高工作效率的的目的。

技术实现要素：

本发明的目的在于针对上述现有技术存在的缺陷或不足，提供一种基于卷积神经网络和连接性时序分类的呼叫中心录音处理方法，该方法采用卷积神经网络和连接性时序分类技术，利用计算机替代人工对录音文件进行预处理，通过对录音文件的自动语音识别，对录音文件所对应的业务事态等预先进行分类和预处理，以便呼叫中心更好的对外提供服务，从而在不影响质检工作质量的前提下，达到了提高工作效率的目的。

为了达到上述目的，本发明提供的技术方案是一种基于卷积神经网络和连接性时序分类的录音处理方法，包含以下步骤:

s1：利用现有的语音素材，建立数据模型；

s2：获取源服务器录音文件，并进行预处理；

s3：利用模型文件，对录音文件进行二次识别处理；

s4：将输出的处理结果记录存储到数据库中。

所述步骤s1包含以下步骤：

s101：下载建立模型所需的语音文件数据集，采用双份的数据集，即thchs30中文语音数据集和openslr提供的免费st-cmds中文语音数据集；

s102：对下载语音文件进行整理，存放在统一的目录下，语音文件全部是标准的wav文件，以标准普通话为主；

s103：如果有需求，根据实际情况准备方言版本，并保存为标准的wav文件；

s104：将语音文件中的语音信号通过分帧加窗操作转换为卷积神经网络需要的二维频谱图像信号，也就是语谱图；

s105：提取语音文件语谱图中的特征；

s106：将提取的特征与神经网络相结合，将输入的特征图数量作为单个神经网络的通道数目；

s107：截取特征所对应的信息时间为时间序列；

s108：部署人工神经网络库keras和开源的深度学习框架tensorflow；

s109：采用开源的深度学习框架tensorflow作为转化工具，将上述语谱图训练数据集转化为tensorflow训练网络所需的训练集，使用开源的人工神经网络库keras对这种参考了vgg的深层的深度卷积神经网络进行处理，建立语音深度神经网络模型；

s110：利用tensorflow训练命令调用配置方案，以训练模型至最优性能；

s111：对模型进行测试，以检查训练效果。如果不满意，可以调整参数，返回s102，重新训练。

所述步骤s2包含以下步骤：

s201：利用ftp协议，将录音文件从源服务器复制到处理服务器，并保存到特定目录下；

s202：利用自开发的音频转换库把vox音频文件转化为wav格式，以符合处理格式要求；

s203：对wav文件的音频信道加以处理，以实现数据增强，并消除背景杂音，以提高识别准确率。

所述步骤s3包含以下步骤：

s301：读取并加载s1步骤生成的模型文件；

s302：对预处理过的wav格式录音文件的音频数据进行短时傅里叶变换，对其进行时频分析并获取其时间频率频谱，进而获得频谱图；

s303：调用库python_speech_features，对频谱图进行处理，借助模型进行分析，获得声学模型输出；

s304：利用连接性时序分类技术，将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列；

s305：借助基于概率图的最大熵隐马尔可夫模型，使用统计语言模型，将语音拼音符号转换为最终的识别文本并输出。

基于以上阐述，与现有技术相比，本发明的有益效果在于：

1、借助于人工智能语音识别，极大的提高了质检工作效率和覆盖范围，丰富了呼叫中心的处理能力。

2、覆盖面广，由于采用自动处理技术，可以每天定时对全量的录音文件进行识别并处理，可以避免抽检带来的覆盖面偏低问题；

3、节约人力物力，免除了人工进行抽检的步骤，可以显著减少日常质检工作所需的人力物力。

4、针对性强，在质检员人工介入前，已经预先对语音文件进行了自动筛选，可以根据需要进行有针对性的处理。

附图说明

图1为本发明的模型建立流程图；

图2为本发明的业务处理流程图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面结合具体实施例对本发明作进一步的详细说明。

实施例

请参照附图1，为本发明提供的数据模型的建立方法，包括以下步骤：

s101：下载建立模型所需的语音文件数据集，为保证效果，采用了双份的数据集，即thchs30中文语音数据集和openslr提供的免费st-cmds中文语音数据集；

s102：对下载语音文件进行整理，存放在统一的目录下，语音文件全部是标准的wav文件，以标准普通话为主；

s103：如果有需求，根据实际情况准备方言版本，并保存为标准的wav文件；

s104：将语音文件中的语音信号通过分帧加窗等操作转换为卷积神经网络需要的二维频谱图像信号，也就是语谱图；

s105：提取语音文件语谱图中的特征；

s106：将提取的特征与神经网络相结合，将输入的特征图数量作为单个神经网络的通道数目；

s107：截取特征所对应的信息时间为时间序列；

s108：部署人工神经网络库keras和开源的深度学习框架tensorflow；

s110：利用tensorflow训练命令调用配置方案，以训练模型至最优性能；

s111：对模型进行测试，以检查训练效果。如果不满意，可以调整参数，返回s102，重新训练。

在本发明的一些实施例中，步骤s103的方法应用在客服呼叫中心场景中，由于本地方言流行，需要准备本地版的语音文件。

请参照附图2，本发明提供的录音文件识别的方法，包括以下步骤：

s2：获取源服务器录音文件，并进行预处理。

所述步骤s2包含以下具体步骤：

s201：利用ftp协议，将录音文件从源服务器复制到处理服务器，并保存到特定目录下；

s202：利用自开发的音频转换库把vox音频文件转化为wav格式，以符合处理格式要求；

s203：对wav文件的音频信道加以处理，以实现数据增强，并消除背景杂音等，以提高识别准确率。

s3：利用模型文件，对录音文件进行二次识别处理。

所述步骤s3包含以下步骤：

s301：读取并加载s1步骤生成的模型文件；

s302：对预处理过的wav格式录音文件的音频数据进行短时傅里叶变换，对其进行时频分析并获取其时间频率频谱，进而获得频谱图；

s303：调用库python_speech_features，对频谱图进行处理，借助模型进行分析，获得声学模型输出；

s304：由于语音识别系统的声学模型的输出中，往往包含了大量连续重复的符号。因此，利用连接性时序分类技术，将连续相同的声学符号合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列；

s305：借助基于概率图的最大熵隐马尔可夫模型，使用统计语言模型，将语音拼音符号转换为最终的识别文本并输出。

s4：将输出的处理结果记录存储到数据库中。

本发明的工作原理为：通过对语音文件数据集的处理，建立人类发音向量与对应的文本之间的映射模型。通过对录音文件的预处理，提取出音频特征，并且和模型进行映射对比，获取发音序列。最后借助马尔可夫模型将发音转换为文本。首先是模型的建立。根据需求，准备对应的语音文件和与之对应的语音文本。如果是普通话需求，可使用公共的免费语音文件集。对语音文件进行预处理后，调用开源的深度学习框架tensorflow和开源的人工神经网络库keras对语音文件进行特征提取，最终形成模型；接着从源服务器获取录音文件，借助于ftp协议从源服务器下载录音文件，并保存在特定处理目录下。使用自研发的转换库把录音文件从vox格式转换为wav格式，并对其进行预处理，以增强数据消除背景杂音等；接着对预处理过的wav格式录音文件的音频数据进行短时傅里叶变换，获得频谱图。借助模型文件对频谱图进行处理，获得声学模型输出。把相同的声学符号合并为同一个符号，去除静音分隔标记符，得到最终实际的语音拼音符号序列。借助基于概率图的最大熵隐马尔可夫模型，使用统计语言模型，将语音拼音符号转换为最终的识别文本并输出；最后，把输出的处理结果记录存储到数据库中。本发明的软件采用python语言开发。

以上仅是本发明的优选实施方式，应当指出的是，上述优选实施方式不应视为对本发明的限制，本发明的保护范围应当以权利要求所限定的范围为准。对于本技术领域的普通技术人员来说，在不脱离本发明的精神和范围内，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

技术特征：

1.一种基于卷积神经网络和连接性时序分类的录音处理方法，其特征在于，包含以下步骤:

s1：利用现有的语音素材，建立数据模型；

s2：获取源服务器录音文件，并进行预处理；

s3：利用模型文件，对录音文件进行二次识别处理；

s4：将输出的处理结果记录存储到数据库中。

2.根据权利要求1所述的方法，其特征在于，所述步骤s1包含以下步骤：

s101：下载建立模型所需的语音文件数据集；

s102：对下载语音文件进行整理，存放在统一的目录下，语音文件全部是标准的wav文件，以标准普通话为主；

s103：如果有需求，根据实际情况准备方言版本，并保存为标准的wav文件；

s104：将语音文件中的语音信号通过分帧加窗操作转换为卷积神经网络需要的二维频谱图像信号，也就是语谱图；

s105：提取语音文件语谱图中的特征；

s106：将提取的特征与神经网络相结合，将输入的特征图数量作为单个神经网络的通道数目；

s107：截取特征所对应的信息时间为时间序列；

s108：部署人工神经网络库keras和开源的深度学习框架tensorflow；

s110：利用tensorflow训练命令调用配置方案，以训练模型至最优性能；

s111：对模型进行测试，以检查训练效果。如果不满意，可以调整参数，返回s102，重新训练。

3.根据权利要求2所述的方法，其特征在于：所述语音文件数据集采用双份的数据集，即thchs30中文语音数据集和openslr提供的免费st-cmds中文语音数据集。

4.根据权利要求3所述的方法，其特征在于，所述步骤s2包含以下步骤：

s201：利用ftp协议，将录音文件从源服务器复制到处理服务器，并保存到特定目录下；

s202：利用自开发的音频转换库把vox音频文件转化为wav格式，以符合处理格式要求；

s203：对wav文件的音频信道加以处理，以实现数据增强，并消除背景杂音，以提高识别准确率。

5.根据权利要求4所述的方法，其特征在于，所述步骤s3包含以下步骤：

s301：读取并加载s1步骤生成的模型文件；

s302：对预处理过的wav格式录音文件的音频数据进行短时傅里叶变换，对其进行时频分析并获取其时间频率频谱，进而获得频谱图；

s303：调用库python_speech_features，对频谱图进行处理，借助模型进行分析，获得声学模型输出；

s304：利用连接性时序分类技术，将连续相同的符合合并为同一个符号，然后再去除静音分隔标记符，得到最终实际的语音拼音符号序列；

s305：借助基于概率图的最大熵隐马尔可夫模型，使用统计语言模型，将语音拼音符号转换为最终的识别文本并输出。

技术总结
本发明公开一种基于卷积神经网络和连接性时序分类的录音处理方法，属于语音通信技术领域。该录音处理方法包含以下步骤:S1：利用现有的语音素材，建立数据模型；S2：获取源服务器录音文件，并进行预处理；S3：利用模型文件，对录音文件进行二次识别处理；S4：将输出的处理结果记录存储到数据库中。本发明借助于人工智能语音识别，极大的提高了质检工作效率和覆盖范围，丰富了呼叫中心的处理能力；覆盖面广、节约资源，针对性强。

技术研发人员：王贤达;乔树彬;陈强;祝佳云
受保护的技术使用者：兰州飞天网景信息产业有限公司
技术研发日：2020.03.11
技术公布日：2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54789.html

专利

最新回复(0)