一种基于神经网络的领夹麦语音增强方法与流程

专利2023-04-07  7



1.本发明涉及语音增强,具体涉及一种基于神经网络的领夹麦语音增强方法。


背景技术:

2.随着录制装备技术的不断进步,现出现了很多的无线麦克风,无线领夹麦克风作为无线麦克风的一种,适用于日常vlog录制、短视频拍摄、网络授课、直播互动等场景。使用时,通过领夹将麦克风固定在使用者的衣领或领带上,使麦克风进一步靠近使用者嘴部。
3.在语音采集的过程中,外界噪声和混响等干扰因素不可避免地会影响到语音质量。所以,在采集语音后应当对其进行处理以获得“纯净”的语音信号,这一过程被称为语音增强。
4.在语音增强模型中,声谱图因为能够有效反映语音的声学特性,所以常被用作语音增强的特征输入。但是,在语音处理过程中,声谱与原信号的不一致问题导致声谱特征无法被有效利用。同时,噪声和混响等干扰因素除了对语音信号的幅度有影响外,对语音信号的相位信息也会产生作用,如何对带噪语音进行有效语音增强成为当前急需解决的问题。


技术实现要素:

5.(一)解决的技术问题
6.针对现有技术所存在的上述缺点,本发明提供了一种基于神经网络的领夹麦语音增强方法,能够有效克服现有技术所存在的不能对带噪语音进行有效语音增强的缺陷。
7.(二)技术方案
8.为实现以上目的,本发明通过以下技术方案予以实现:
9.一种基于神经网络的领夹麦语音增强方法,包括以下步骤:
10.s1、接收待增强语音数据,利用第一神经网络模型从待增强语音数据中分离出不同的音频流;
11.s2、利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流;
12.s3、利用语音增强神经网络模型对目标音频流进行语音增强,并输出语音增强后的目标音频流。
13.优选地,s1中利用第一神经网络模型从待增强语音数据中分离出不同的音频流之前,对第一神经网络模型进行模型训练,具体包括:
14.从混合音频训练数据中提取声学特征信息,对声学特征信息进行降维操作后输入第一神经网络模型;
15.利用降维的声学特征信息对应的音频流帧数据对第一神经网络模型进行检验;
16.当损失值不小于第一设定阈值时,通过梯度下降法对第一神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第一设定阈值时停止。
17.优选地,s2中利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流之前,对第二神经网络模型进行模型训练,具体包括:
18.将预设语音拆分为语音帧数据,对语音帧数据进行降维和非线性变换处理,并对处理结果进行特征提取得到语音特征,将语音特征输入第二神经网络模型;
19.利用语音特征对应的语音帧数据对第二神经网络模型进行检验;
20.当损失值不小于第二设定阈值时,通过梯度下降法对第二神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第二设定阈值时停止。
21.优选地,s2中利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流,包括:
22.将第一神经网络模型分离得到的音频流依次输入第二神经网络模型,以得到各音频流对应的语音特征;
23.当音频流对应的语音特征与预设语音对应的语音特征之间的相似度大于第三设定阈值时,确定该音频流为与预设语音对应的目标音频流。
24.优选地,s3中利用语音增强神经网络模型对目标音频流进行语音增强之前,对语音增强神经网络模型进行模型训练,具体包括:
25.提取训练样本中带噪音频的功率特征普,并输入语音增强神经网络模型得到预估增益;
26.基于预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值;
27.基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值;
28.分别计算第一损失值、第二损失值对应的权重,并计算得到总损失值;
29.当总损失值不小于第四设定阈值时,通过梯度下降法对语音增强神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至总损失值小于第四设定阈值时停止。
30.优选地,所述基于预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值,包括:
31.通过下式计算第一损失值:
32.l1=mse(|g*n|2)
33.其中,l1为第一损失值,g为预估增益,n为带噪音频中的噪声,mse为均方误差函数。
34.优选地,所述基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值,包括:
35.采用下式计算第二损失值:
36.l2=mse(|g*n-p|2)
37.其中,l2为第二损失值,g为预估增益,n为带噪音频中的噪声,p为带噪音频中的纯语音,mse为均方误差函数。
38.优选地,所述分别计算第一损失值、第二损失值对应的权重,包括:
39.采用下式计算第二损失值对应的权重:
[0040][0041]
采用下式计算第一损失值对应的权重:
[0042]
[0043]
其中,ω1为第一损失值对应的权重,ω2为第二损失值对应的权重,snr为信噪比,μ为设定常数。
[0044]
优选地,所述计算得到总损失值,包括:
[0045]
采用下式计算总损失值:
[0046][0047]
其中,l为总损失值。
[0048]
(三)有益效果
[0049]
与现有技术相比,本发明所提供的一种基于神经网络的领夹麦语音增强方法,具有以下有益效果:
[0050]
1)通过降维的声学特征信息对第一神经网络模型进行模型训练,并利用第一神经网络模型从待增强语音数据中分离出不同的音频流,从而能够对待增强语音数据进行拆分,为后续寻找语音增强对象的目标音频流提供保障,有效提升寻找目标音频流的准确度;
[0051]
2)通过语音特征对第二神经网络模型进行模型训练,并利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流,从而能够准确找到目标音频流;
[0052]
3)通过带噪音频的功率特征普对语音增强神经网络模型进行模型训练,并通过计算表征噪声抑制效果的第一损失值、表征语音失真情况的第二损失值对模型进行检验,利用语音增强神经网络模型对目标音频流进行语音增强后,可以得到噪声抑制效果好且语音失真较少的增强语音,从而能够有效提升对带噪语音的语音增强效果。
附图说明
[0053]
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0054]
图1为本发明的流程示意图;
[0055]
图2为本发明中第一神经网络模型进行模型训练的流程示意图;
[0056]
图3为本发明中第二神经网络模型进行模型训练的流程示意图;
[0057]
图4为本发明中语音增强神经网络模型进行模型训练的流程示意图。
具体实施方式
[0058]
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0059]
一种基于神经网络的领夹麦语音增强方法,如图1和图2所示,

接收待增强语音数据,利用第一神经网络模型从待增强语音数据中分离出不同的音频流。
[0060]
其中,利用第一神经网络模型从待增强语音数据中分离出不同的音频流之前,对
第一神经网络模型进行模型训练,具体包括:
[0061]
从混合音频训练数据中提取声学特征信息,对声学特征信息进行降维操作后输入第一神经网络模型;
[0062]
利用降维的声学特征信息对应的音频流帧数据对第一神经网络模型进行检验;
[0063]
当损失值不小于第一设定阈值时,通过梯度下降法对第一神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第一设定阈值时停止。
[0064]
上述技术方案,通过降维的声学特征信息对第一神经网络模型进行模型训练,并利用第一神经网络模型从待增强语音数据中分离出不同的音频流,从而能够对待增强语音数据进行拆分,为后续寻找语音增强对象的目标音频流提供保障,有效提升寻找目标音频流的准确度。
[0065]
如图1和图3所示,

利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流,具体包括:
[0066]
将第一神经网络模型分离得到的音频流依次输入第二神经网络模型,以得到各音频流对应的语音特征;
[0067]
当音频流对应的语音特征与预设语音对应的语音特征之间的相似度大于第三设定阈值时,确定该音频流为与预设语音对应的目标音频流。
[0068]
其中,利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流之前,对第二神经网络模型进行模型训练,具体包括:
[0069]
将预设语音拆分为语音帧数据,对语音帧数据进行降维和非线性变换处理,并对处理结果进行特征提取得到语音特征,将语音特征输入第二神经网络模型;
[0070]
利用语音特征对应的语音帧数据对第二神经网络模型进行检验;
[0071]
当损失值不小于第二设定阈值时,通过梯度下降法对第二神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第二设定阈值时停止。
[0072]
上述技术方案,通过语音特征对第二神经网络模型进行模型训练,并利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流,从而能够准确找到目标音频流。
[0073]
如图1和图4所示,

利用语音增强神经网络模型对目标音频流进行语音增强,并输出语音增强后的目标音频流。
[0074]
其中,利用语音增强神经网络模型对目标音频流进行语音增强之前,对语音增强神经网络模型进行模型训练,具体包括:
[0075]
提取训练样本中带噪音频的功率特征普,并输入语音增强神经网络模型得到预估增益;
[0076]
基于预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值;
[0077]
基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值;
[0078]
分别计算第一损失值、第二损失值对应的权重,并计算得到总损失值;
[0079]
当总损失值不小于第四设定阈值时,通过梯度下降法对语音增强神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至总损失值小于第四设定阈值时停止。
[0080]
1)基于预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值,包括:
[0081]
通过下式计算第一损失值:
[0082]
l1=mse(|g*n|2)
[0083]
其中,l1为第一损失值,g为预估增益,n为带噪音频中的噪声,mse为均方误差函数。
[0084]
2)基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值,包括:
[0085]
采用下式计算第二损失值:
[0086]
l2=mse(|g*n-p|2)
[0087]
其中,l2为第二损失值,g为预估增益,n为带噪音频中的噪声,p为带噪音频中的纯语音,mse为均方误差函数。
[0088]
3)分别计算第一损失值、第二损失值对应的权重,包括:
[0089]
采用下式计算第二损失值对应的权重:
[0090][0091]
采用下式计算第一损失值对应的权重:
[0092][0093]
其中,ω1为第一损失值对应的权重,ω2为第二损失值对应的权重,snr为信噪比,μ为设定常数。
[0094]
4)计算得到总损失值,包括:
[0095]
采用下式计算总损失值:
[0096][0097]
其中,l为总损失值。
[0098]
上述技术方案,通过带噪音频的功率特征普对语音增强神经网络模型进行模型训练,并通过计算表征噪声抑制效果的第一损失值、表征语音失真情况的第二损失值对模型进行检验,利用语音增强神经网络模型对目标音频流进行语音增强后,可以得到噪声抑制效果好且语音失真较少的增强语音,从而能够有效提升对带噪语音的语音增强效果。
[0099]
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不会使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

技术特征:
1.一种基于神经网络的领夹麦语音增强方法,其特征在于:包括以下步骤:s1、接收待增强语音数据,利用第一神经网络模型从待增强语音数据中分离出不同的音频流;s2、利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流;s3、利用语音增强神经网络模型对目标音频流进行语音增强,并输出语音增强后的目标音频流。2.根据权利要求1所述的基于神经网络的领夹麦语音增强方法,其特征在于:s1中利用第一神经网络模型从待增强语音数据中分离出不同的音频流之前,对第一神经网络模型进行模型训练,具体包括:从混合音频训练数据中提取声学特征信息,对声学特征信息进行降维操作后输入第一神经网络模型;利用降维的声学特征信息对应的音频流帧数据对第一神经网络模型进行检验;当损失值不小于第一设定阈值时,通过梯度下降法对第一神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第一设定阈值时停止。3.根据权利要求1所述的基于神经网络的领夹麦语音增强方法,其特征在于:s2中利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流之前,对第二神经网络模型进行模型训练,具体包括:将预设语音拆分为语音帧数据,对语音帧数据进行降维和非线性变换处理,并对处理结果进行特征提取得到语音特征,将语音特征输入第二神经网络模型;利用语音特征对应的语音帧数据对第二神经网络模型进行检验;当损失值不小于第二设定阈值时,通过梯度下降法对第二神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至损失值小于第二设定阈值时停止。4.根据权利要求3所述的基于神经网络的领夹麦语音增强方法,其特征在于:s2中利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流,包括:将第一神经网络模型分离得到的音频流依次输入第二神经网络模型,以得到各音频流对应的语音特征;当音频流对应的语音特征与预设语音对应的语音特征之间的相似度大于第三设定阈值时,确定该音频流为与预设语音对应的目标音频流。5.根据权利要求1所述的基于神经网络的领夹麦语音增强方法,其特征在于:s3中利用语音增强神经网络模型对目标音频流进行语音增强之前,对语音增强神经网络模型进行模型训练,具体包括:提取训练样本中带噪音频的功率特征普,并输入语音增强神经网络模型得到预估增益;基于预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值;基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值;分别计算第一损失值、第二损失值对应的权重,并计算得到总损失值;当总损失值不小于第四设定阈值时,通过梯度下降法对语音增强神经网络模型进行网络参数更新,并重复上述模型训练步骤,直至总损失值小于第四设定阈值时停止。6.根据权利要求5所述的基于神经网络的领夹麦语音增强方法,其特征在于:所述基于
预估增益和带噪音频中的噪声,计算表征噪声抑制效果的第一损失值,包括:通过下式计算第一损失值:l1=mse(|g*n|2)其中,l1为第一损失值,g为预估增益,n为带噪音频中的噪声,mse为均方误差函数。7.根据权利要求6所述的基于神经网络的领夹麦语音增强方法,其特征在于:所述基于预估增益和带噪音频中的纯语音,计算表征语音失真情况的第二损失值,包括:采用下式计算第二损失值:l2=mse(|g*n-p|2)其中,l2为第二损失值,g为预估增益,n为带噪音频中的噪声,p为带噪音频中的纯语音,mse为均方误差函数。8.根据权利要求7所述的基于神经网络的领夹麦语音增强方法,其特征在于:所述分别计算第一损失值、第二损失值对应的权重,包括:采用下式计算第二损失值对应的权重:采用下式计算第一损失值对应的权重:其中,ω1为第一损失值对应的权重,ω2为第二损失值对应的权重,snr为信噪比,μ为设定常数。9.根据权利要求8所述的基于神经网络的领夹麦语音增强方法,其特征在于:所述计算得到总损失值,包括:采用下式计算总损失值:其中,l为总损失值。

技术总结
本发明涉及语音增强,具体涉及一种基于神经网络的领夹麦语音增强方法,接收待增强语音数据,利用第一神经网络模型从待增强语音数据中分离出不同的音频流;利用第二神经网络模型从各音频流中识别出与预设语音对应的目标音频流;利用语音增强神经网络模型对目标音频流进行语音增强,并输出语音增强后的目标音频流;本发明提供的技术方案能够有效克服现有技术所存在的不能对带噪语音进行有效语音增强的缺陷。的缺陷。的缺陷。


技术研发人员:胡程远
受保护的技术使用者:南京声象信息技术有限公司
技术研发日:2022.08.09
技术公布日:2022/12/2
转载请注明原文地址: https://bbs.8miu.com/read-332436.html

最新回复(0)