本发明涉及语音处理技术领域,具体是一种复杂噪声场景下的实时语音段落追踪方法。
背景技术:
语音信号处理领域的工程实现要面对复杂的噪声场景,包括各种统计学特性不同的平稳噪声、瞬时噪声、时变噪声和强噪声等。使用近讲拾音设备进行语音采集、语音通信及语音识别时,背景噪声很容易被麦克风拾取,从听感方面对语音通信造成直接的影响,也会进一步影响后端语音识别等处理模块的性能。在复杂的噪声场景下,抑制混杂在语音中的稳态噪声、屏蔽语音段落间夹杂的其它类型噪声,追踪得到纯净的语音段落,能够有效地提高语音通信的听感,提高语音识别等后端处理模块的性能。统计学特性单一噪声场景下的语音追踪相对容易处理,而在复杂噪声场景下的语音段落追踪则是难点问题。
技术实现要素:
本发明的目的在于提供一种复杂噪声场景下的实时语音段落追踪方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
a、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
b、计算输入音频帧
c、假设前l帧为噪声帧,计算初始噪声的功率,即计算
d、计算后验信噪比
e、计算先验信噪比
f、语音激活检测;
g、噪声谱更新;
h、计算增益系数;
i、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
j、计算
k、计算差分函数:
l、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
m、清音补偿和噪声屏蔽。
作为本发明的进一步方案:所述步骤a中对输入的音频信号分帧并加窗,窗函数为汉明窗:
作为本发明的进一步方案:所述步骤f具体是:对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比
作为本发明的进一步方案:所述步骤g具体是:挑选出噪声帧后,按下式更新噪声谱:
作为本发明的进一步方案:所述步骤h具体是:根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
作为本发明的进一步方案:所述步骤i建好的函数为:
作为本发明的进一步方案:所述步骤m中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
与现有技术相比,本发明的有益效果是:本发明完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
附图说明
图1为语音叠加平稳噪声和瞬时噪声且噪声峰值超过60分贝的音频信号时域波形图;
图2为图1信号经过本实施例处理后的时域波形图;
图3为语音叠加平稳噪声和瞬时噪声且噪声峰值超过110分贝的音频信号时域波形图;
图4为图3信号经过本发明处理后的时域波形图;
图5为本实施例所述方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-5,实施例1:本发明实施例中,一种复杂噪声场景下的实时语音段落追踪方法,包含以下步骤:
a、预处理。对输入的音频信号分帧并加窗。取16ms(256个样点)数据为一帧xi(n),其中i为帧号。对其进行加窗,窗函数为汉明窗:
b、计算输入音频帧
yi(ωk)=ykexp(jθy(k))
c、假设前l帧为噪声帧,计算初始噪声的功率,即计算
|yi(ωk)|2;
d、计算后验信噪比γk=|yi(ωk)|2/λd(k);
e、计算先验信噪比
f、语音激活检测。由于噪声可能是短时平稳的,因此需要实时更新噪声谱,以保证噪声抑制的效果。对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比
g、噪声谱更新。挑选出噪声帧后,按下式更新噪声谱:
h、计算增益系数。根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
其中exp(·)为以自然常数e为底的指数函数,expint(·)为以自然常数e为底的指数积分函数。
i、重建信号。计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号:
j、计算
k、计算差分函数:
计算:
l、根据下列条件进行浊音判断:
计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1]。以pth作为阈值,大于pth的语音帧作为浊音保留;
m、清音补偿和噪声屏蔽。若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
图3和图5为经本发明方法处理过的音频时域波形,对比原始波形可以看到,在复杂噪声背景下,本方法完整地追踪了语音段落,屏蔽语段外的噪声,对叠加在语音上的噪声也起到了抑制作用,增强了语音本身的听感效果。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
1.一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,包含以下步骤:
a、预处理:对输入的音频信号分帧并加窗;取16ms数据为一帧xi(n),其中i为帧号;
b、计算输入音频帧
c、假设前l帧为噪声帧,计算初始噪声的功率,即计算
d、计算后验信噪比γk=|yi(ωk)|2/λd(k);
e、计算先验信噪比
f、语音激活检测;
g、噪声谱更新;
h、计算增益系数;
i、重建信号:计算当前帧的增强语音的幅度谱和功率谱,对增强语音的频谱做逆傅里叶变换,即可得到重建信号;
j、计算
k、计算差分函数:
l、根据下列条件进行浊音判断:计算p=1-d'(τ),p表征一帧语音中明显包含某个基频成分的概率。由于d'(τ)的取值范围为[0,1],则p的取值范围为[0,1];以pth作为阈值,大于pth的语音帧作为浊音保留;
m、清音补偿和噪声屏蔽。
2.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤a中对输入的音频信号分帧并加窗,窗函数为汉明窗:
3.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤f具体是:对输入帧做语音激活检测,挑选出噪声帧。根据后验信噪比γk和先验信噪比
4.根据权利要求3所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤g具体是:挑选出噪声帧后,按下式更新噪声谱:
5.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤h具体是:根据后验信噪比和先验信噪比计算当前帧幅度谱的加权系数:
6.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤i建好的函数为:
7.根据权利要求1所述的一种复杂噪声场景下的实时语音段落追踪方法,其特征在于,所述步骤m中,若某帧被判定为浊音,而其后400毫秒内的信号帧为非浊音,则进行补偿,即不对其进行处理直接输出;对不满足补偿条件的非浊音帧进行屏蔽,即做限幅处理后输出。
技术总结