语音增强方法、存储介质及电子设备与流程

专利2025-12-18  18


本申请涉及语音交互,尤其涉及一种语音增强方法、存储介质及电子设备。


背景技术:

1、随着智能语音技术的不断推广,具有语音交互能力的智能终端得到了广泛推广,使得智能终端的业务应用场景呈复杂多样化,导致智能终端的音频环境中往往存在除了目标音源的发声音频之外的其他干扰音频。

2、目前,通常是采用麦克风阵列设备来实现语音定向增强,其一般需要预先设定一个固定的收音范围,然后采用波束形成算法,将波束形成算法的滤波器指向该目标方向,可抑制非目标方向的噪声,提升目标方向语音的信噪比。或者,将设备的收音范围划分为多个备选方向,每个备选方向对应一个波束形成滤波器,利用波达角(doa)估计算法或外部信息确认目标方向,然后选取该方向对应的一个滤波器进行工作,提升被选目标方向语音的信噪比。

3、然而,波束形成滤波器的降噪性能是线性的,在麦克风个数的限制下,其主瓣宽度较宽、旁瓣能量较高,很难区分角度相近的两个目标,或者当收音区附近存在干扰声源时,导致输出语音信噪比偏低和语音识别结果错误。

4、针对上述问题,目前业界暂未提出较佳的解决方案。


技术实现思路

1、本申请提供一种语音增强方法、存储介质及电子设备,用以至少解决目前相关技术中因终端设备缺乏对书写摩擦噪声进行滤除而导致语音记录效果不佳的问题。

2、第一方面,本申请实施例提供一种语音增强方法,包括:基于拾音麦阵列,采集外部环境音频;以及基于噪音采集单元,采集书写屏幕噪声;所述噪音采集单元被设置在终端的屏幕下方;基于噪音滤波器处理所述书写屏幕噪声,对所述外部环境音频进行噪音滤除处理。

3、第二方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请任一实施例的语音增强方法的步骤。

4、第三方面,本申请实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本申请任一实施例的语音增强方法的步骤。

5、第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任一实施例的语音增强方法的步骤。

6、本申请实施例的有益效果在于:

7、通过设定目标音源的相对方向并确定左右极限音源方向,可以更精确地聚焦于目标声源,从而在复杂环境中减少非目标声音的干扰,提高声音识别精确度。此外,相比于传统的波束形成算法,在本申请中引入了音源偏离条件来动态确定目标音源方向的边界,使得系统能够更好地适应环境中目标音源位置的变化,实现适应环境变化的动态自适应增强效果。利用神经网络处理定向音频,并结合盲源分离算法,在区分相近角度的不同声源方面有更好的性能,减少了由于角度上的混淆或近距离干扰声源导致的错误识别,能有效提升目标声源的音频的信噪比和音质。由此,通过语音增强方法,结合方向性音频处理和深度学习算法,改进智能终端在复杂音频环境中的声音识别和处理能力,能有效提高人机语音交互成功率。



技术特征:

1.一种语音增强方法,包括:

2.根据权利要求1所述的方法,其中,所述确定设备采集音频中目标音源所对应的目标相对方向,包括:

3.根据权利要求1所述的方法,其中,所述确定设备采集音频中目标音源所对应的目标相对方向,包括:

4.根据权利要求1所述的方法,其中,所述参照所述目标相对方向、所述左极限音源方向和所述右极限音源方向对所述设备采集音频的频域频点进行处理,以生成相应的第一定向音频、第二定向音频和第三定向音频,包括:

5.根据权利要求1所述的方法,其中,所述基于预设的神经网络处理所述第一定向音频、所述第二定向音频、所述第三定向音频和所述设备采集音频,以确定对应所述目标相对方向的语音信号频域掩码,包括:

6.根据权利要求1或5所述的方法,其中,所述神经网络采用深度卷积循环网络,所述深度卷积循环网络包含用于提取语音特征的编码器模块、用于提取时序特征的rnn模块和用于还原语音的解码器模块;

7.根据权利要求6所述的方法,其中,所述神经网络的损失函数采用si-snr函数。

8.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任一项所述方法的步骤。

9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述方法的步骤。

10.一种计算机程序产品,包括计算机程序/指令,其特征在于,该计算机程序/指令被处理器执行时实现权利要求1-7中任一项所述方法的步骤。


技术总结
本申请实施例提供一种语音增强方法、存储介质及电子设备,涉及语音交互技术领域,该方法包括:确定设备采集音频中目标音源所对应的目标相对方向;根据音源偏离条件和目标相对方向,确定左极限音源方向和右极限音源方向;参照目标相对方向、左极限音源方向和右极限音源方向对设备采集音频的频域频点进行处理,以生成第一定向音频、第二定向音频和第三定向音频;基于神经网络处理第一定向音频、第二定向音频、第三定向音频和设备采集音频,以确定对应目标相对方向的语音信号频域掩码;基于盲源分离算法,确定对应目标相对方向的目标增强音频。由此,通过语音增强方法,结合方向性音频处理和深度学习算法,有效提高了人机语音交互成功率。

技术研发人员:刘贝易,周强
受保护的技术使用者:思必驰科技股份有限公司
技术研发日:
技术公布日:2024/7/25
转载请注明原文地址: https://bbs.8miu.com/read-436476.html

最新回复(0)