用于降低时域解码器中的量化噪声的装置和方法与流程

专利2022-11-25 93

本申请是2014年1月9日提交的申请号为201480010636.2的发明专利申请“用于降低时域解码器中的量化噪声的装置和方法”的分案申请。本公开涉及声音处理领域，更具体地，本公开涉及降低声音信号中的量化噪声。
背景技术：
：现有技术的传统编解码器在大约8kbps的比特速率处表现出质量非常良好的干净语音信号，并且在16kbps的比特速率处接近透明。为了在低比特速率处维持该高语音质量，通常使用多模编码方案。通常输入信号被分为反映其特性的不同类别。不同类别包括例如嗓音语音(voicedspeech)、非嗓音语音(unvoicedspeech)、嗓音进攻(voicedonset)等。编解码器随后使用针对这些类别优化的不同编码模式。基于语音模式的编解码器通常不能很好地呈现(render)例如音乐的通常音频信号。因此，一些部署的语音编解码器不能高质量地表示音乐，尤其在低比特速率处。当部署编解码器时，由于比特流被标准化并且对比特流的任何修改将打破编解码器的互操作性的事实，难以修改编码器。因此，存在改进基于语音模式的编解码器(例如基于线性预测(lp)编解码器)的音乐内容呈现的需要。技术实现要素：根据本公开，提供一种用于降低在由时域解码器解码的时域激励中包含的声音信号中的量化噪声的装置。所述装置包括激励外推器，基于解码后的时域激励，评估未来的帧的时域激励。所述装置还包括激励连结器，连结解码后的时域激励和未来的帧的外推的时域激励，以形成连结的时域激励。所述装置还包括将连结的时域激励转换为频域激励的转换器。还包括产生用于取回在量化噪声中丢失的频谱信息的加权掩模的掩模构造器。所述装置还包括频域激励的修改器，通过应用加权掩模增大频谱动态。所述装置还包括将修改的频域激励转换为修改的时域激励的转换器。其中，修改的频域激励到修改的时域激励的转换是无延迟的。本公开还涉及一种用于降低在由时域解码器解码的时域激励中包含的声音信号中的量化噪声方法。基于解码后的时域激励，评估未来的帧的时域激励。连结解码后的时域激励和未来的帧的时域激励，以形成连结的时域激励。连结的时域激励被时域解码器转换为频域激励。产生加权掩模用于取回在量化噪声中丢失的频谱信息。通过应用加权掩模修改频域激励以增大频谱动态。修改的频域激励被转换为修改的时域激励。其中，修改的频域激励到修改的时域激励的转换是无延迟的。上述和其他特征在阅读下列参考附图仅通过示例给出的其示意性实施例的非限制性描述时变得更加清楚。附图说明将参考附图仅通过示例描述本公开的实施例，其中：图1是示出根据实施例的用于降低在由时域解码器解码的时域激励中包含的信号中的量化噪声的方法的操作的流程图；图2a和2b(统称为图2)是具有用于降低音乐信号和其他声音信号中的量化噪声的频域后处理能力的解码器的简化示意图；以及图3是形成图2的解码器的硬件组件的示例配置的简化框图。具体实施方式本公开的各种方面一般通过降低音乐信号中的量化噪声来解决改进基于语音模式的编解码器(例如基于线性预测(lp)的编解码器)的音乐内容呈现的问题中的一个或多个。应记住的是本公开的教导也可以应用于其他声音信号，例如除了音乐之外的通用音频信号。对解码器的修改可以改进接收器侧的感知质量。本公开公开一种在解码器侧实现用于音乐信号和其他声音信号的频域后处理，其降低解码后的合体(synthesis)的频谱中的量化噪声的。后处理可以在没有任何额外的编码延迟的情况下实现。这里使用的频谱谐波之间的量化噪声的频域移除和频域后处理的原理基于vaillancourt等的、2009年09月11日的pct专利公布wo2009/109050a1(在下文中为“vaillancourt’050”)，其公开通过引用合并于此。一般地，对解码后的合体应用这种频域后处理，并且这种频域后处理需要增加处理延迟以便包括重叠并且增加处理以得到显著的质量增益。此外，使用传统频域后处理能力，由于有限的频率分辨率，增加的延迟越短(即变换窗口越短)，后处理效果越差。根据本公开，频域后处理实现更高的频率分辨率(使用更长的频率变换)，而不对合体增加延迟。此外，利用过去帧频率能量中存在的信息来创建应用于当前帧频谱的加权掩模，以取回，即增强，在编码噪声中丢失的频谱信息。为了在不对合体增加延迟的情况下实现该后处理，在该示例中，使用对称的梯形窗口。其中心在窗口是平的(flat)的当前帧(其具有值为1的固定值)，并且外推被用于创建未来信号。虽然后处理一般可能被直接应用于任何编解码器的合成信号，但是本公开引入示意性实施例，其中后处理被应用于在编码激励线性预测(celp)编解码器的架构中的激励信号，其被描述在标题为“adaptivemulti-rate–wideband(amr-wb)”的、第三代合作伙伴项目(3gpp)的技术规范(ts)26.190中，3gpp网站上可获取该技术规范，且通过引用将其全部内容合并于此。对激励信号而非合成信号进行工作的优点在于由后处理引入的任何潜在不连续性被随后应用celp合成滤波器而平滑掉。在本公开中，具有12.8khz的内采样频率的amr-wb用于示例目的。然而，本公开可以应用于其中由通过合成滤波器(例如lp合成(synthesis)滤波器)滤波的激励信号获得合体的其他低比特速率语音解码器。其也可以应用于其中使用时域和频域激励的组合对音乐进行编码的多模式编解码器上。下面总结后滤波器的操作。然后是使用amr-wb的示意性实施例的详细描述。首先，与在其公开通过引用合并于此的jelinek等的、2003年12月11日的pct专利公开wo2003/102921、vaillancourt等的、2007年07月05日的pct专利公开wo2007/073604a1、以及vaillancourt等名下的、2012年11月01日提交的pct国际申请pct/ca2012/001011(在下文中为“vaillancourt’011”)中公开的类似，对完整比特流进行解码并且通过第一级分类器处理当前帧合体。出于本公开的目的，该第一级分类器分析帧并且将非活动(inactive)帧和例如对应于活动非嗓音语音的帧的非嗓音(unvoiced)帧分开。使用第二级分类器分析在第一级中没有被分类为非活动帧或非嗓音帧的全部帧。第二级分类器决定是否应用后处理以及应用到何种程度。当不应用后处理时，仅更新与后处理有关的存储器。对于没有被第一级分类器分类为非活动帧或活动非嗓音语音帧的全部帧，使用过去的解码后的激励、当前帧解码的激励和未来激励的外推形成向量。过去的解码后的激励和外推的激励的长度相同并且取决于频率变换的期望分辨率。在该示例中，使用的频率变换的长度是640个样本。使用过去和外推的激励创建向量允许增大频率分辨率。在本示例中，过去的和外推的激励的长度相同，但是后滤波器不一定需要窗口对称来高效地工作。然后，使用第二级分类器分析连结的激励(包括过去的解码后的激励、当前帧解码后的激励和未来激励的外推)的频率表示的能量稳定性，以确定存在音乐的可能性。在该示例中，在两级处理中进行存在音乐的确定。然而，音乐检测可以以不同方式进行，例如可能在频率变换之前的单个操作中进行，或甚至在编码器中确定并且在比特流中传送。与在vaillancourt’050中类似，通过估计每个频率点(bin)的信噪比(snr)以及通过根据其snr对每一个频率点(bin)应用增益来降低谐波间量化噪声。然而，在本公开中，与在vaillancourt’050中教导的不同地完成噪声能量估计。然后，使用取回在编码噪声中丢失的信息并且进一步增大频谱的动态的额外处理。该处理以能量频谱的0和1之间的标准化开始。然后，常数偏移被加到标准化后的能量频谱。最后，对修改的能量频谱的每一个频率点应用8的幂。通过平均函数沿频率轴从低频到高频处理得到的缩放后的能量频谱。最后，逐点进行频谱在时间上的长期平滑处理。处理的该第二部分导致其中波峰对应于重要的频谱信息并且波谷对应于编码噪声的掩模。随后使用该掩模，通过稍微增大波峰区域处的频谱点幅度同时衰减在波谷中的点幅度，从而增大峰谷比，来滤除噪声和增大频谱动态。使用高频分辨率完成这两个操作，而不对输出合体增加延迟。在增强连结的激励向量的频率表示之后(其噪声降低并且其频谱动态增大)，进行逆频率变换以创建连结的激励的增强版本。在本公开中，对应于当前帧的变换窗口的部分是基本上平的，并且仅应用于过去的和外推的激励信号的窗口的部分需要被锥形化。这使得可以在逆变换之后消除增强的激励的当前帧。该上一操纵类似于在当前帧的位置处将时域增强的激励与矩形窗口相乘。虽然在没有增加重要的块假象(artifact)的情况下在合成域中不能完成该操作，但是这可以可替换地在激励域中完成，因为lp合成滤波器有助于对从一个块到另一个块的转变进行平滑处理，如vaillancourt’011中所示。示例amr-wb实施例的描述这里描述的后处理应用于lp合成滤波器的解码后的激励，用于如音乐或回响语音的信号。可以通过向解码器发送分类信息作为amr-wb比特流的一部分的编码器用信号通知关于信号(语音、音乐和回响语音等)的性质的决定和关于应用后处理的决定。如果不是这种情况，则可替换地可以在解码器侧上完成信号分类。取决于复杂度和分类可靠性权衡，合成滤波器可以可选地应用于当前激励以得到临时合体和更好的分类分析。在该配置中，如果分类导致应用后滤波的类别，则覆写合体。为了使得增加的复杂度最小化，还可以在过去的帧合体上完成分类，并且在后处理之后，应用一次合成滤波器。现在参考附图，图1是示出根据实施例的用于降低在由时域解码器解码的时域激励中包含的信号中的量化噪声的方法的操作的流程图。图1中，序列10包括可以以可变顺序执行的多个操作，所述操作中的一些可以同时执行，所述操作中的一些是可选的。在操作12处，时域解码器取回并解码由编码器产生的比特流，比特流包括以参数的形式的、可用于重建时域激励的时域激励信息。对此，时域解码器可以通过输入接口接收比特流或从存储器读取比特流。在操作16处，时域解码器将解码后的时域激励转换为频域激励。在操作16处将激励信号从时域转换为频域之前，可以在操作14处外推未来的时域激励，使得时域激励到频域激励的转换变为无延迟的。也就是说，在不需要额外延迟的情况下，进行更好的频率分析。为此，过去的、当前的和预测的未来的时域激励信号可以在转换为频域之前被连结。在操作18处，时域解码器随后产生用于取回在量化噪声中丢失的频谱信息的加权掩模。在操作20处，时域解码器修改频域激励以通过加权掩模的应用来增大频谱动态。在操作22处，时域解码器将修改的频域激励转换为修改的时域激励。时域解码器可以随后在操作24处产生修改的时域激励的合体并且在操作26处从解码的时域激励的合体和修改的时域激励的合体中的一个生成声音信号。可以使用若干可选特征修改图1中示出的方法。例如，解码后的时域激励的合体可以被分类为第一组激励类别和第二组激励类别中的一个，其中第二组激励类别包括非活动或非嗓音类别，而第一组激励类别包括其他类别。解码后的时域激励到频域激励的转换可以应用于被分类为第一组激励类别的解码后的时域激励。取回的比特流可以包括可用于将解码后的时域激励的合体分类为第一组激励类别或第二组激励类别之一的分类信息。为了生成声音信号，当时域激励被分类为第二组激励类别时，输出合体可以被选择为解码后的时域激励的合体，或者当时域激励被分类为第一组激励类别时，输出合体可以被选择为修改的时域激励的合体。可以分析频域激励以确定频域激励是否包含音乐。具体地，确定频域激励包含音乐可以依赖于将频域激励的频谱能量差的统计偏差与阈值进行比较。可以使用时间平均或频率平均或两者的组合产生加权掩模。对于解码后的时域激励的选择的频带估计信噪比，并且可以基于估计的信噪比进行频域噪声降低。统称为图2的图2a和2b是具有用于降低音乐信号和其他声音信号中的量化噪声的频域后处理能力的解码器的简化示意图。解码器100包括图2a和2b中示出的若干元件，这些元件通过所示箭头互连，互连中的一些使用示出图2a的一些元件如何与图2b的其他元件有关的连接器a、b、c、d和e示出。解码器100包括接收器102，其例如通过无线电通信接口从编码器接收amr-wb比特流。可替换地，解码器100可以可操作地连接到存储比特流的存储器(未示出)。解复用器103从比特流提取时域激励参数以重建时域激励、基音落后(pitchlag)信息和语音活动检测(vad)信息。解码器100包括接收时域激励参数以解码本帧的时域激励的时域激励解码器104、过去的激励缓冲存储器106、两个(2)lp合成滤波器108和110、包括接收vad信号的信号分类估计器114和分类选择测试点116的第一级信号分类器112、接收基音落后信息的激励外推器118、激励连结器120、窗口化和频率变换模块122、作为第二级信号分类器的能量稳定性分析器124、每频带噪声水平估计器126、降噪器128、包括频谱能量标准化器131、能量平均器132和能量平滑器134的掩模(mask)构造器130、频谱动态修改器136、频域到时域转换器138、帧激励提取器140、包括控制开关146的决定测试点144的覆写器142、以及去加重滤波器和重新采样器148。由决定测试点144做出的覆写决定基于从第一级信号分类器112获得的非活动或非嗓音分类以及基于从第二级信号分类器124获得的声音信号类别ecat确定来自lp合成滤波器108的核心合成信号150或来自lp合成滤波器110的修改的即增强的合成信号152是否被馈送到去加重滤波器和重新采样器148。去加重滤波器和重新采样器148的输出被馈送到提供模拟信号的数模(d/a)转换器154，所述模拟信号被放大器156放大并且被进一步提供到生成可听声音信号的扬声器158。可替换地，去加重滤波器和重新采样器148的输出可以以数字格式通过通信接口(未示出)被传送或以数字格式被存储在存储器(未示出)、紧凑盘或任何其他数字存储介质上。作为另一替换，d/a转换器154的输出可以直接或通过放大器被提供到耳机(未示出)。作为再一替换，d/a转换器154的输出可以被记录在模拟介质(未示出)上或作为模拟信号通过通信接口(未示出)被传送。下列段落提供由图2的解码器100的各种组件进行的操作的细节。1)第一级分类在示意性实施例中，响应于来自解复用器103的vad信号的参数，在第一级分类器112中的解码器处进行第一级分类。解码器第一级分类与vaillancourt’011中的类似。下列参数用于在解码器的信号分类估计器114处的分类：标准化相互关系rx、频谱倾斜度量et、基音(pitch)稳定性计数器pc、当前帧的结束处的信号的相对帧能量es、以及过零(zero-crossing)计数器zc。下文解释用于对信号进行分类的这些参数的计算。基于合成信号在帧的结束处计算标准化相互关系rx。使用最后子帧的基音落后。如下基音同步地计算标准化相互关系rx：其中t是最后子帧的基音落后，t＝l-t，并且l是帧大小。如果最后子帧的基音落后大于3n/2(n是子帧大小)，则t被设置为最后2个子帧的平均基音落后。使用合成信号x(i)计算相互关系rx。对于低于子帧大小(64个样本)的基音落后，在时刻t＝l-t和t＝l-2t处两次计算标准化的相互关系，并且rx被给定为两次计算的平均。频谱倾斜参数et包含关于能量的频率分布的信息。在本示意性实施例中，在解码器处的频谱倾斜被估计为合成信号的第一标准化自相关系数。基于最后3个子帧将其计算为：其中x(i)是合成信号，n是子帧大小，并且l是帧大小(在该示意性实施例中n＝64和l＝256)。基音稳定性计数器pc评估基音时段的变化。在解码器处将其计算为：pc＝|p3 p2-p1-p0|(3)值p0、p1、p2和p3对应于来自4个子帧的闭环基音落后。相对帧能量被计算为以db为单位的当前帧能量与其长期平均之间的差es＝ef-elt(4)其中帧能量ef是如下在帧的结束处基音同步地计算的以db为单位的合成信号sout的能量：其中l＝256是帧长度，并且t是最后2个子帧的平均基音落后。如果t小于子帧大小，则t被设置为2t(对于短的基音落后使用两个基音时段计算能量)。使用下列关系对活动帧更新长期平均能量：elt＝0.99elt 0.01ef(6)最后的参数是在合成信号的一个帧上计算的过零参数zc。在该示意性实施例中，过零计数器zc对在该时间间隔期间信号符号从正向负改变的次数。为了使得第一级分类更稳健，一起考虑分类参数形成优质(merit)函数fm。出于该目的，首先使用线性函数对分类参数进行缩放。让我们考虑参数px，使用下列关系获得其缩放后的版本：ρs＝kρ·px cp(7)缩放后的基音稳定性参数被限幅在0和1之间。对于参数中的每一个，已经实验性地找到了函数系数kp和cp。在表1中总结了该示意性实施例中使用的值。表1：解码器处的信号第一级分类参数及其相应的缩放函数的系数优质函数被定义为其中上标s指示参数的缩放后的版本。然后使用优质函数fm和在表2中总结的下列规则完成分类(分类选择测试点116)。表2：解码器处的信号分类规则除了该第一级分类之外，如在基于amr-wb的示意性示例中，可以在比特流中传送关于编码器的语音活动检测(vad)的信息。因此，在比特流中发送1个比特以指定编码器是否将当前帧考虑为活动内容(vad＝1)或非活动内容(背景噪声，vad＝0)。当内容被考虑为非活动的时，则分类被覆写为非嗓音。第一级分类方案还包括通用(generic)音频检测。通用音频类别包括音乐、回响语音并且还可以包括背景音乐。2个参数用于识别该类别。参数中的一个是等式(5)中表示的总帧能量ef。首先，模块确定两个相邻帧的能量差具体地，当前帧的能量和先前帧的能量之间的差。然后，使用下列关系计算过去40个帧上的平均能量差其中然后，模块使用下列关系确定在过去十五(15)个帧上的能量变化的统计偏差σe：在示意性实施例的实际实现中，实验性地找到缩放因子p并且将其设置为约0.77。得到的偏差σe给出关于解码后的合体的能量稳定性的指示。通常，音乐比语音具有更高的能量稳定性。第一级分类的结果进一步被用于对被分类为非嗓音的2个帧之间的帧数目nuv进行计数。在实际实现中，仅对具有高于-12db的能量ef的帧进行计数。通常，当帧被分类为非嗓音时，计数器nuv被初始化为0。然而，当帧被分类为非嗓音并且其能量ef大于-9db以及长期平均能量elt低于40db时，则计数器被初始化为16，以便向音乐决定给出微小偏置。另外，如果帧被分类为非嗓音但是长期平均能量elt高于40db，则将计数器减8，以便向语音决定收敛。在实际实现中，对于活动信号，计数器被限制在0和300之间；对于非活动信号，计数器还被限制在0和125之间，以便当下一活动信号事实上是语音时，得到向语音决定的快速收敛。这些范围不是限制性的，并且在特定实现中也可以设想其他范围。对于该示意性示例，从包括在比特流中的语音活动决定(vad)推导出活动和非活动信号之间的决定。对于活动信号，从该非嗓音帧推导长期平均如下：并且对于非活动信号如下：其中t是帧索引。下列伪代码示出非嗓音计数器的功能及其长期平均：此外，当在某一帧中长期平均非常高并且偏差σe也高时(在当前示例中和σe＞5)，意味着当前信号不可能为音乐，在该帧中不同地更新长期平均。将其更新为使得其收敛到值100并且将决定向语音偏向。如下所示将此完成：关于在非嗓音分类的帧之间的帧的数目的长期平均的该参数用于确定帧是否应被考虑为通用音频。非嗓音帧在时间上越接近，信号越可能具有语音特性(其越不可能是通用音频信号)。在示意性实施例中，决定帧是否被考虑为通用音频ga的阈值被定义如下：如果：在等式(9)中限定的参数被用在(14)中以避免将大的能量变化分类为通用音频。对激励进行的后处理取决于信号的分类。对于一些类型的信号，根本没有进入后处理模块。下表总结了进行后处理的情况。表3：用于激励修改的信号类别帧分类进入后处理模块y/n嗓音y通用音频y非嗓音n非活动n当进入后处理模块时，对连结的激励频谱能量进行在下文中描述的另一能量稳定性分析。类似于在vaillancourt’050中，该第二能量稳定性分析给出关于后处理应在频谱中的何处开始以及应将其应用到何种程度的指示。2)创建激励向量为了增大频率分辨率，使用比帧长度更长的频率变换。为了这样做，在示意性实施例中，在激励连结器120中通过连结存储在过去的激励缓冲存储器106中的先前帧激励的最后192个样本、来自时域激励解码器104的当前帧e(n)的解码后的激励、以及来自激励外推器118的未来帧ex(n)的192个激励样本的外推来创建连结的激励向量ec(n)。这在下文中描述，其中lw是过去的激励的长度以及外推的激励的长度，并且l是帧长度。在示例性实施例中，这分别对应于192和256个样本，给定总长度lc＝640个样本：在celp解码器中，如下给出时域激励信号e(n)e(n)＝bv(n) gc(n)其中v(n)是自适应码本贡献，b是自适应码本增益，c(n)是固定码本贡献，并且g是固定码本增益。通过使用当前帧的最后的子帧的解码后的分数基音周期性地扩大来自时域激励解码器104的当前帧激励信号e(n)来在激励外推器118中计算未来激励样本ex(n)的外推。给定基音落后的分数分辨率，使用35个样本长的汉明窗口正弦函数进行当前帧激励的上采样。3)窗口化在窗口化和频率变换模块122中，在时频变换之前对连结的激励进行窗口化。选择的窗口w(n)具有对应于当前帧的平顶，并且其在每一端以汉宁函数减小为0。下列等式表示使用的窗口：当应用于连结的激励时，在实际实现中获得对具有总长度lc＝640个样本(lc＝2lw l)的频率变换的输入。窗口化的连结的激励ewc(n)的中心在当前帧上，并且使用下列等式表示：4)频率变换在频域后处理阶段期间，在变换域中表示连结的激励。在该示意性实施例中，使用给出10hz分辨率的类型iidct在窗口化和频率变换模块122中实现时频转换，但是也可以使用任何其他变换。在使用另一变换(或不同的变换长度)的情况下，频率分辨率(在上文中定义)、频带的数目和每个频带的点的数目(进一步在下文中定义)可能需要被相应地修改。连结的和窗口化的时域celp激励fe的频率表示被如下给出：其中，ewc(n)是连结的和窗口化的时域激励，并且lc是频率变换的长度。在该示意性实施例中，帧长度l是256个样本，但帧变换的长度lc是640个样本用于12.8khz的对应内采样频率。5)每个频带和每个点(bin)的能量分析在dct之后，得到的频谱被分为临界频带(实际实现使用在0-4000hz的频率范围中的17个临界频带，以及在0-6400hz的频率范围中的20个临界频带)。使用的临界频带尽可能接近j.d.johnston，“transformcodingofaudiosignalusingperceptualnoisecriteria”，ieeej.select.areascommun.，vol.6，pp.314-323，feb.1988(其内容通过引用合并于此)中指定的内容，并且它们的上限被定义为如下：cb＝{100，200，300，400，510，630，770，920，1080，1270，1480，1720，2000，2320，2700，3150，3700，4400，5300，6400}hz.640点dct导致10hz的频率分辨率(6400hz/640pts)。每个临界频带的频率点的数目是mcb＝{10，10，10，10，11，12，14，15，16，19，21，24，28，32，38，45，55，70，90，110}.每个临界频带的平均频谱能量eb(i)被计算如下：其中fc(h)表示临界频带的第h个频率点，并且ji是如下给出的第i个临界频带中的第一个点的索引ji＝{0，10，20，30，40，51，63，77，92，108，127，148，172，200，232，270，315，370，440，530}.频谱分析还使用下列关系计算每个频率点的频谱的能量ebin(k)：最后，频谱分析使用下列关系计算连结的激励的总频谱能量ec作为最先的17个临界频带的频谱能量的和：6)激励信号的第二级分类如在vaillancourt’050中所述，用于增强解码后的通用声音信号的方法包括激励信号的额外分析，其被设计为通过识别哪一个帧良好地适用于声调间噪声降低来进一步最大化谐波间噪声降低的效率。第二级信号分类器124不仅进一步将解码后的连结的激励分离为声音信号类别，而且还向谐波间降噪器128给出关于衰减的最大水平和降噪可以开始的最小频率的指示。在本示意性实施例中，第二级信号分类器124已被保持为尽可能简单，并且非常类似于在vaillancourt’050中所述的信号类型分类器。第一操作包括进行与在等式(9)和(10)中完成的类似的能量稳定性分析，但是使用如在等式(21)中表示的连结的激励的总频谱能量ec作为输入：其中表示2个相邻帧的连结的激励向量的能量的平均差，表示当前帧t的连结的激励的能量，并且表示先前帧t-1的连结的激励的能量。在最后40个帧上计算平均。然后，使用下列关系计算在最后十五(15)个帧上的能量变化的统计偏差σc：其中，在实际实现中，实验性地找到缩放因子p并且将其设置为约0.77。将得到的偏差σc与四(4)个浮动阈值进行比较以确定可以将谐波之间的噪声降低到何种程度。该第二级信号分类器124的输出被分为五(5)个声音信号类别ecat，即声音信号类别0到4。每一个声音信号类别具有其自己的声调(tone)间噪声降低调谐。可以如在下表中指示地确定五(5)个声音信号类别0-4。表4：激励分类器的输出特性声音信号类别0是没有通过声调间噪声降低技术修改的非声调、非稳定的声音信号类别。该解码后的声音信号的类别具有频谱能量变化的最大统计偏差，并且通常包括语音信号。当频谱能量变化的统计偏差σc低于阈值1并且最后检测到的声音信号类别≥0时，检测到声音信号类别1(类别0之后的频谱能量变化的最大统计偏差)。然后在频带920到hz(在该示例中为6400hz，其中fs是采样频率)内的解码后的声调激励的量化噪声的最大降低被限于6db的最大噪声降低rmax。当频谱能量变化的统计偏差σc低于阈值2并且最后检测到的声音信号类别≥1时，检测到声音信号类别2。然后在频带920到hz内的解码后的声调激励的量化噪声的最大降低被限于9db的最大值。当频谱能量变化的统计偏差σc低于阈值3并且最后检测到的声音信号类别≥2时，检测到声音信号类别3。然后在频带770到hz内的解码后的声调激励的量化噪声的最大降低被限于12db的最大值。当频谱能量变化的统计偏差σc低于阈值4并且最后检测到的声音信号类别≥3时，检测到声音信号类别4。然后在频带630到hz内的解码后的声调激励的量化噪声的最大降低被限于12db的最大值。浮动阈值1-4有助于防止错误的信号类型分类。通常，表示音乐的解码后的声调声音信号得到比语音更低的其频谱能量变化的统计偏差。然而，甚至音乐信号可以包含更高的统计偏差部分，并且类似地，语音信号可以包含具有更低的统计偏差的部分。然而，语音和音乐内容不可能以帧为基础从一个向另一个地规则地改变。浮动阈值增加决定滞后并且用作先前状态的增强以基本上防止可能导致谐波间降噪器128的次优性能的任何误分类。声音信号类别0的连续帧的计数器以及声音信号类别3或4的连续帧的计数器分别用于减小或增大阈值。例如，如果计数器对声音信号类别3或4的一系列的多于30个帧进行计数，则为了允许更多帧被认为是声音信号类别4，将全部浮动阈值(1到4)增大预定义值。对于声音信号类别0，情况相反。例如，如果对声音信号类别0的一系列的多于30个帧进行计数，则为了允许更多帧被认为是声音信号类别0，将全部浮动阈值(1到4)减小。全部浮动阈值1-4限于绝对最大和最小值以确保信号分类器不被锁定于固定类别。在帧擦除的情况下，全部阈值1-4被重置为它们的最小值，并且对于三(3)个连续帧(包括丢失的帧)，第二级分类器的输出被认为是非声调(声音信号类别0)。如果来自语音活动检测器(vad)的信息可用并且其指示没有话音活动(呈现安静)，则第二级分类器的决定被强制为声音信号类别0(ecat＝0)。7)激励域中的谐波间噪声降低对连结的激励的频率表示进行声调间或谐波间噪声降低作为增强的第一操作。通过使用限制在最小和最大增益gmin和gmax之间的缩放增益gs对每一个临界频带中的频谱进行缩放，在降噪器128中进行声调间量化噪声的降低。从该临界增益中的估计的信噪比(snr)推导缩放增益。基于频率点而非基于临界频带进行处理。因此，对全部频率点应用缩放增益，并且从使用点能量除以包括该点的临界带的噪声能量的估计计算的snr推导该缩放增益。该特征允许保留在谐波或声调附近的频率处的能量，因此基本上防止了失真，同时大大降低谐波之间的噪声。在全部640个点上以每点的方式进行声调间噪声降低。在已经对频谱应用了声调间噪声降低之后，进行频谱增强的另一操作。然后，如下所述，使用逆dct重建增强的连结的激励e′id信号。从以db为单位的最大允许声调间噪声降低rmax推导最小缩放增益gmin。如上所述，第二级分类使得最大允许降低在6和12db之间改变。因此，最小缩放增益如下给出关于每个点的snr计算缩放增益。然后，如上所述，进行每个点的噪声降低。在当前示例中，对至6400hz的最大频率的整个频谱应用每个点处理。在该示意性实施例中，在第6个临界频带处开始噪声降低(即不对低于630hz进行降低)。为了降低本技术的任何负面影响，第二级分类器可以将开始临界频带向上推至第8个频带(920hz)。这意味着进行噪声降低的第一临界频带在630hz和920hz之间，并且该第一临界频带可以基于帧而变化。在更保守的实现方式中，噪声降低开始的最小频带可以被设置得更高。用于某一频率点k的缩放被计算为snr的函数，如下给出通常，gmax等于1(即，不允许放大)，然后确定ks和cs的值，例如对于snr＝1db,gs＝gmin，并且对于snr＝45db,gs＝1。也就是说，对于1db和更低的snr，缩放被限为gmin，并且对于45db和更高的snr，不进行噪声降低(gs＝1)。因此，对于这两个端点，等式(25)中ks和cs的值由下式给出如果gmax被设置为高于1的值，则其允许处理稍微放大具有最高能量的声调。这可以用于补偿在实际实现中使用的celp编解码器不完全匹配频域中的能量的事实。对于与嗓音语音不同的信号，一般都是如此。在某一临界频带i中的每个点的snr被计算为其中和分别表示如在等式(20)中计算的过去的和当前的帧频谱分析的每个频率点的能量，nb(i)表示临界频带i的噪声能量估计，ji是第i个临界频带中的第一点的索引，并且mb(i)是如上定义的临界频带i中的点的数目。平滑因子是自适应的并且使得其与增益本身逆向相关。在该示意性实施例中，平滑因子由αgs＝1-gs给出。也就是说，对于越小的增益gs，平滑越强。该方式充分防止低snr的帧之后的高snr部分中的失真，如对于嗓音进攻的情况。在示意性实施例中，平滑过程能够在开始时快速适应并且使用更低的缩放增益。在具有索引i的临界频带中的每点处理的情况下，在如在等式(25)中确定缩放增益并使用如在等式(27)中定义的snr之后，使用在每个频率分析中更新的平滑的放增益gbin，lp进行实际缩放，如下gbin，lp(k)＝αgsgbin，lp(k) (1-αgs)gs(28)增益的时间平滑充分防止可听能量振荡，同时使用αgs控制平滑充分防止低snr的帧之后的高snr部分中的失真，如对于嗓音进攻或攻击的情况。临界频带i中的缩放如下进行f′e(h ji)＝gbin，lp(h ji)fe(h ji)，h＝0，...，mb(i)-1(29)其中ji是临界频带i中的第一点的索引，并且mb(i)是该临界频带中的点的数目。平滑的缩放增益gbin，lp(k)被初始设置为1。每次处理非声调声音帧ecat＝0，平滑的增益值被重置为1.0以降低下一帧中的任何可能的降低。注意，在每一个频谱分析中，在整个频谱中对于全部频率点更新平滑的缩放增益gbin，lp(k)。注意，在低能量信号的情况下，声调间噪声降低被限于-1.25db。这在全部临界频带中的最大噪声能量max(nb(i))，i＝0，...，20小于或等于10时发生。8)声调间量化噪声估计在该示意性实施例中，在每频带噪声水平估计器126中将每个临界频带的声调间量化噪声能量估计排除相同频带的最大点能量的该临界频带的平均能量。以下公式总结对于特定频带i的量化噪声能量的估计：其中ji是临界频带i中的第一点的索引，mb(i)是该临界频带中的点的数目，eb(i)是频带i的平均能量，ebin(h ji)是特定点的能量，并且nb(i)是特定频带i的得到的估计噪声能量。在噪声估计等式(30)中，q(i)表示实验性地找到的每个频带的噪声缩放因子，并且可以根据使用后处理的实施而修改。在实际实现中，设置噪声缩放因子，使得可以在低频中移除更多噪声，而在高频中移除更少噪声，如下所示q＝{10，10，10，10，10，10，11，11，11，11，11，11，11，11，11，15，15，15，15，15}.9)增大激励的频谱动态频率后处理的第二操作提供取回在编码噪声内丢失的频率信息的能力。celp编解码器(尤其在低比特速率处使用时)对于合适地编码3.5-4khz以上的频率内容并不非常高效。这里的主要想法是利用音乐频谱通常从帧到帧基本不改变的事实。因此，可以完成长期平均，并且可以消除编码噪声中的一些。进行下列操作以定义频率相关增益函数。该函数随后被用于在将激励转换回时域之前进一步增强激励。a.频谱能量的每点标准化第一操作包括在掩模构造器130中基于连结的激励的频谱的标准化的能量创建加权掩模。在频谱能量标准化器131中完成标准化，使得声调(或谐波)具有1.0以上的值，并且波谷具有1.0以下的值。为了这样做，在0.925和1.925之间标准化点能量频谱ebin(k)以使用下列等式得到标准化的能量频谱en(k)：其中ebin(k)表示如在等式(20)中计算的点能量。因为在能量域中进行标准化，因此许多点具有非常低的值。在实际实现中，已经选择了偏移0.925，使得仅一小部分的标准化能量频谱将具有低于1.0的值。一旦完成标准化，就通过幂函数处理得到的标准化的能量频谱以获得缩放后的能量频谱。在该示意性示例中，8次幂用于将缩放后的能量频谱的最小值限制为大约0.5，如在下列公式中所示，：ep(k)＝en(k)8k＝0，...，639(32)其中en(k)是标准化的能量频谱，并且ep(k)是缩放后的能量频谱。更激进的幂函数可以用于进一步降低量化噪声，例如可以选择10或16次幂，可能具有接近1的偏移。然而，试图移除太多噪声也可以导致重要信息的丢失。对于高于1的能量频谱值，使用幂函数而不限制其输出将快速导致饱和。因此，在实际实现中，缩放后的能量频谱的最大限制被固定为5，创建在最大和最小标准化能量值之间的近似10的比值。在支配(dominant)点从一个帧到另一帧可以具有稍微不同的位置，使得加权掩模优选从一个帧到下一帧相对稳定的情况下，这是有用的。下列等式示出如何应用所述函数：epl(k)＝min(5，ep(k))k＝0，...，639(33)其中epl(k)表示有限的缩放后的能量频谱并且ep(k)是如在等式(32)中定义的缩放后的能量频谱。b.沿频率轴和时间轴的缩放后的能量频谱的平滑使用上面最后两个操作，最有能量的脉冲的位置开始成形。对标准化能量频谱的点应用8次幂是创建用于增大频谱动态的高效掩模的第一操作。下两(2)个操作进一步增强该频谱掩模。首先，在能量平均器132中使用平均滤波器沿频率轴从低频到高频对缩放后的能量频谱进行平滑处理。然后，在能量平滑器134中沿时域轴处理得到的频谱以从帧到帧对点的值进行平滑处理。可以使用下列函数描述沿频率轴的缩放后的能量频谱的平滑：最后，沿时间轴的平滑导致要应用于频谱f′e的时间平均的放大/衰减加权掩模gm。使用下列等式描述也被称为增益掩模的加权掩模：其中是沿频率轴进行平滑的缩放后的能量频谱，t是帧索引，并且gm是时间平均的加权掩模。对于更低的频率选择更慢的适应速率以充分防止增益振荡。对于更高的频率允许更块的适应速率，因为声调的位置更可能在频谱的更高部分中快速地改变。在频率轴上进行平均和沿时间轴进行长期平滑处理的情况下，(35)中获得的最终向量被用作要直接应用在等式(29)的连结的激励的增强的频谱f′e上的加权掩模。10)将加权掩模应用于增强的连结的激励频谱通过频谱动态修改器136根据第二级激励分类器的输出(表4中所示的ecat的值)来不同地应用上面定义的加权掩模。如果激励被分类为类别0，则不应用加权掩模(ecat＝0；即语音内容的高概率)。当编解码器的比特速率高时，量化噪声的水平通常较低并且其随着频率变化。这意味着可以根据频谱内的脉冲位置和编码后的比特速率限制声调放大。使用除了celp之外的另一编码方法，例如如果激励信号包括时域和频域编码分量的组合，则对于每一个具体情况，可以调整加权掩模的使用。例如，可以限制脉冲放大，但是所述方法仍可以用作量化噪声降低。对于开始的1khz(在实际实现中，开始的100个点)，如果激励不被分类为类别0(ecat≠0)，则应用掩模。衰减是可能的，但是在该频率范围中并不进行放大(掩模的最大值限于1.0)。如果多于25个连续帧被分类为类别4(ecat＝4；即音乐内容的高概率)，但是不多于40个帧，则对于全部剩余点(点100到639)，应用加权掩模而不进行放大(最大增益gmax0被限制为1.0，并且对最小增益没有限制)。当多于40个帧被分类为类别4时，对于1和2khz之间的频率(在实际实现中，点100到199)，对于低于12650比特每秒(bps)的比特速率，最大增益gmax1被设置为1.5。否则，最大增益gmax1被设置为1.0。在该频带中，仅在比特速率高于15850bps的情况下，最小增益gmin1被固定为0.75，否则对最小增益没有限制。对于频带2到4khz(在实际实现中，点200到399)，对于低于12650bps的比特速率，最大增益gmax2被限制为2.0，并且对于等于或高于12650bps并且低于15850bps的比特速率，最大增益gmax2被限制为1.25。否则，最大增益gmax2被限制为1.0。仍然在该频带中，仅在比特速率高于15850bps的情况下，最小增益gmin2被固定为0.5，否则对最小增益没有限制。对于频带4到6.4khz(在实际实现中，点400到639)，对于低于15850bps的比特速率，最大增益gmax3被限制为2.0，否则最大增益gmax3被限制为1.25。在该频带中，仅在比特速率高于15850bps的情况下，最小增益gmin3被固定为0.5，否则对最小增益没有限制。应注意，根据编解码器的特性，最大和最小增益的其他调谐可能是适当的。下一伪代码示出当加权掩模gm被应用于增强的频谱f′e时，如何影响连结的激励的最终频谱f″e。注意，并不绝对需要频谱增强的第一操作(如部分7中所述)来进行每点增益修改的该第二增强操作。这里，f″e表示先前使用等式(28)的与snr有关的函数gbin，lp(k)增强的连结的激励的频谱，gm是在等式(35)中计算的加权掩模，gmax和gmin是如上定义的每个频率范围的最大和最小增益，t是帧索引，其中t＝0对应于当前帧，最后f″e是连结的激励的最终增强频谱。11)逆频率变换在完成频域增强之后，在频域到时域转换器138中进行反向的频时变换，以便取回增强的时域激励。在该示意性实施例中，使用与用于时频转换相同的类型iidct实现频时转换。修改的时域激励e′td被获得为其中f″e是修改的激励的频率表示，e′td是增强的连结的激励，并且lc是连结的激励向量的长度。12)对当前celp合体进行合成滤波和覆写因为不期望对合体增加延迟，已经决定在实际实现的构建中避免重叠和相加(overlap-and-add)算法。实际实现采用最终激励ef的确切长度，用于从增强的连结的激励直接生成合体，而没有重叠，如在下列等式中所示：ef(n)＝e′td(n lw)，n＝0,...,255(38)这里，lw表示在频率变换之前应用在过去的激励上的窗口长度，如在等式(15)中说明的。一旦完成激励修改并且使用帧激励提取器140从连结的向量提取了来自频域到时域转换器138的增强的修改时域激励的适当长度，就通过合成滤波器110处理修改的时域激励以获得用于当前帧的增强的合成信号。该增强的合体用于覆写来自合成滤波器108的原始解码的合体以便提高感知质量。响应于来自类别选择测试点116和来自第二级信号分类器124的信息，由如上所述的包括控制开关146的决定测试点144的覆写器142采取覆写的决定。图3是形成图2的解码器的硬件组件的示例配置的简化框图。解码器200可以被实现为移动终端的部分，被实现为便携式媒体播放器的部分，或被实现在任何类似装置中。解码器200包括输入202、输出204、处理器206和存储器208。输入202被配置为接收amr-wb比特流102。输入202是图2的接收器102的一般化。输入202的非限制实现示例包括移动终端的无线电接口以及例如便携式媒体播放器的通用串行总线(usb)端口的物理接口等。输出204是图2的d/a转换器154、放大器156和扬声器158的一般化，并且可以包括音频播放器、扬声器和记录装置等。可替换地，输出204可以包括可连接到音频播放器、扬声器和记录装置等的接口。输入202和输出204可以被实现在公共模块中，例如串行输入/输出装置。处理器206可操作地连接到输入202、输出204和存储器208。处理器206被实现为用于执行支持时域激励解码器104、lp合成滤波器108和110、第一级信号分类器112及其组件、激励外推器118、激励连结器120、窗口化和频率变换模块122、第二级信号分类器124、每频带噪声水平估计器126、降噪器128、掩模构造器130及其组件、频谱动态修改器136、频域到时域转换器138、帧激励提取器140、覆写器142及其组件以及去加重滤波器和重新采样器148的功能的代码指令的一个或多个处理器。存储器208存储各种后处理操作的结果。更具体地，存储器208包括过去的激励缓冲存储器106。在一些变化中，从处理器206的各种功能导致的中间处理可以被存储在存储器208中。存储器208可以进一步包括用于存储可以由处理器206执行的代码指令的非瞬时存储器。存储器208还可以存储来自去加重滤波器和重新采样器148的音频信号，在处理器206请求时提供存储的音频信号到输出204。本领域普通技术人员将认识到用于降低包含在由时域解码器解码的时域激励中的音乐信号或其他信号中的量化噪声的装置和方法的描述仅是示意性的并且不意图以任何方式进行限制。受益于本公开的普通技术人员将容易地想起其他实施例。此外，可以自定义所公开的装置和方法以向改进基于线性预测(lp)的编解码器的音乐内容呈现的现有需要和问题提供有价值地解决方案。为了清楚，并未示出和描述装置和方法的实现方式的全部常规特征。当然，将理解在用于降低包含在由时域解码器解码的时域激励中的音乐信号中的量化噪声的装置和方法的任何这种实际实现方式的开发中，可能需要做出许多实现方式特定的决定，以便实现开发者的特定目标，例如符合与应用、系统、网络和业务有关的约束，并且这些特定目标将从一个实现方式到另一实现方式以及从一个开发者到另一开发者地变化。此外，将理解开发工作可能是复杂和耗时的，但是对于受益于本公开的声音处理领域的普通技术人员将是工程的常规任务。根据本公开，可以使用各种类型的操作系统、计算平台、网络装置、计算机程序和/或通用机器实现这里描述的组件、处理操作和/或数据结构。此外，本领域普通技术人员将认识到还可以使用具有较不通用的性质的装置，例如硬连线装置、现场可编程门阵列(fpga)或专用集成电路(asic)等。其中由计算机或机器实现包括一系列处理操作的方法，并且那些处理操作可以被存储为可由机器读取的一系列指令，所述一系列指令可以被存储在可读介质上。虽然在上文中通过非限制性的、示意性的实施例已经描述了本公开，但是在所附权利要求的范围内，可以随意修改这些实施例，而不背离本公开的精神和性质。当前第1页1 2 3
技术特征：

1.一种用于降低在由时域解码器解码的时域激励中包含的声音信号中的量化噪声的装置，包括：

激励外推器，基于解码后的时域激励，评估未来的帧的时域激励；

激励连结器，连结解码后的时域激励和未来的帧的外推的时域激励，以形成连结的时域激励；

转换器，将连结的时域激励转换为频域激励；

掩模构造器，产生用于取回在量化噪声中丢失的频谱信息的加权掩模；

修改器，通过应用加权掩模修改频域激励而增大频谱动态；以及

转换器，将修改的频域激励转换为修改的时域激励；

其中修改的频域激励到修改的时域激励的转换是无延迟的。

2.如权利要求1所述的装置，包括：

分类器，将解码后的时域激励的合体分类为第一组激励类别和第二组激励类别之一；

其中，第二组激励类别包括非活动或非嗓音类别，并且第一组激励类别包括非活动或非嗓音类别以外的其他类别。

3.如权利要求2所述的装置，其中当解码后的时域激励的合体被分类为第一组激励类别时，应用将连结的时域激励转换为频域激励的转换器。

4.如权利要求2所述的装置，其中将解码后的时域激励的合体分类为第一组激励类别和第二组激励类别之一的分类器使用从编码器向时域解码器发送且在时域解码器处从解码后的比特流取回的分类信息。

5.如权利要求2所述的装置，包括第一合成滤波器，产生修改后的时域激励的合体。

6.如权利要求5所述的装置，包括第二合成滤波器，产生解码后的时域激励的合体。

7.如权利要求5或6所述的装置，包括去加重滤波器和重新采样器，从解码后的时域激励的合体和修改的时域激励的合体中的一个生成声音信号。

8.如权利要求5或6所述的装置，包括两级分类器，用于将输出合体选择为：

当解码后的时域激励的合体被分类为第二组激励类别时，解码后的时域激励的合体；以及

当解码后的时域激励的合体被分类为第一组激励类别时，修改的时域激励的合体。

9.如权利要求1所述的装置，包括频域激励的分析器，确定频域激励是否包含音乐。

10.如权利要求9所述的装置，其中频域激励的分析器通过比较频域激励的频谱能量差的统计偏差与阈值来确定频域激励包含音乐。

11.如权利要求1所述的装置，其中激励连结器连结过去的、当前的和未来的时域激励。

12.一种用于降低在由时域解码器解码的时域激励中包含的声音信号中的量化噪声的方法，包括：

基于解码后的时域激励，评估未来的帧的时域激励；

连结解码后的时域激励和未来的帧的时域激励，以形成连结的时域激励；

通过时域解码器将连结的时域激励转换为频域激励；

产生用于取回在量化噪声中丢失的频谱信息的加权掩模；

通过应用加权掩模修改频域激励以增大频谱动态；以及

将修改的频域激励转换为修改的时域激励，

其中修改的频域激励到修改的时域激励的转换是无延迟的。

13.如权利要求12所述的方法，包括：

将解码后的时域激励的合体分类为第一组激励类别和第二组激励类别之一；

其中，第二组激励类别包括非活动或非嗓音类别，并且第一组激励类别包括非活动或非嗓音类别以外的其他类别。

14.如权利要求13所述的方法，包括当解码后的时域激励的合体被分类为第一组激励类别时，应用连结的时域激励到频域激励的转换。

15.如权利要求13所述的方法，包括使用从编码器向时域解码器发送并在时域解码器处从解码后的比特流取回的分类信息，将解码后的时域激励的合体分类为第一组激励类别和第二组激励类别中的一个。

16.如权利要求13所述的方法，包括产生修改的时域激励的合体。

17.如权利要求16所述的方法，包括从解码后的时域激励的合体和修改的时域激励的合体中的一个生成声音信号。

18.如权利要求16所述的方法，包括将输出合体选择为：

当解码后的时域激励被分类为第二组激励类别时，解码后的时域激励的合体；以及

当解码后的时域激励被分类为第一组激励类别时，修改的时域激励的合体。

19.如权利要求12所述的方法，包括分析频域激励以确定频域激励是否包含音乐。

20.如权利要求19所述的方法，包括通过比较频域激励的频谱能量差的统计偏差与阈值来确定频域激励包含音乐。

21.如权利要求12所述的方法，包括连结过去的、当前的和外推的时域激励。

技术总结
本公开涉及一种用于降低在由时域解码器解码的时域激励中包含的声音信号中的量化噪声的装置和方法。基于解码后的时域激励，评估未来的帧的时域激励。连结解码后的时域激励和未来的帧的外推的时域激励，以形成连结的时域激励。连结的时域激励被转换为频域激励。产生加权掩模用于取回在量化噪声中丢失的频谱信息。通过应用加权掩模修改频域激励以增大频谱动态。修改的频域激励被转换为修改的时域激励。其中修改的频域激励到修改的时域激励的转换是无延迟的。所述方法和装置可以用于改进基于线性预测的编解码器的音乐内容呈现。

技术研发人员：T.韦兰考特;M.杰利内克
受保护的技术使用者：沃伊斯亚吉公司
技术研发日：2014.01.09
技术公布日：2020.05.19

转载请注明原文地址: https://bbs.8miu.com/read-267648.html

专利

最新回复(0)