本申请涉及音频测试领域,具体涉及一种音频测试方法、装置、存储介质及电子设备。
背景技术:
语音识别是智能手机、平板电脑等电子设备获取用户意图的重要途径,目前,语音识别功能已成为众多电子设备的标配功能,比如,用户可以在不方便直接操控电子设备的情况下说出语音指令来控制电子设备。
应当说明的是,语音识别的可以分为唤醒和识别两个流程,当电子设备被唤醒后,才能够对电子设备进行语音控制,这也使得电子设备的唤醒响应时长成为电子设备的一个重要性能指标,如何高效的测试得到电子设备的唤醒响应时长变得尤为重要。
技术实现要素:
本申请实施例提供了一种音频测试方法、装置、存储介质及电子设备,能够高效的测试得到电子设备的唤醒响应时长。
第一方面,本申请实施例提供了一种音频测试方法,应用于电子设备,所述电子设备包括麦克风、专用语音识别芯片和处理器,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述音频测试方法包括:
通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
通过所述专用语音识别芯片对所述待校验音频信号进行一级校验,并在校验通过时将所述待校验音频信号提供给所述处理器,以及发送第一指示信息至预设计时应用,指示所述预设计时应用计时得到第一时刻;
通过所述处理器对所述待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;
当所述语音交互应用启动完成时,通过所述处理器发送第二指示信息至所述预设计时应用,指示所述预设计时应用计时得到第二时刻;
通过所述处理器根据所述第二时刻以及所述第一时刻获取所述电子设备的唤醒响应时长。
第二方面,本申请实施例提供了一种音频测试装置,应用于电子设备,所述电子设备包括麦克风、专用语音识别芯片和处理器,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述音频测试装置包括:
音频采集模块,用于通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
一级校验模块,用于通过所述专用语音识别芯片对所述待校验音频信号进行一级校验,并在校验通过时将所述待校验音频信号提供给所述处理器,以及发送第一指示信息至预设计时应用,指示所述预设计时应用计时得到第一时刻;
二级校验模块,用于通过所述处理器对所述待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;以及,
在所述语音交互应用启动完成时,通过所述处理器发送第二指示信息至所述预设计时应用,指示所述预设计时应用计时得到第二时刻;
时长统计模块,用于根据所述第二时刻以及所述第一时刻获取所述电子设备的唤醒响应时长。
第三方面,本申请实施例提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器和专用语音识别芯片加载以执行本申请实施例提供的音频测试方法。
第四方面,本申请实施例还提供了一种电子设备,所述电子设备包括麦克风、专用语音识别芯片、处理器和存储器,所述存储器中存储有计算机程序,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述计算机程序被所述专用语音识别芯片和处理器调用时用于执行本申请实施例提供的音频测试方法。
本申请首先通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号;然后通过专用语音识别芯片对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻;以及通过处理器对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;当语音交互应用启动完成时,通过处理器发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻;最后根据第二时刻以及第一时刻获取电子设备的唤醒响应时长,从而实现对电子设备唤醒响应时长的高效测试。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频测试方法的一流程示意图。
图2是本申请实施例中调用一级文本校验模型的示意图。
图3是本申请实施例中搭建的测试环境的示意图。
图4是本申请实施例提供的音频测试方法的另一流程示意图
图5是本申请实施例提供的音频测试装置的结构示意图。
图6是本申请实施例提供的电子设备的结构示意图。
图7是本申请实施例提供的电子设备的另一结构示意图。
具体实施方式
请参照图式,其中相同的组件符号代表相同的组件,本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是通过所例示的本申请具体实施例,其不应被视为限制本申请未在此详述的其它具体实施例。
本申请实施例提供一种音频测试方法、音频测试装置、存储介质以及电子设备,其中,该音频测试方法的执行主体可以是本申请实施例提供的音频测试装置,或者集成了该音频测试装置的电子设备,其中该音频测试装置可以采用硬件或者软件的方式实现,电子设备可为计算设备诸如膝上型计算机、包含嵌入式计算机的计算机监视器、平板电脑、蜂窝电话、媒体播放器、或其他手持式或便携式电子设备、较小的设备(诸如腕表设备、挂式设备、耳机或听筒设备、被嵌入在眼镜中的设备或者佩戴在用户的头部上的其他设备,或其他可佩戴式或微型设备)、电视机、不包含嵌入式计算机的计算机显示器、游戏设备、导航设备、嵌入式系统(诸如其中具有显示器的电子设备被安装在信息亭或汽车中的系统)等。
如图1所示,本申请实施例提供的音频测试方法的流程可以如下:
101,通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号,并将待校验音频信号提供给专用语音识别芯片。
本申请实施例中,预先搭建用于进行音频测试的测试环境。比如,为了排除外界干扰,可以搭建隔音的测试环境,其中,测试环境中设置有用于播放测试语音的语音播放设备,测试语音为包括预设唤醒词的纯净语音信号,比如,语音播放设备可以为人工头,其以5秒为间隔,循环播放测试语音。应当说明的是,预设唤醒词可由本领域普通技术人员根据实际需要进行设置,本申请实施例中对此不作具体限制,比如,可以设置为“小欧小欧”。
在开始进行音频测试前,将进行音频测试的电子设备放置在测试环境中,以通过语音播放设备播放测试语音模拟真实使用场景对电子设备进行音频测试,确定其唤醒响应时长。
应当说明的是,本申请实施例中的电子设备包括麦克风、专用语音识别芯片和处理器,其中,专用语音识别芯片是以语音识别为目的而设计的专用芯片,比如以语音识别为目的而设计的数字信号处理芯片,以语音识别为目的而设计的专用集成电路芯片等,其相较于通用的处理器,具有更低的功耗,但处理能力相对较弱。由于专用语音识别芯片的处理能力不及处理器的处理能力,在进行语音唤醒时,先由专用语音识别芯片对采集的音频信号进行一级校验,也即进行大致的校验,当一级校验通过时,再由处理器对采集的音频信号进行二级校验,确保整体的校验准确性,当二级校验通过时,再唤醒语音交互应用,实现与用户的语音交互。其中,语音交互应用也称为语音助手,比如“小欧”等。
在开始进行音频测试时,电子设备通过专用语音识别芯片控制麦克风进行音频采集,从而采集到对应测试语音的音频信号,并将该音频信号记为待校验音频信号,提供给专用语音识别芯片。
其中,电子设备所设置的麦克风可以是内置的麦克风,也可以是外置的麦克风(可以是有线的麦克风,也可以是无线的麦克风)。假设麦克风为模拟制式的麦克风,那么将采集到模拟制式的待校验音频信号,此时需要将采集到的待校验音频信号进行模数转换,得到数字化的待校验音频信号,用于后续处理。本领域普通技术人员可以理解的是,若电子设备所设置的麦克风为数字制式的麦克风,那么将直接采集到数字化的待校验音频信号,无需再进行模数转换。
102,通过专用语音识别芯片对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻。
其中,对待校验音频信号进行一级校验包括校验待校验音频信号的文本特征,或者校验待校验音频信号的文本特征和声纹特征,具体可由本领域普通技术人员根据实际情况进行设置,比如,本申请实施例中仅由专用语音识别芯片对待校验音频信号的文本特征进行校验。
通俗的说,校验文本特征也即是校验待校验音频信号中是否包括预设唤醒词,只要校验出待校验音频信号中包括预设唤醒词,则其文本特征将校验通过,而不论该预设唤醒词由谁说出。
其中,在对待校验音频信号进行一级校验时,专用语音识别芯片可以加载预训练的用于校验音频信号中是否包括预设唤醒词的一级唤醒模型,通过该一级唤醒模型对待校验音频信号进行一级校验。
应当说明的是,本申请实施例中还在专用语音识别芯片增加消息发送机制,使得专用语音识别芯片在对待校验音频信号的一级校验通过时,发送第一指示信息至电子设备的操作系统。
示例性的,以下以电子设备运行安卓系统为例进行说明。
专用语音识别芯片在对待校验音频信号的一级校验通过时,发送第一指示信息至电子设备的安卓系统。
另一方面,本申请实施例中还预先设计有计时应用,可由本领域普通技术人员根据实际需要选择合适的编程语言编程得到。为了能够获知专用语音识别芯片对待校验音频信号的一级校验是否通过,预设计时应用预先在安卓系统注册第一指示信息,使得安卓系统能够将第一指示信息推送给预设计时应用。
预设计时应用在接收到第一指示信息时,根据该第一指示信息进行计时,以得到对应专用语音识别芯片的第一时刻,该第一时刻即表征了专用语音识别芯片通过一级校验的时刻。
此外,专用语音识别芯片在对待校验音频信号的一级校验通过时,还将此次通过麦克风采集的待校验音频信号提供给处理器。
此外,应当说明的是,由于采集的待校验音频信号的原因和/或一级唤醒模型的原因,将导致采集的待校验音频信号无法通过一级校验,此时,不发送第一指示信息,并丢弃此次采集的待校验音频信号,转入101。
103,通过处理器对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用。
其中,对待校验音频信号进行二级校验包括校验待校验音频信号的文本特征,或者校验待校验音频信号的文本特征和声纹特征,具体可由本领域普通技术人员根据实际情况进行设置,比如,本申请实施例中由处理器对待校验音频信号的文本特征和声纹特征进行校验。
比如,在对待校验音频信号进行二级校验时,处理器可以加载预训练的用于校验音频信号中是否包括预设唤醒词,且声纹特征是否与预设声纹特征匹配的二级唤醒模型,通过该二级唤醒模型对待校验音频信号进行二级校验。
处理器在对待校验音频信号的二级校验通过时,启动语音交互应用。
104,当语音交互应用启动完成时,通过处理器发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻。
当语音交互应用启动完成时,通过处理器发送第二指示信息至电子设备的安卓系统。比如,可以在语音交互应用的应用界面记载显示完成时,判定语音交互应用启动完成。
相应的,为了能够获知处理器对待校验音频信号的二级校验是否通过,预设计时应用预先在安卓系统注册第二指示信息,使得安卓系统能够将第二指示信息推送给预设计时应用。从而在接收到第二指示信息时,根据该第二指示信息进行计时,以得到对应处理器的第二时刻,该第二时刻即表征了语音交互应用启动完成的时刻。
应当说明的是,由于采集的待校验音频信号的原因和/或二级唤醒模型的原因,将导致采集的待校验音频信号无法通过二级校验,此时,不发送第二指示信息,并丢弃此次采集的待校验音频信号,转入101。
105,通过处理器根据第二时刻以及第一时刻获取电子设备的唤醒响应时长。
比如,在预设计时应用计时得到第二时刻时,通过处理器根据第二时刻以及第一时刻获取电子设备的唤醒响应时长,比如,直接将第二时刻和第一时刻的时长差值作为电子设备的唤醒响应时长。
由上可知,本申请首先通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号,并将待校验音频信号提供给专用语音识别芯片;然后通过专用语音识别芯片对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻;以及通过处理器对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;当语音交互应用启动完成时,通过处理器发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻;最后根据第二时刻以及第一时刻获取电子设备的唤醒响应时长,从而实现对电子设备唤醒响应时长的高效测试。
在一实施例中,通过处理器根据第二时刻以及第一时刻获取电子设备的唤醒响应时长,包括:
(1)当计时得到的第二时刻的数量达到预设数量时,通过处理器计算每一第二时刻及其对应的第一时刻的时长差值,得到预设数量的时长差值;
(2)通过处理器计算预设数量的时长差值的平均时长差值,作为唤醒响应时长。
本申请实施例中,可以循环执行101-104,直至计时得到的第二时刻的数量达到预设数量时,根据计时得到的预设数量的第二时刻及其对应的第一时刻来获取电子设备的唤醒响应时长。应当说明的是,本申请对预设数量的取值不做具体限制,可由本领域普通技术人员根据实际需要进行设置,比如,可以设置预设数量为100。
其中,当计时得到第二时刻达到预设数量时,通过处理器计算每一第二时刻及其对应的第一时刻的时长差值,从而得到预设数量的时长差值,也即是每一唤醒流程对应的第二时刻和第一时刻的时长差值。然后,通过处理器获取这预设数量的时长差值的平均时长差值,并将该平均时长差值作为电子设备的唤醒响应时长。
在一实施例中,“通过处理器对待校验音频信号进行二级校验”,包括:
(1)通过处理器调用预训练的对应预设唤醒词的二级文本校验模型,校验待校验音频信号中是否包括预设唤醒词;
(2)当待校验音频信号中包括预设唤醒词时,通过处理器调用预训练的对应测试语音的二级声纹校验模型,校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配,是则判定通过二级校验。
本申请实施例中,以处理器进行的二级校验包括文本特征和声纹特征的校验为例进行说明。
在通过处理器对待校验音频信号进行二级校验时,首先通过处理器调用预训练的对应预设唤醒词的二级文本校验模型,利用该二级文本校验模型校验待校验音频信号中是否包括预设唤醒词。
示例性的,二级文本校验模型可由评分函数训练得到,其中,评分函数用于将向量映射到数值,以此为约束,可由本领域普通技术人员根据实际需要选取合适的函数作为评分函数,本发明实施例对此不做具体限制。
在利用二级文本校验模型校验待校验音频信号中是否包括预设唤醒词时,首先提取能够表征待校验音频信号的特征向量,将该特征向量输入到二级文本校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级文本校验模型对应的判别分值,若评分分值达到二级文本校验模型对应的判别分值,则判定待校验音频信号中包括预设唤醒词。
其中,在校验出待校验音频信号中包括预设唤醒词时,进一步通过处理器调用预训练的对应测试语音的二级声纹校验模型,并利用该二级声纹校验模型校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配。
示例性的,二级声纹校验模型可由二级文本校验模型基于测试语音进一步训练得到。在利用二级声纹校验模型校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配时,首先提取能够表征待校验音频信号的特征向量,将该特征向量输入到二级声纹校验模型中进行评分,得到对应的评分分值。然后,比较该评分分值以及二级声纹校验模型对应的判别分值,若评分分值达到二级声纹校验模型对应的判别分值,则判定待校验音频信号的声纹特征与测试语音的声纹特征匹配,此时判定通过二级校验。
在一实施例中,“通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号”之前,还包括:
(1)通过处理器获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
(2)通过处理器控制麦克风进行音频采集得到样本音频信号;
(3)通过处理器提取样本音频信号的声学特征,并基于通用校验模型对声学特征进行自适应处理,将自适应处理后的通用校验模型设为二级声纹校验模型。
比如,在开始进行音频测试前,可以预先采集多人(比如200人)说出预设唤醒词的样本信号,然后分别提取这些样本信号的声学特征(比如梅尔频率倒谱系数),再根据这些样本信号的声学特征训练得到一个与预设唤醒词对应的通用校验模型。由于通用校验模型采用大量与特定人(即用户)无关的音频信号训练得到,其仅拟合人的声学特征分布,并不代表某个具体的人。
本申请实施例中,在开始进行音频测试前,通过处理器获取预训练的对应预设唤醒词的通用校验模型,将该通用校验模型设为二级文本校验模型。
此外,还通过处理器控制麦克风的进行音频采集,从而采集到对应测试语音的音频信号,并将该音频信号记为样本音频信号。然后,通过处理器提取样本音频信号的声学特征,并基于通用校验模型对声学特征进行自适应处理,将自适应处理后的通用校验模型设为二级声纹校验模型。其中,该自适应处理可以采用最大后验估计算法实现。
在一实施例中,测试场景中还设置有噪声播放设备,噪声播放设备用于播放预设场景的样本噪声。
本申请实施例中,还设置有噪声播放设备,该噪声播放设备用于播放预设场景的样本噪声,从而测试电子设备在预设场景下的唤醒响应时长。其中,对于选取何种场景的样本噪声,可由本领域普通技术人员根据实际需要进行选取,比如,通过噪声设备播放地铁场景的样本噪声,可以测试电子设备在地铁场景下的唤醒响应时长。
在一实施例中,“通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号”之前,还包括:
(1)通过专用语音识别芯片获取语音播放设备播放测试语音的第一分贝值,以及获取噪声播放设备播放样本噪声的第二分贝值;
(2)当第一分贝值和第二分贝值满足预设测试条件时,通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号。
本申请实施例中,为了确保音频测试的正常进行,需要保证测试时一定的信噪比。
比如,在开始进行测试前,将分贝仪放置在电子设备相同位置处,通过专用语音识别芯片基于该分贝仪获取语音播放设备播放测试语音的第一分贝值,以及获取噪声播放设备播放样本噪声的第二分贝值,然后,计算第一分贝值和第二分贝值的比值,作为测试环境的信噪比。
相应的,可以将预设测试条件设置为测试环境的信噪比达到预设信噪比,对于预设信噪比的取值,可由本领域普通技术人员根据实际需要取值。
在根据第一分贝值以及第二分贝值计算得到测试环境的信噪比之后,判断该信噪比是否达到预设信噪比,是则通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号,以开始进行音频测试。
在一实施例中,“通过专用语音识别芯片对待校验音频信号进行一级校验”,包括:
(1)通过专用语音识别芯片调用预训练的场景分类模型对待校验音频信号进行场景分类,得到场景分类结果;
(2)通过专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词。
本申请实施例中,以专用语音识别芯片进行的一级校验包括文本特征的校验为例进行说明。
应当说明的是,本申请实施例中还根据不同已知场景的样本音频信号,采用机器学习算法预训练有场景分类模型,利用该场景分类模型可以实现对电子设备所处场景的分类。
由于测试环境中不仅设置有语音播放设备,还设置有噪声播放设备,电子设备采集的待校验音频信号可以看做由两部分组成,即对应测试语音的部分和对应样本噪声的部分。相应的,在通过专用语音识别芯片对待校验音频信号进行一级校验时,首先通过专用语音识别芯片调用预训练的场景分类模型,利用该场景分类模型对待校验音频信号进行分类,得到场景分类结果。该场景分类结果即描述了噪声播放设备通过播放样本噪声所模拟的场景。
应当说明的是,本申请实施例在电子设备中预先设置有一级文本校验模型集合,一级文本校验模型集合中包括多个预先在不同场景下训练得到的对应预设唤醒词的一级文本校验模型,以适于专用语音识别芯片在不同的场景下加载,从而更灵活准确的对采集的待校验音频信号中是否包括预设唤醒词进行校验。
相应的,在得到对应待校验音频信号的场景分类结果之后,电子设备即通过专用语音识别芯片从一级文本校验模型集合中调用对应该场景分类结果的一级文本校验模型,并通过该一级文本校验模型校验待校验音频信号中是否包括预设唤醒词,是则判定通过一级校验。
比如,请参照图2,一级文本校验模型集合中包括四个一级文本校验模型,分别为适于在a场景进行音频校验的一级文本校验模型a、适于在b场景进行音频校验的一级文本校验模型b、适于在c场景进行音频校验的一级文本校验模型c以及适于在d场景进行音频校验的一级文本校验模型d。假设场景分类结果指示待校验音频信号对应的场景为b场景,则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b;假设场景分类结果指示待校验音频信号对应的场景为b场景,则电子设备通过专用语音识别芯片从一级文本校验模型集合中加载一级文本校验模型b,以此类推。
请结合参照图3和图4,图3为本申请实施例中进行音频测试的测试环境的示意图,如图3所示,首先搭建隔音的测试环境,并在测试环境中设置人工头作为用于播放测试语音的语音播放设备,以及设置扬声器作为用于播放样本噪声的噪声播放设备,此外,测试环境中还设置有计算机,作为对人工头和扬声器进行播放控制的主控设备。本领域普通技术人员根据实际需要,确定电子设备在测试环境中的放置位置,并将电子设备放置在确定的该放置位置。
其中,电子设备包括专用语音识别芯片和处理器。在进行语音唤醒时,先由专用语音识别芯片对采集的音频信号进行一级校验,也即进行大致的校验,当一级校验通过时,再由处理器对采集的音频信号进行二级校验,确保整体的校验准确性,当二级校验通过时,再唤醒语音交互应用,实现与用户的语音交互。其中,语音交互应用称为语音助手,比如“小欧”等。
其中,在计算机的控制下,人工头每间隔5秒循环播放包括预设唤醒词的纯净语音信号,记为测试语音,扬声器持续播放样本噪声,模拟预设场景,从而校验电子设备在该预设场景下的唤醒响应时长。
在开始进行音频测试前,将分贝仪放置在电子设备的相同位置处,电子设备通过该分贝仪获取人工头播放测试语音的第一分贝值,以及获取扬声器播放样本噪声的第二分贝值,根据第一分贝值和第二分贝值计算得到对应的信噪比,当信噪比未达到预设信噪比时,电子设备发送指示信息至计算机,由计算机调整人工头和/或扬声器的播放音量,直至信噪比达到预设信噪比时,按照图4所示的音频测试流程进行音频测试:
201,专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号。
202,专用语音识别芯片加载一级文本唤醒模型对待校验音频信号进行校验,若校验通过则转入203,若校验失败则转入201。
203,专用语音识别芯片将待校验音频信号提供给处理器,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻。
204,处理器调用二级文本唤醒模型对待校验音频信号进行校验,若校验通过则转入205,若校验失败则转入201。
205,处理器调用声纹唤醒模型对待校验音频信号进行校验,若校验通过则启动语音交互应用,若校验失败则转入201。
206,当语音交互应用启动完成时,处理器发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻。
207,处理器判断计时得到的第二时刻的数量达到预设数量,是则转入208,否则转入201。
208,处理器计算每一第二时刻及其对应的第一时刻的时长差值,得到预设数量的时长差值,并计算预设数量的时长差值的平均时长差值,作为唤醒响应时长。
请参照图5,图5为本申请实施例提供的音频测试装置的结构示意图。该音频测试装置可以应用于电子设备,该电子设备包括麦克风、专用语音识别芯片和处理器,将电子设备放置在预先搭建的测试环境中,测试环境中设置有用于播放测试语音的语音播放设备,测试语音为包括预设唤醒词的纯净语音信号。音频测试装置可以包括音频采集模块301、一级校验模块302、二级校验模块303以及时长统计模块304,其中,
音频采集模块301,用于通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号,并将待校验音频信号提供给专用语音识别芯片;
一级校验模块302,用于通过专用语音识别芯片对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻;
二级校验模块303,用于通过处理器对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;以及,
当语音交互应用启动完成时,通过处理器发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻;
时长统计模块304,用于通过处理器根据第二时刻以及第一时刻获取电子设备的唤醒响应时长。
在一实施例中,在通过处理器根据第二时刻以及第一时刻获取电子设备的唤醒响应时长时,时长统计模块304用于:
当计时得到的第二时刻的数量达到预设数量时,通过处理器计算每一第二时刻及其对应的第一时刻的时长差值,得到预设数量的时长差值;
通过处理器计算预设数量的时长差值的平均时长差值,作为唤醒响应时长。
在一实施例中,在通过处理器对待校验音频信号进行二级校验时,二级校验模块303用于:
通过处理器调用预训练的对应预设唤醒词的二级文本校验模型,校验待校验音频信号中是否包括预设唤醒词;
当待校验音频信号中包括预设唤醒词时,通过处理器调用预训练的对应测试语音的二级声纹校验模型,校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配,是则判定通过二级校验。
在一实施例中,音频测试装置还包括模型训练模块,在通过麦克风进行音频采集得到待校验音频信号之前,用于:
通过处理器获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
通过处理器控制麦克风进行音频采集得到样本音频信号;
通过处理器提取样本音频信号的声学特征,并基于通用校验模型对声学特征进行自适应处理,将自适应处理后的通用校验模型设为二级声纹校验模型。
在一实施例中,测试场景中还设置有噪声播放设备,噪声播放设备用于播放预设场景的样本噪声。
在一实施例中,在通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号之前,音频采集模块301还用于:
通过专用语音识别芯片获取语音播放设备播放测试语音的第一分贝值,以及获取噪声播放设备播放样本噪声的第二分贝值;
当第一分贝值和第二分贝值满足预设测试条件时,通过专用语音识别芯片控制麦克风进行音频采集得到待校验音频信号。
在一实施例中,在通过专用语音识别芯片对待校验音频信号进行一级校验时,一级校验模块302用于:
通过专用语音识别芯片调用预训练的场景分类模型对待校验音频信号进行场景分类,得到场景分类结果;
通过专用语音识别芯片调用预训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词,是则判定通过一级校验。
应当说明的是,本申请实施例提供的音频测试装置与上文实施例中的音频测试方法属于同一构思,在音频测试装置上可以运行音频测试方法实施例中提供的任一方法,其具体实现过程详见特征获取方法实施例,此处不再赘述。
本申请实施例还提供一种存储介质,其上存储有计算机程序,将本申请提供的电子设备放置在预先搭建的测试环境中,测试环境中设置有用于播放测试语音的语音播放设备,测试语音为包括预设唤醒词的纯净语音信号,当存储介质存储的计算机程序在本申请实施例提供的电子设备上执行时,使得电子设备执行如本申请实施例提供的音频测试方法中的步骤。其中,存储介质可以是磁碟、光盘、只读存储器(readonlymemory,rom)或者随机存取器(randomaccessmemory,ram)等。
本申请实施例还提供一种电子设备,请参照图6,电子设备包括处理器401、存储器402、麦克风403和专用语音识别芯片404。
本申请实施例中的处理器401是通用处理器,比如arm架构的处理器。
专用语音识别芯片402是以语音识别为目的而设计的专用芯片,比如以语音识别为目的而设计的数字信号处理芯片,以语音识别为目的而设计的专用集成电路芯片等,其相较于通用的处理器401,具有更低的功耗,但处理能力相对较弱。
其中,存储器402中存储有计算机程序,其可以为高速随机存取存储器,还可以为非易失性存储器,比如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件等。相应地,存储器402还可以包括存储器控制器,以提供处理器401、专用语音识别芯片404对存储器402的访问。
将电子设备放置在预先搭建的测试环境中,该测试环境中设置有用于播放测试语音的语音播放设备,测试语音为包括预设唤醒词的纯净语音信号。
其中,
专用语音识别芯片404控制麦克风403进行音频采集得到待校验音频信号;
专用语音识别芯片404对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器401,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻;
处理器401对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;
处理器401在语音交互应用启动完成时,发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻;
处理器401根据第二时刻以及第一时刻获取电子设备的唤醒响应时长。
请参照图7,图7为本申请实施例提供的电子设备的另一结构示意图,与图6所示电子设备的区别在于,电子设备还包括输入单元405和输出单元406等组件。
其中,输入单元405可用于接收输入的数字、字符信息或用户特征信息(比如指纹),以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入等。
输出单元406可用于显示由用户输入的信息或提供给用户的信息,如屏幕。
其中,
专用语音识别芯片404控制麦克风403进行音频采集得到待校验音频信号;
专用语音识别芯片404对待校验音频信号进行一级校验,并在校验通过时将待校验音频信号提供给处理器401,以及发送第一指示信息至预设计时应用,指示预设计时应用计时得到第一时刻;
处理器401对待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;
处理器401在语音交互应用启动完成时,发送第二指示信息至预设计时应用,指示预设计时应用计时得到第二时刻;
处理器401根据第二时刻以及第一时刻获取电子设备的唤醒响应时长。
在一实施例中,在根据第二时刻以及第一时刻获取电子设备的唤醒响应时长时,处理器401用于执行:
当计时得到的第二时刻的数量达到预设数量时,计算每一第二时刻及其对应的第一时刻的时长差值,得到预设数量的时长差值;
计算预设数量的时长差值的平均时长差值,作为唤醒响应时长。
在一实施例中,在对待校验音频信号进行二级校验时,处理器401用于执行:
调用预训练的对应预设唤醒词的二级文本校验模型,校验待校验音频信号中是否包括预设唤醒词;
当待校验音频信号中包括预设唤醒词时,调用预训练的对应测试语音的二级声纹校验模型,校验待校验音频信号的声纹特征是否与测试语音的声纹特征匹配,是则判定通过二级校验。
在一实施例中,在通过专用语音识别芯片404控制麦克风403进行音频采集得到待校验音频信号之前,处理器401还用于执行:
获取预训练的对应预设唤醒词的通用校验模型,将通用校验模型设为二级文本校验模型;
控制麦克风403进行音频采集得到样本音频信号;
提取样本音频信号的声学特征,并基于通用校验模型对声学特征进行自适应处理,将自适应处理后的通用校验模型设为二级声纹校验模型。
在一实施例中,测试场景中还设置有噪声播放设备,噪声播放设备用于播放预设场景的样本噪声。
在一实施例中,在控制麦克风403进行音频采集得到待校验音频信号之前,专用语音识别芯片404还用于执行:
获取语音播放设备播放测试语音的第一分贝值,以及获取噪声播放设备播放样本噪声的第二分贝值;
当第一分贝值和第二分贝值满足预设测试条件时,控制麦克风403进行音频采集得到待校验音频信号。
在一实施例中,在对待校验音频信号进行一级校验时,专用语音识别芯片404用于执行:
调用预训练的场景分类模型对待校验音频信号进行场景分类,得到场景分类结果;
调用预训练的对应场景分类结果的一级文本校验模型校验待校验音频信号中是否包括预设唤醒词,是则判定通过一级校验。
应当说明的是,本申请实施例提供的电子设备与上文实施例中的音频测试方法属于同一构思,在电子设备上可以运行音频测试方法实施例中提供的任一方法,其具体实现过程详见特征获取方法实施例,此处不再赘述。
需要说明的是,对本申请实施例的音频测试方法而言,本领域普通测试人员可以理解实现本申请实施例的音频测试方法的全部或部分流程,是可以通过计算机程序来控制相关的硬件来完成,所述计算机程序可存储于一计算机可读取存储介质中,如存储在电子设备的存储器中,并被该电子设备内的处理器和专用语音识别芯片执行,在执行过程中可包括如音频测试方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。
以上对本申请实施例所提供的一种音频测试方法、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
1.一种音频测试方法,应用于电子设备,其特征在于,所述电子设备包括麦克风、专用语音识别芯片和处理器,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述音频测试方法包括:
通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
通过所述专用语音识别芯片对所述待校验音频信号进行一级校验,并在校验通过时将所述待校验音频信号提供给所述处理器,以及发送第一指示信息至预设计时应用,指示所述预设计时应用计时得到第一时刻;
通过所述处理器对所述待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;
当所述语音交互应用启动完成时,通过所述处理器发送第二指示信息至所述预设计时应用,指示所述预设计时应用计时得到第二时刻;
通过所述处理器根据所述第二时刻以及所述第一时刻获取所述电子设备的唤醒响应时长。
2.根据权利要求1所述的音频测试方法,其特征在于,通过所述处理器根据所述第二时刻以及所述第一时刻获取所述电子设备的唤醒响应时长,包括:
当计时得到的第二时刻的数量达到预设数量时,通过所述处理器计算每一第二时刻及其对应的第一时刻的时长差值,得到预设数量的时长差值;
通过所述处理器计算所述预设数量的时长差值的平均时长差值,作为所述唤醒响应时长。
3.根据权利要求1所述的音频测试方法,其特征在于,所述通过所述处理器对所述待校验音频信号进行二级校验,包括:
通过所述处理器调用预训练的对应所述预设唤醒词的二级文本校验模型,校验所述待校验音频信号中是否包括所述预设唤醒词;
当所述待校验音频信号中包括所述预设唤醒词时,通过所述处理器调用预训练的对应所述测试语音的二级声纹校验模型,校验所述待校验音频信号的声纹特征是否与所述测试语音的声纹特征匹配,是则判定通过二级校验。
4.根据权利要求3所述的音频测试方法,其特征在于,所述通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号之前,还包括:
通过所述处理器获取预训练的对应所述预设唤醒词的通用校验模型,将所述通用校验模型设为所述二级文本校验模型;
通过所述处理器控制所述麦克风进行音频采集得到样本音频信号;
通过所述处理器提取所述样本音频信号的声学特征,并基于所述通用校验模型对所述声学特征进行自适应处理,将自适应处理后的通用校验模型设为所述二级声纹校验模型。
5.根据权利要求1-4任一项所述的音频测试方法,其特征在于,所述测试场景中还设置有噪声播放设备,所述噪声播放设备用于播放预设场景的样本噪声。
6.根据权利要求5所述的音频测试方法,其特征在于,所述通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号之前,还包括:
通过所述专用语音识别芯片获取所述语音播放设备播放所述测试语音的第一分贝值,以及获取所述噪声播放设备播放所述样本噪声的第二分贝值;
当所述第一分贝值以及所述第二分贝值满足预设测试条件时,通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号。
7.根据权利要求6所述的音频测试方法,其特征在于,所述通过所述专用语音识别芯片对所述待校验音频信号进行一级校验,包括:
通过所述专用语音识别芯片调用预训练的场景分类模型对所述待校验音频信号进行场景分类,得到场景分类结果;
通过所述专用语音识别芯片调用预训练的对应所述场景分类结果的一级文本校验模型校验所述待校验音频信号中是否包括所述预设唤醒词,是则判定通过一级校验。
8.一种音频测试装置,应用于电子设备,其特征在于,所述电子设备包括麦克风、专用语音识别芯片和处理器,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述音频测试方法包括:
音频采集模块,用于通过所述专用语音识别芯片控制所述麦克风进行音频采集得到待校验音频信号,并将所述待校验音频信号提供给所述专用语音识别芯片;
一级校验模块,用于通过所述专用语音识别芯片对所述待校验音频信号进行一级校验,并在校验通过时将所述待校验音频信号提供给所述处理器,以及发送第一指示信息至预设计时应用,指示所述预设计时应用计时得到第一时刻;
二级校验模块,用于通过所述处理器对所述待校验音频信号进行二级校验,并在校验通过时启动语音交互应用;以及,
在所述语音交互应用启动完成时,通过所述处理器发送第二指示信息至所述预设计时应用,指示所述预设计时应用计时得到第二时刻;
时长统计模块,用于根据所述第二时刻以及所述第一时刻获取所述电子设备的唤醒响应时长。
9.一种电子设备,其特征在于,包括麦克风、专用语音识别芯片、处理器和存储器,所述存储器中存储有计算机程序,将所述电子设备放置在预先搭建的测试环境中,所述测试环境中设置有用于播放测试语音的语音播放设备,所述测试语音为包括预设唤醒词的纯净语音信号,所述计算机程序被所述专用语音识别芯片和处理器调用时用于执行如权利要求1-7任一项所述的音频测试方法。
10.一种存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器和专用语音识别芯片加载以执行如权利要求1-7任一项所述的音频测试方法。
技术总结