重打分模型训练方法、语音识别方法及相关装置与流程

专利2022-12-01  29


本发明实施例涉及语音识别技术领域,尤其涉及一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质。



背景技术:

自动语音识别(asr)是一种将语音转为文字的技术,asr能够应用于语音翻译、人机交互,智能家居等应用场景。

在语音识别的解码过程中,语音数据可以得到多个语音识别结果,比如语音内容是:“我是好学生”,在语音识别解码的过程中可能得到如下多个语音识别结果:“握是号学声”,“窝时浩学升”,“卧室好学生”,“我是好学生”……,对于究竟选择哪一条最合适或者合理关乎着语音识别结果的准确性。

在现有技术中,通常是对每个语音识别结果进行打分,分数越高的语音识别结果的合理性或准确性越大,然而只依靠单一打分结果来作为判断标准准确度还是比较低,因此出现了同时通过多个语言模型来对每个语音识别结果打分后进行综合判断。

然而,现有重打分机制是直接将每个识别结果的多个分数相加或者根据人工设置的权重对每种分数添加权重后计算总得分,一方面,人为主观影响最终分数,准确度差,另一方面,某一个打分机制改变,需要重新设置该打分机制的权重,适用性差。



技术实现要素:

本发明实施例提供一种重打分模型训练方法、重打分模型训练装置、语音识别方法、语音识别装置、设备和存储介质,以解决现有技术中语音识别重打分存在人为主观性影响大和适用性差的问题。

第一方面,本发明实施例提供了一种重打分模型训练方法,包括:

获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;

获取每一种语音识别结果在多个不同语言模型下的分数;

基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;

采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

第二方面,本发明实施例提供了一种语音识别方法,包括:

获取待识别语音数据的多个语音识别结果;

获取每一种语音识别结果在多个不同语言模型下的分数;

基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;

将所述特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;

将所述最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;

其中,所述重打分模型通过本发明实施例所述的重打分模型训练方法所训练。

第三方面,本发明实施例提供了一种重打分模型训练装置,包括:

语音识别结果和第一标签获取模块,用于获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;

打分模块,用于获取每一种语音识别结果在多个不同语言模型下的分数;

样本特征向量和第二标签获取模块,用于基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;

模型训练模块,用于采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

第四方面,本发明实施例提供了一种语音识别装置,包括:

语音识别结果获取模块,用于获取待识别语音数据的多个语音识别结果;

初始分数获取模块,用于获取每一种语音识别结果在多个不同语言模型下的分数;

特征向量获取模块,用于基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;

最终分数预测模块,用于将所述样本特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;

语音识别结果确定模块,用于将最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;

其中,所述重打分模型通过本发明实施例任一项所述的重打分模型训练方法所训练。

第五方面,本发明实施例提供了一种设备,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任一实施例所述的重打分模型训练方法和/或语音识别方法。

第六方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任一实施例所述的重打分模型训练方法和/或语音识别方法。

本发明实施例在获取语音数据样本的多个语音识别结果和语音数据样本的第一标签后;获取每一种语音识别结果在多个不同语言模型下的分数,并基于语音识别结果、分数和第一标签获得语音数据样本用于重打分模型训练的样本特征向量和第二标签;采用样本特征向量和第二标签训练模型得到重打分模型。本发明实施例基于语音识别结果、分数和第一标签获得语音数据样本用于重打分模型训练的样本特征向量和第二标签来训练重打分模型,挖掘出了第二标签和多个不同语言模型打分得到的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。

附图说明

图1是本发明实施例一提供的一种重打分模型训练方法的步骤流程图;

图2是本发明实施例中语音数据样本解码后得到的加权有向无环图的示意图;

图3是本发明实施例二提供的一种重打分模型训练方法的步骤流程图;

图4是本发明实施例三提供的一种语音识别方法的步骤流程图;

图5是本发明实施例四提供的一种重打分模型训练装置的结构框图;

图6是本发明实施例五提供的一种语音识别装置的结构框图;

图7是本发明实施例六提供的一种设备的结构框图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1为本发明实施例一提供的一种重打分模型训练方法的步骤流程图,本发明实施例可适用于训练重打分模型的情况,该方法可以由本发明实施的重打分模型训练装置来执行,该重打分模型训练装置可以由硬件或软件来实现,并集成在本发明实施例所提供的设备中,具体地,如图1所示,本发明实施例的重打分模型训练方法可以包括如下步骤:

s101、获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签。

在本发明实施例中,对于一条语音数据,通过语音识别编解码模型后可以得到多个语音识别结果,每个语音识别结果包括一系列有序的字、词组成,即对于一条语音数据可以得到多条语音识别解码路径。

如图2所示,语音识别解码结果是一个加权有向无环图,图中的每条路径为语音识别解码过程中可选词序列的一种表示,在图2中,圆圈表示一条语音数据经过语音识别解码后的字、词,每条边均设置有一个权重,从最左边到最右边的圆圈具有多条路径,每条路径视为一个语音识别结果。同时,该语音数据样本具有人为标注的、真实的语音识别结果,该真实的语音识别结果为该语音数据样本的第一标签。示例性地,语音内容是:“我是好学生”,在语音识别解码的过程中可能得到如下多个语音识别结果:“握是号学声”,“窝时浩学升”,“卧室好学生”,“我是好学生”。

可选地,对于语音数据样本,可以通过encoder-decoder(编码-解码)得到语音数据样本的多个语音识别结果,当然,还可以通过其他方式得到语音数据样本的多个语音识别结果,例如,可以通过人工生成的方式得到多个语音识别结果。

s102、获取每一种语音识别结果在多个不同语言模型下的分数。

在本发明实施例中,语言模型可以构建字符串s的概率分布p(s),p(s)表达了字符串s为一个句子的概率,此处的概率指的是组成字符串的组合,该组合组成的一句话是否是自然语言(人话)的概率。

本发明实施例在获得语音识别结果后,可以将每一种语音识别结果输入多个不同语言模型中得到该语音识别结果的分数,该分数表达了该语音识别结果符合自然语音的概率,可选地,不同的语言模型可以是声学模型、ngram语言模型和rnnlm模型。

声学模型对声学、语音学、环境的变量、说话人性别、口音等的差异的知识表示,声学模型可以用lstm ctc训练,得到语音特征到音素的映射。声学模型的任务是给定文字之后发出给到文字语音的概率。

ngram语言模型是一种基于统计学的语言模型,用来根据前(n-1)个词来预测第n个词,即计算一个句子的概率,亦即计算组成一个句子的一系列词语的概率。

rnnlm模型为通过rnn及其变种网络来训练的语言模型,其任务是通过上文来预测下一个词。

当然,在实际应用中,本领域技术人员还可以通过其他语言模型来对每种语音识别结果进行打分,本发明实施例对使用何种语言模型来对语音识别结果进行打分不加以限制,对语言模型的数量也不加以限制。

s103、基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签。

在本发明的可选实施例中,针对每个语音识别结果,可以对语音识别结果进行分析以提取语音识别结果的词频统计特征、字频统计特征、字或词排序特征、句子长度特征、字数、词数等作为句词结构特征,将语音识别结果在多个不同语言模型下的分数和句词结构特征组合为语音识别结果的样本特征向量,然后采用语音识别结果和语音数字样本的第一标签计算语音识别结果的字符错误率作为语音识别结果的第二标签。

s104、采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

具体地,可以将样本特征向量输入初始的模型参数后的模型中,得到每个语音识别结果的预估字符错误率,采用该预估字符错误率和该语音识别结果的第二标签计算损失率,在损失率达到预设值时停止训练模式,否则根据损失率调整模型参数重新迭代训练模型,直到损失率满足预设条件位置,得到用于对语音识别结果进行重打分的重打分模型,即对于每条语音数据样本的多个语音识别结果,可以通过重打分模型重新打分获得字符错误率作为最终分数,最终分数最低的语音识别结果即为语音数据样本的最佳语音识别结果。

本发明实施例基于语音识别结果、分数和第一标签获得语音数据样本用于重打分模型训练的样本特征向量和第二标签,挖掘出了第二标签和多个不同语言模型打分得到的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。实施例二

图3为本发明实施例二提供的一种重打分模型训练方法的步骤流程图,本发明实施例在前述实施例一的基础上进行优化,具体地,如图3所示,本发明实施例的重打分模型训练方法可以包括如下步骤:

s201、将所述语音数据样本输入解码模型中得到多个语音识别结果,所述语音数据样本具有预先标注的第一标签。

本发明实施例中,语音数据样本可以为任意语音数据,该语音数据可以输入语音识别解码模型(如通过encoder-decoder(编码-解码))中获得多个识别结果,每个语音识别结果具有一个概率,该概率表达了该语音识别结果为预先标注的标签的概率,预先标注的第一标签为人为标注的语音数据样本对应的真实文本。

s202、提取预设数量的语音识别结果作为所述语音数据样本的多个语音识别结果。

具体地,可以根据每个语音识别结果的概率对所有语音识别结果进行排序,将排序为topk的k个语音识别结果提取出来作为语音数据样本的多个语音识别结果。

s203、将每一种语音识别结果分别输入多个不同语言模型中,获得所述语音识别结果在不同语言模型下的分数。

在本发明的可选实施例中,语言模型可以包括声学模型、n-gram语言模型和rnnlm语言模型三个语言模型。在得到多个语音识别结果后,可以将每个语音识别结果分别输入声学模型、n-gram语言模型和rnnlm语言模型中得到每个语音识别结果的3个分数。当然,在实际应用中,本领域技术人员还可以将语音识别结果输入其他语言模型中,本发明实施例对语言模型和语语言模型的数量不加以限制。

s204、针对每个语音识别结果,对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征。

在本发明实施例中,语音识别结果由一系列有序的字、词组成,则可以统计语音识别结果中包含的字的字数、词数,字、词出现的频率、句子的长度、词的排序等特征作为句词结构特征。

s205、将所述语音识别结果在多个不同语言模型下的分数和所述句词结构特征组合为所述语音识别结果的样本特征向量。

具体地,可以将语音识别结果的多个分数和句词结构特征连接形成一个样本特征向量a(分数1,分数2,分数3,词频统计特征、字频统计特征、字或词排序特征、句子长度特征、字数、词数)。

s206、采用所述语音识别结果和所第一述标签计算所述语音识别结果的字符错误率作为所述语音识别结果的第二标签。

字符错误率(cer)是一种评分方式,是评价asr模型优良的一种标准,字符错误率根据由预测值到真实值的插入、删除、替换的次数之和,即对于语音数据样本其具有真实的第一标签,该第一标签为语音数据样本对应的真实文本,而语音识别结果并不一定是真实文件,该语音识别结果到真实文本需要插入、删除、替换,统计插入、删除、替换的次数即为字符错误率。

例如,对于标签为真实文本“我是三好学生”,如果语音识别结果为“握是好学生”,则需要替换字1次,插入字1次,可以确定其字符错误率为2。

对于每个语音识别结果,可以将该语音识别结果与解码时语音数据样本的第一标签进行对比计算出每个语音识别结果的字符错误率作为该语音识别结果的第二标签。

s207、对所述样本特征向量进行归一化处理,得到归一化处理后的样本特征向量。

在本发明的可选实施例中,可以在所有样本特征向量中确定出最大样本特征向量和最小样本特征向量,采用最大样本特征向量和最小样本特征向量计算差值得到向量差值,计算样本特征向量和向量差值的比值作为样本特征向量归一化处理后的样本特征向量,具体归一化处理的计算公式如下:

上述公式中,xi为第i个语音识别结果对应的样本特征向量,x′i为归一化处理后的样本特征向量,xmax和xmin为语音数据样本的多个语音识别结果的样本特征向量中的最大样本特征向量和最小样本特征向量,通过归一化处理后,可以将多个语音识别结果的样本特征向量统一在一量纲下,便于对样本特征向量量化表达,为候选模型训练提供高质量的训练数据,以提高模型训练的精度。

s208、初始化模型参数。

具体地,本发明实施例的模型可以为线性回归,支持向量机,决策树模型等机器学习算法训练模型,本发明示例以线性回归为例,建模方程为:

其中,ai为第i个样本特征向量的系数,xi为第i个样本特征向量,yi为预估字符错误率,在初始化ai后,模型训练的目的是得到最优ai,使得yi接近第二标签。

s209、将所述语音识别结果归一化处理后的样本特征向量输入所述模型中获得所述语音识别结果的预估字符错误率。

具体地,可以将语音识别结果归一化处理后的样本特征向量输入初始化后的模型中,即将s207中的x′i输入模型中,对于每个x′i模型输出预估字符错误率yi。

s210、采用所述预估字符错误率和所述第二标签计算损失率。

在本发明实施例中,损失函数为均方损失函数:

mseloss为损失率,yi为第i个样本特征向量,为第i个样本特征向量对应的第二标签,k为一条语音数据样本的语音识别结果的数量,将预估字符错误率和第二标签代入上述均方损失函数中计算得到损失率。

s211、在所述损失率未满足预设条件时,采用所述损失率计算梯度。

如果计算得到的小于预设阈值,则停止对模型进行迭代,否则采用损失率计算梯度,具体地,可以采用预设梯度算法计算梯度,本发明实施例对计算梯度的算法不加以限制。

s212、采用所述梯度调整所述模型参数,返回s209。

具体地,可以采用所述梯度和预设的学习率对模型的当前参数进行梯度下降,获得调整模型参数后的模型,返回s209继续对模型进行迭代,直到损失率小于预设阈值,当然也可以是迭代次数达到预设次数时停止训练模型,得到用于对语音识别结果进行重打分的重打分模型。

本发明实施例将语音数据样本输入解码模型中得到多个语音识别结果,提取预设数量的语音识别结果作为语音数据样本的多个语音识别结果,将每一种语音识别结果分别输入多个不同语言模型中,获得语音识别结果在不同语言模型下的分数,针对每个语音识别结果对语音识别结果进行分析以提取语音识别结果的句词结构特征,将语音识别结果在多个不同语言模型下的分数和句词结构特征组合为语音识别结果的样本特征,采用语音识别结果和语音数据样本的第一标签计算字符错误率作为语音识别结果的第二标签,通过样本特征向量和第二标签训练重打分模型。能够挖掘出第二标签和多个不同语言模型打分得到的分数隐含的内在关联以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。

进一步地,采用语音识别结果和标签计算字符错误率作为语音识别结果的第二标签,使得模型通过语音识别结果间接学习语音数据样本的字符错误率,从而使用模型得到更优的语音识别结果。

实施例三

图4为本发明实施例三提供的一种语音识别方法的步骤流程图,本发明实施例可适用于语音识别的情况,该方法可以由本发明实施的语音识别装置来执行,该语音识别装置可以由硬件或软件来实现,并集成在本发明实施例所提供的设备中,具体地,如图4所示,本发明实施例的语音识别方法可以包括如下步骤:

s301、获取待识别语音数据的多个语音识别结果。

在本发明实施例中,待识别语音数据可以为需要将语音转换为文本的数据,例如,可以是短视频中的语音数据、即时通信应用程序的聊天界面上的语音数据等,本发明实施例可以将待识别语音数据输入解码模型中获得多个语音识别结果,具体过程可参考实施例一或者实施例二获得语音数据样本的多个语音识别结果,本发明实施例在此不再详述。

s302、获取每一种语音识别结果在多个不同语言模型下的分数。

可选地,可以将语音识别结果分别输入声学模型、n-gram语言模型和rnnlm语言模型中得到每个语音识别结果的3个分数。

s303、基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量。

具体地可参考实施例二中s204-s207,在此不再详述。

s304、将所述特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数。

在本发明实施例中,重打分模型可以通过实施例一或者实施例二任一实施例所述的重打分模型训练方法所训练,该重打分模型可以对待识别语音数据的多个语音识别结果进行重新打分,在将特征向量输入预先训练的重打分模型中后,可以获得每个语音识别结果的最终分数。

s305、将所述最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果。

在本发明实施例中,最终分数表达了语音识别结果相对于真实结果的字符错误率,字符错误率越小,说明语音识别结果越接近于真实结果,因此可以将最终分数最小的语音识别结果确定为待识别语音数据的最终识别结果。

本发明实施例在训练重打分模型时,基于语音识别结果、分数和标签获得语音数据样本用于重打分模型训练的样本特征向量和第二标签,挖掘出了第二标签和多个不同语言模型打分得到的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,在通过重打分模型对待识别语音数据的多个语音识别结果进行重打分时,能够排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。

实施例四

图5是本发明实施例四提供的一种重打分模型训练装置的结构框图,如图5所示,本发明实施例的重打分模型训练装置具体可以包括如下模块:

语音识别结果和第一标签获取模块401,用于获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;

打分模块402,用于获取每一种语音识别结果在多个不同语言模型下的分数;

样本特征向量和第二标签获取模块403,用于基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;

模型训练模块404,用于采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

可选地,所语音识别结果和第一标签获取模块401包括:

解码子模块,用于将所述语音数据样本输入解码模型中得到多个语音识别结果,所述语音数据样本具有预先标注的第一标签;

语音识别结果提取子模块,用于提取预设数量的语音识别结果作为所述语音数据样本的多个语音识别结果。

可选地,所述打分模块402包括:

打分模型输入子模块,用于将每一种语音识别结果分别输入多个不同语言模型中,获得所述语音识别结果在不同语言模型下的分数。

可选地,所述语言模型包括声学模型、n-gram语言模型和rnnlm语言模型。

可选地,所述样本特征向量和第二标签获取模块403包括:

句词结构特征获取子模块,用于针对每个语音识别结果,对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征;

特征组合子模块,用于将所述语音识别结果在多个不同语言模型下的分数和所述句词结构特征组合为所述语音识别结果的样本特征向量;

第二标签获取子模块,用于采用所述语音识别结果和所述第一标签计算所述语音识别结果的字符错误率作为所述语音识别结果的第二标签。

可选地,所述句词结构特征包括以下至少一项:

词频统计特征、字频统计特征、字或词排序特征、句子长度特征、字数、词数。

可选地,还包括:

特征归一化处理模块,用于对所述样本特征向量进行归一化处理,得到归一化处理后的样本特征向量。

可选地,所述特征归一化处理模块,包括:

最大和最小样本特征向量确定子模块,用于在所有样本特征向量中确定出最大样本特征向量和最小样本特征向量;

差值计算子模块,用于采用所述最大样本特征向量和最小样本特征向量计算差值得到向量差值;

样本特征向量计算子模块,用于计算所述样本特征向量和所述向量差值的比值作为所述样本特征向量归一化处理后的样本特征向量。

可选地,所述模型训练模块404包括:

初始化模型子模块,用于初始化模型参数;

特征输入子模块,用于将所述语音识别结果归一化处理后的样本特征向量输入所述模型中获得所述语音识别结果的预估字符错误率;

损失率计算子模块,用于采用所述预估字符错误率和所述第二标签计算损失率;

梯度计算子模块,用于在所述损失率未满足预设条件时,采用所述损失率计算梯度;

模型参数调整子模块,用于采用所述梯度调整所述模型参数,返回特征输入子模块。

可选地,所述损失率计算子模块包括:

损失率计算单元,用于将所述预估字符错误率和所述第二标签代入预设的均方损失函数中计算得到损失率。

本发明实施例所提供的重打分模型训练装置可执行本发明实施例一或实施例二所述重打分模型训练方法,具备执行方法相应的功能模块和有益效果。

实施例五

图6是本发明实施例五提供的一种语音识别装置的结构框图,如图6所示,本发明实施例的语音识别装置具体可以包括如下模块:

语音识别结果获取模块501,用于获取待识别语音数据的多个语音识别结果;

初始分数获取模块502,用于获取每一种语音识别结果在多个不同语言模型下的分数;

特征向量获取模块503,用于基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;

最终分数预测模块504,用于将所述特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;

语音识别结果确定模块505,用于将最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;

其中,所述重打分模型通过本发明任一实施例所述的重打分模型训练方法所训练。

本发明实施例所提供的语音识别装置可执行本发明实施例三所述语音识别方法,具备执行方法相应的功能模块和有益效果。

实施例六

参照图7,示出了本发明一个示例中的一种设备的结构示意图。如图7所示,该设备具体可以包括:处理器60、存储器61、具有触摸功能的显示屏62、输入装置63、输出装置64以及通信装置65。该设备中处理器60的数量可以是一个或者多个,图7中以一个处理器60为例。该设备的处理器60、存储器61、显示屏62、输入装置63、输出装置64以及通信装置65可以通过总线或者其他方式连接,图7中以通过总线连接为例。

存储器61作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例一到实施例二所述的重打分模型训练方法对应的程序指令/模块(例如,上述实施例四的重打分模型训练装置中的语音识别结果和第一标签获取模块401、打分模块402、样本特征向量和第二标签获取模块403和模型训练模块404),或如本发明实施例三所述的语音识别方法对应的程序指令/模块(例如,上述实施例五的语音识别装置中的语音识别结果获取模块501、初始分数获取模块502、特征向量获取模块503和最终分数预测模块504)。存储器61可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作装置、至少一个功能所需的应用程序;存储数据区可存储根据设备的使用所创建的数据等。此外,存储器61可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器60可进一步包括相对于处理器60远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

显示屏62为具有触摸功能的显示屏62,其可以是电容屏、电磁屏或者红外屏。一般而言,显示屏62用于根据处理器60的指示显示数据,还用于接收作用于显示屏62的触摸操作,并将相应的信号发送至处理器60或其他装置。可选的,当显示屏62为红外屏时,其还包括红外触摸框,该红外触摸框设置在显示屏62的四周,其还可以用于接收红外信号,并将该红外信号发送至处理器60或者其他设备。

通信装置65,用于与其他设备建立通信连接,其可以是有线通信装置和/或无线通信装置。

输入装置63可用于接收输入的数字或者字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入,还可以是用于获取图像的摄像头以及获取音频数据的拾音设备。输出装置64可以包括扬声器等音频设备。需要说明的是,输入装置63和输出装置64的具体组成可以根据实际情况设定。

处理器60通过运行存储在存储器61中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述所述的重打分模型训练方法和/或语音识别方法。

具体地,实施例中,处理器60执行存储器61中存储的一个或多个程序时,具体实现本发明实施例提供的重打分模型训练方法和/或语音识别方法。

本发明实施例还提供一种计算机可读存储介质,所述存储介质中的指令由设备的处理器执行时,使得设备能够执行如上述方法实施例所述的重打分模型训练方法和/或语音识别方法。

需要说明的是,对于装置、设备、存储介质实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-onlymemory,rom)、随机存取存储器(randomaccessmemory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是机器人,个人计算机,服务器,或者网络设备等)执行本发明任意实施例所述的重打分模型训练方法和/或语音识别方法。

值得注意的是,上述重打分模型训练装置和语音识别装置中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。

应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行装置执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(pga),现场可编程门阵列(fpga)等。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。


技术特征:

1.一种重打分模型训练方法,其特征在于,包括:

获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;

获取每一种语音识别结果在多个不同语言模型下的分数;

基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;

采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

2.根据权利要求1所述的方法,其特征在于,所述获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,包括:

将所述语音数据样本输入解码模型中得到多个语音识别结果,所述语音数据样本具有预先标注的第一标签;

提取预设数量的语音识别结果作为所述语音数据样本的多个语音识别结果。

3.根据权利要求1所述的方法,其特征在于,所述获取每一种语音识别结果在多个不同语言模型下的分数,包括:

将每一种语音识别结果分别输入多个不同语言模型中,获得所述语音识别结果在不同语言模型下的分数。

4.根据权利要求1-3任一项所述的方法,其特征在于,所述语言模型包括声学模型、n-gram语言模型和rnnlm语言模型。

5.根据权利要求1所述的方法,其特征在于,所述基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签,包括:

针对每个语音识别结果,对所述语音识别结果进行分析以提取所述语音识别结果的句词结构特征;

将所述语音识别结果在多个不同语言模型下的分数和所述句词结构特征组合为所述语音识别结果的样本特征向量;

采用所述语音识别结果和所述第一标签计算所述语音识别结果的字符错误率作为所述语音识别结果的第二标签。

6.根据权利要求5所述的方法,其特征在于,所述句词结构特征包括以下至少一项:

词频统计特征、字频统计特征、字或词排序特征、句子长度特征、字数、词数。

7.根据权利要求1所述的方法,其特征在于,在所述采用所述样本特征向量和所述第二标签训练模型,得到重打分模型之前,包括:

对所述样本特征向量进行归一化处理,得到归一化处理后的样本特征向量。

8.根据权利要求7所述的方法,其特征在于,所述对所述样本特征向量进行归一化处理,得到归一化处理后的样本特征向量,包括:

在所有样本特征向量中确定出最大样本特征向量和最小样本特征向量;

采用所述最大样本特征向量和最小样本特征向量计算差值得到向量差值;

计算所述样本特征向量和所述向量差值的比值作为所述样本特征向量归一化处理后的样本特征向量。

9.根据权利要求7或8所述的方法,其特征在于,所述采用所述样本特征向量和所述第二标签训练模型,得到重打分模型,包括:

初始化模型参数;

将所述语音识别结果归一化处理后的样本特征向量输入所述模型中获得所述语音识别结果的预估字符错误率;

采用所述预估字符错误率和所述第二标签计算损失率;

在所述损失率未满足预设条件时,采用所述损失率计算梯度;

采用所述梯度调整所述模型参数,返回将所述语音识别结果归一化处理后的样本特征向量输入所述模型中获得所述语音识别结果的预估字符错误率的步骤。

10.根据权利要求9所述的方法,其特征在于,所述采用所述预估字符错误率和所述第二标签计算损失率,包括:

将所述预估字符错误率和所述第二标签代入预设的均方损失函数中计算得到损失率。

11.一种语音识别方法,其特征在于,包括:

获取待识别语音数据的多个语音识别结果;

获取每一种语音识别结果在多个不同语言模型下的分数;

基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;

将所述特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;

将所述最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;

其中,所述重打分模型通过权利要求1-10任一项所述的重打分模型训练方法所训练。

12.一种重打分模型训练装置,其特征在于,包括:

语音识别结果和第一标签获取模块,用于获取语音数据样本的多个语音识别结果和所述语音数据样本的第一标签,所述第一标签为预先标注的所述语音数据样本的标签;

打分模块,用于获取每一种语音识别结果在多个不同语言模型下的分数;

样本特征向量和第二标签获取模块,用于基于所述语音识别结果、所述分数和所述第一标签获得所述语音数据样本用于重打分模型训练的样本特征向量和第二标签;

模型训练模块,用于采用所述样本特征向量和所述第二标签训练模型,得到用于对所述语音识别结果进行重打分的重打分模型。

13.一种语音识别装置,其特征在于,包括:

语音识别结果获取模块,用于获取待识别语音数据的多个语音识别结果;

初始分数获取模块,用于获取每一种语音识别结果在多个不同语言模型下的分数;

特征向量获取模块,用于基于所述语音识别结果和所述分数获得所述待识别语音数据的特征向量;

最终分数预测模块,用于将所述样本特征向量输入预先训练的重打分模型中获得每个语音识别结果的最终分数;

语音识别结果确定模块,用于将最终分数最小的语音识别结果确定为所述待识别语音数据的最终识别结果;

其中,所述重打分模型通过权利要求1-10任一项所述的重打分模型训练方法所训练。

14.一种设备,其特征在于,所述设备包括:

一个或多个处理器;

存储装置,用于存储一个或多个程序,

当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-10中任一项所述的重打分模型训练方法和/或如权利要求11所述的语音识别方法。

15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10中任一项所述的重打分模型训练方法和/或如权利要求11所述的语音识别方法。

技术总结
本发明实施例公开了一种重打分模型训练方法、语音识别方法及相关装置,训练方法包括:获取语音数据样本的多个语音识别结果和语音数据样本的第一标签,第一标签为预先标注的标签;获取语音识别结果在多个不同语言模型下的分数;基于语音识别结果、分数和第一标签获得语音数据样本的样本特征向量和第二标签;采用样本特征向量和第二标签训练模型得到重打分模型。本发明实施例挖掘第二标签和不同语言模型打分的分数隐含的内在关联,以得到不同语言模型的打分分数的最佳组合方式,排除了人为主观性因素,确保了语音识别结果的准确度,即时各个语言模型打分机制改变,也无需修改各个分数之间的权重,提高了重打分模型的通用性和普适性。

技术研发人员:李安;陈江;胡正伦;傅正佳
受保护的技术使用者:广州市百果园信息技术有限公司
技术研发日:2019.12.31
技术公布日:2020.05.19

转载请注明原文地址: https://bbs.8miu.com/read-267758.html

最新回复(0)