本发明涉及互联网技术领域,特别是涉及一种语音训练方法以及一种语音训练装置。
背景技术:
随着互联网的不断普及,人工智能系统也逐渐进入人们的生活一部分,为人们生活提供便利。
人工智能系统可以通过识别用户的语音数据,从而执行语音数据对应的操作,为用户的生活提供便利。
目前的人工智能系统都是在获取语音数据后,执行对应的操作。为了可以提高识别识别的准确率,普遍采用人工录制以及人工标注的方式,得到用于训练深度神经元网络的语音数据。
而常用的方法只能标注人声或单一声音,而无法分辨不同的语音数据的对象,而当出现其他声音时,容易将外界的语音数据与目标语音数据进行混淆,使得执行的操作与用户的预期出现偏差。
技术实现要素:
鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音训练方法以及一种语音训练装置。
为了解决上述问题,本发明实施例公开了一种语音训练方法,所述方法应用于人工智能系统,所述方法包括:
当所述人工智能系统获取语音数据时,获取当前的语境信息;
根据所述语境信息获取所述语音数据对应的音频波形;
判断所述音频波形是否为预设的音频波形;
若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
可选地,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
所述根据所述语境信息获取所述语音数据对应的音频波形,包括:
确定所述语境信息是否为人物信息;
若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息;
若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息;
若是动物信息,则获取所述动物语音数据对应的动物波形。
可选地,所述判断所述音频波形是否为预设的音频波形,包括:
判断所述人物波形是否为预设的波形;
若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形;
若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形;
所述若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练,包括:
若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据;
采用所述训练数据进行语音训练。
可选地,所述方法包括:
若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征;
将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征;
采用所述训练语音特征进行语音训练。
本发明实施例还公开了一种语音训练装置,应用于人工智能系统,所述装置包括:
获取模块,用于当所述人工智能系统获取语音数据时,获取当前的语境信息;
音频波形模块,用于根据所述语境信息获取所述语音数据对应的音频波形;
判断模块,用于判断所述音频波形是否为预设的音频波形;
训练模块,用于若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
可选地,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
所述音频波形模块,包括:
确定模块,用于确定所述语境信息是否为人物信息;
判断环境模块,用于若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息;
判断动物模块,用于若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息;
动物波形模块,用于若是动物信息,则获取所述动物语音数据对应的动物波形。
可选地,所述判断模块,包括:
判断人物波形模块,用于判断所述人物波形是否为预设的波形;
判断环境波形模块,用于若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形;
判断动物波形模块,用于若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形;
所述训练模块,包括:
合成模块,用于若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据;
采用数据模块,用于采用所述训练数据进行语音训练。
可选地,所述装置包括:
提取模块,用于若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征;
合并模块,用于将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征;
训练语音特征模块,用于采用所述训练语音特征进行语音训练。
本发明实施例还公开了一种装置,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如上述实施例所述的一个或多个方法。
本发明实施例还公开了一种计算机可读存储介质,其存储的计算机程序使得处理器执行如上述实施例所述的任一项所述方法。
本发明实施例包括以下优点:提出了一种语音训练方法,当所述人工智能系统获取语音数据时,获取当前的语境信息;根据所述语境信息获取所述语音数据对应的音频波形;判断所述音频波形是否为预设的音频波形;若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。本实施例提出的语音训练方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,再采用混合的语音数据进行训练,从而可以提高人工智能系统的识别能力,也提高了人工智能系统匹配和识别的准确度,可以准确识别用户的指令,提高用户的使用体验,而且在识别过程中的计算量小,也降低了系统功耗。
附图说明
图1是本发明的语音训练方法实施例一的步骤流程图;
图2是本发明的语音训练方法实施例二的步骤流程图;
图3是本发明的语音训练装置实施例一的结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
参照图1,示出了本发明的语音训练方法实施例一的步骤流程图,在本实施例中,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤101,当所述人工智能系统获取语音数据时,获取当前的语境信息。
在本实施例中,该语音数据可以是用户输入的语音数据,用户的指令信息等等。当前的语境信息可以是当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。也可以是当前环境的环境声音数据,例如,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。
在可选的实施例中,人工智能系统可以设有感应装置,该感应装置可以包括热源传感器、湿度传感器、通信装置等等。当人工智能系统获取了用户输入的语音数据后,可以立即调用感应装置获取语境信息。
在本实施例中,获取当前的语境信息是为了可以采用当前的语境信息与用户的语音数据进行混合训练,从而可以提高人工智能系统的识别准确率。
步骤102,根据所述语境信息获取所述语音数据对应的音频波形。
在本实施例中,语境信息可以包括当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。也可以是当前环境的环境声音数据,例如,多用户的说话声音,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。而不同的信息可以对应不同的音频波形,通过不同的波形可以整合不同的音频数据,从而可以采用不同的音频数据对人工智能系统进行语音训练,达到增强人工智能系统的实用性的目的。
具体地,可以分别采集语境信息的不同声音数据,在获取不同声音数据对应的音频波形,将不同声音对应的音频波形与用户的语音数据的音频波形进行混合,在采用混合的音频进行语音训练。
例如,语境信息包括汽车声音,狗叫声音,可以获取汽车声音对应的音频波形,狗叫声音对应的音频波形,以及用户输入的语音数据对应的音频波形。接着分别将汽车声音对应的音频波形与用户输入的语音数据对应的音频波形混合,将狗叫声音对应的音频波形与用户输入的语音数据对应的音频波形混合。再分别采用两个混合的音频数据进行语音训练。
在可选的实施例中,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
具体地,该人物信息可以是人物数量;环境信息可以是地理位置,物体数量;动物信息可以动物数量。
步骤103,判断所述音频波形是否为预设的音频波形。
在本实施例中,预设的音频波形可以是噪声语音样本的音频波形、无噪声语音样本的音频波形、背景噪声样本的音频波形、人声的音频波形、动物声音波形、物体声波形等等。
在获取了音频波形后,可以判断该音频波形与预设音频波形是否相同,若相同可以将获取的音频波形与用户的语音数据对应的音频波形进行混合,由人工智能系统进行语音训练。
步骤104,若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
在本实施例中,当音频波形与预设的音频波形相同时,可以确定获取的语音数据对应的音频波形为预设的音频波形,可以直接将该语音数据输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
在本发明可选的实施例中,提出了一种语音训练方法,当所述人工智能系统获取语音数据时,获取当前的语境信息;根据所述语境信息获取所述语音数据对应的音频波形;判断所述音频波形是否为预设的音频波形;若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。本实施例提出的语音训练方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,再采用混合的语音数据进行训练,从而可以提高人工智能系统的识别能力,也提高了人工智能系统匹配和识别的准确度,可以准确识别用户的指令,提高用户的使用体验,而且在识别过程中的计算量小,也降低了系统功耗。
参照图2,示出了本发明的语音训练方法实施例二的步骤流程图,该方法可以应用于人工智能系统,该人工智能系统可以是利用人工智能技术或知识工程技术而开发的应用系统、或者基于知识的软件工程辅助系统、或者通过集成操作系统和人工智能与认知科学而进行研究的智能操作系统,又或者是移动终端、计算机终端或者类似的运算装置等等。在具体实现中,该人工智能系统可以是语音智能系统。该语音智能系统可以包括用于接收语音数据的语音接收设备、识别语音数据的识别设备、红外传感器、热源探测器、一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)以及用于存储数据的存储器。
其中,存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的报文接收方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
在本实施例中,该方法可以包括:
步骤201,当所述人工智能系统获取语音数据时,获取当前的语境信息。
在本实施例中,该语音数据可以是用户输入的语音数据,用户的指令信息等等。当前的语境信息可以是当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。也可以是当前环境的环境声音数据,例如,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。
在可选的实施例中,人工智能系统可以设有感应装置,该感应装置可以包括热源传感器、湿度传感器、通信装置等等。当人工智能系统获取了用户输入的语音数据后,可以立即调用感应装置获取语境信息。
在本实施例中,获取当前的语境信息是为了可以采用当前的语境信息与用户的语音数据进行混合训练,从而可以提高人工智能系统的识别准确率。
步骤202,根据所述语境信息获取所述语音数据对应的音频波形。
在本实施例中,语境信息可以包括当前的环境信息,天气信息,时间信息,地理信息等等。例如,当前的地理位置,空气干湿度,天气状况,用户人物数量,当前时间,语音对象等等。也可以是当前环境的环境声音数据,例如,多用户的说话声音,动物声音,环境声音,物体的声音,例如,动物的叫声数据,汽车的声音数据,摆钟发出的声音等等。而不同的信息可以对应不同的音频波形,通过不同的波形可以整合不同的音频数据,从而可以采用不同的音频数据对人工智能系统进行语音训练,达到增强人工智能系统的实用性的目的。
具体地,可以分别采集语境信息的不同声音数据,在获取不同声音数据对应的音频波形,将不同声音对应的音频波形与用户的语音数据的音频波形进行混合,在采用混合的音频进行语音训练。
例如,语境信息包括汽车声音,狗叫声音,可以获取汽车声音对应的音频波形,狗叫声音对应的音频波形,以及用户输入的语音数据对应的音频波形。接着分别将汽车声音对应的音频波形与用户输入的语音数据对应的音频波形混合,将狗叫声音对应的音频波形与用户输入的语音数据对应的音频波形混合。再分别采用两个混合的音频数据进行语音训练。
在可选的实施例中,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
具体地,该人物信息可以是人物数量;环境信息可以是地理位置,物体数量;动物信息可以动物数量。
可选地,步骤202可以包括以下子步骤:
子步骤2021,确定所述语境信息是否为人物信息。
在本实施例中,可以是判断当前的人物数量。具体地,该人工智能系统可以设置热量传感器,可以采用热量传感器在可探测的半径范围内获取人工智能系统周边的热量源,可以根据热量源的数值确定当前的人物数量。
例如,热量源在37摄氏度左右的可以确定为人物,可以计算热量源在37摄氏度左右的人物数量,计算得到当前的人物数量。
通过获取当期的人物数量,可以确定获取的语音数据是否包括人物的声音数据。当人物数量大于或等于一时,可以确定获取的语音数据包括人物语音数据;当人物数量小于一时,可以确定获取的语音数据不包括人物语音数据。
子步骤2022,若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息。
在本实施例中,当人工智能系统通过识别的热量源确定语境信息是人物信息时,该人工智能系统可以确定当前的人物数量,可以确定该语音数据包括人物语音数据,该人工智能系统可以获取人物语音数据对应的人物波形。该人物波形可以是人物声音对应的音频波形。并且可以在获取了人物声音对应的音频波形后判断语境信息是否为环境信息。
具体地,该环境信息可以为物体数量信息,或者物体的位置信息。在本实施例中,该人工智能系统可以设有红外传感器,可以采用红外传感器在设定的半径内向四周发送红外线,若红外线反弹,则可以确定有物体。可以统计反弹的红外线数量,确定物体的数量。
通过红外传感器可以确定在人工智能系统的周边是否有具体的物体在从而可以确定获取的语音数据中是否包括物体语音数据。
在可选的实施例中,人工智能系统可以对所获取的语音数据进行傅里叶变换,将时域下的语音数据转换为频域下的对应的波形频谱。
子步骤2023,若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息。
在本实施例中,当人工智能系统识别通过的红外线确定语境信息是环境信息时,该人工智能系统可以确定当前的物体数量,可以确定该语音数据包括环境语音数据,该人工智能系统可以获取环境语音数据对应的环境波形。该环境波形可以是环境中物体声音对应的音频波形。并且可以在获取了物体声音对应的音频波形后判断语境信息是否为动物信息。
具体地,该动物信息可以为动物数量信息,或者动物的位置信息。在本实施例中,人工智能系统也可以采用热量传感器在可探测的半径范围内获取人工智能系统周边的热量源,可以根据热量源的数值确定当前的人物数量。
例如,热量源在38摄氏度以上,45摄氏度以下的可以确定为家禽动物,可以计算热量源在38摄氏度以上,45摄氏度以下的动物数量,计算得到当前的动物数量。
子步骤2024,若是动物信息,则获取所述动物语音数据对应的动物波形。
在本实施例中,当人工智能系统通过识别的热量源确定语境信息是动物信息时,该人工智能系统可以确定当前的动物数量,可以确定该语音数据包括动物语音数据,该人工智能系统可以获取动物语音数据对应的动物波形。该动物波形可以是动物声音对应的音频波形。
具体地,人工智能系统也可以对所获取的语音数据进行傅里叶变换,将时域下的语音数据转换为频域下的对应的波形频谱。
在本实施中,通过获取人物的音频波形、环境的音频波形以及动物的音频波形后,可以分别采用上述三种波形与用户的语音数据的音频波形进行混合,从而可以得到混合的音频波形供人工智能系统进行语音训练。可以提高人工智能系统语音训练的能力,同时也能拓展人工智能系统的语音训练音域范围。
步骤203,判断所述音频波形是否为预设的音频波形。
在本实施例中,预设的音频波形可以是噪声语音样本的音频波形、无噪声语音样本的音频波形、背景噪声样本的音频波形、人声的音频波形、动物声音波形、物体声波形等等。
在获取了音频波形后,可以判断该音频波形与预设音频波形是否相同,若相同可以将获取的音频波形与用户的语音数据对应的音频波形进行混合,由人工智能系统进行语音训练。
可选地,步骤203可以包括以下子步骤:
子步骤2031,判断所述人物波形是否为预设的波形。
子步骤2032,若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形。
子步骤2033,若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形。
在本实施例中,该人工智能系统可以获取波形的幅值、周期、波长、分贝、声功率、声强等波形特征,以及预设的音频波形的波形特征,然后分别比较人物波形、环境波形以及动物波形是否与预设的波形相同。
具体地,可以先获取人物波形幅值、周期、波长、分贝、声功率、声强等波形特征,再获取预设波形的幅值、周期、波长、分贝、声功率、声强等波形特征,然后比较人物波形的波形特征与预设波形的波形特征是否相同,若人物波形的波形特征与预设波形的波形特征相同,则可以获取环境波形的波形特征,接着比较环境波形的波形特征与预设波形的波形特征是否相同,若环境波形的波形特征与预设波形的波形特征相同,则可以获取动物波形的波形特征,再比较动物波形的波形特征与预设波形的波形特征是否相同。
通过判断该音频波形与预设音频波形是否相同,可以将获取的音频波形与用户的语音数据对应的音频波形进行混合,由人工智能系统进行语音训练,提高人工智能系统语音训练的实用性,让人工智能系统可以采用不同的语音数据进行训练。
在另一可选的实施例中,步骤203还可以包括以下子步骤:
子步骤2034,若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征。
在本实施例中,音频语音特征可以是文本特征、清音特征、浊音特征等等。
当音频波形与预设的音频波形不同时,可以从音频数据中提取文本特征、清音特征、浊音特征等特征,将各个特征代入到人工智能系统中,再进行语音训练。
具体地,在提取噪音特征时可以基于过零率对语音信号进行浊音检测,从语音信号中提取出浊音片段,以该浊音片段为浊音特征,其中过零率的门限值为第二门限值,且第二门限值大于第一门限值。
可选地,在基于过零率对语音信号进行浊音检测时,针对语音信号的语音帧中相邻的两个采样点tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>t2时,则认定该语音帧过一次零,据此统计出语音帧的过零率,其中t2为第二门限值;然后从语音信号中提取出过零率大于预设值的语音帧组成浊音片段。这里的预设值可以根据实际需要设定。第二门限值t2大于前述第一门限值t1,优选为语音信号的平均幅值的8%-15%(如10%)。
可选地,在基于过零率对语音信号进行浊音检测时,针对语音信号中相邻的采样点对tmp1和tmp2,当同时满足tmp1*tmp2<0和|tmp1-tmp2|>t2时,则判决过零率为1,否则判决过零率为0,其中t2为第二门限值;然后电子设备从语音信号中提取出所有过零率为1的采样点对所对应的数据段组成浊音片段。
例如,采用以下公式进行浊音检测:
signs=(tmp1.*tmp2)<0;
diffs=|tmp1-tmp2|>t2;
zcr=(signs.*diffs);
其中,signs是发生过零的位置,tmp1和tmp2是语音信号中相邻的采样点对,tmp1和tmp2对应位置数据相乘(.*代表两个向量的点积),小于0则signs为1,否则为0;diffs是基于点的幅值差位置,tmp1与tmp2之差的绝对值大于第二门限值t2时,变量值diffs为1,否则为0;zcr是基于点的过零率,当signs<0且diffs>t2时,则zcr为1,否则为0,从而就把清音和噪音的过零率全部置零,而只保留了语音(浊音)的过零率。
第二门限值t2可以为检测到的语音信号的幅度的平均值(即平均幅值)的8%-20%,例如,假设平均幅值为0.2,第二门限值t2=0.2x10%=0.02。
相类似地,也可以采用上述方法提取清音,为了避免重复,在此不赘述。
在具体实现中,文本特征可以是关键词对应的音频特征,可以是关键词的音频波形。具体地,人工智能系统也可以提取出关键词的音频波形的特征参数,然后利用特征参数进行关键词匹配。所述特征参数如线性预测系数(linearpredictioncoefficient,lpc)、感知线性预测系数(perceptuallinearpredictive,plp)、线性预测倒谱系数(linearpredictioncepstrumcoefficien,lpcc)、梅尔频率倒谱系数(melfrequencycepstrumcoefficient,mfcc)等等。可以根据上述系数计算对应的关键词的音频波形,从而得到关键词对应的音频特征。
子步骤2035,将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征。
在本实施例中,在获取音频语音特征后,可以将获取的音频语音特征与用户预设的人物语音特征进行合并,得到一个可以供人工智能系统进行训练的训练语音特征。
该人工智能系统可以采用训练语音特征进行语音训练,从而可以根据训练结果提高语音识别的能力。
子步骤2036,采用所述训练语音特征进行语音训练。
在本实施例中,人工智能系统可以采用训练语音特征反复进行语音训练。
具体地,可以将训练语音特征输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
步骤204,若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
在本实施例中,当音频波形与预设的音频波形相同时,可以确定获取的语音数据对应的音频波形为预设的音频波形,可以直接将该语音数据输入至人工智能系统预设的语音训练模型中,在语音训练模型反复计算,得到训练结果。
可选地,步骤204可以包括以下子步骤:
子步骤2041,若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据。
具体地,当人物波形、环境波形和动物波形均与预设的波形相同,可以确定人物波形、环境波形和动物波形均为预设的波形,可以将人物语音数据、环境语音数据和动物语音数据进行混合,得到混合的训练数据。
具体地,合成的方式可以是将人物语音数据、环境语音数据和动物语音数据首尾相接地合并,也可以按任意顺序进行合并,也可以将人物语音数据、环境语音数据和动物语音数据合并一个混合数据等等。具体可以根据实际需要进行调整,本发明并不在此作限定。
子步骤2042,采用所述训练数据进行语音训练。
在本实施例中,在得到了混合的训练数据后,可以直接将该语音数据输入至人工智能系统预设的语音训练模型中进行反复计算,得到训练结果。而人工智能系统采用混合的训练数据进行语音训练,可以提高人工智能系统的识别能力,可以有效地增加人工智能系统的识别准确性。
步骤205,生成并存储训练结果。
在本实施例中,采用训练数据进行语音训练后,人工智能系统可以生成训练结果,从存储该训练结果。
具体地,该人工智能系统可以与外接设备连接,该外接设备可以是外接终端,服务器,智能设备等等。用户可以通过外接设备知道人工智能系统的训练结果,并且可以根据训练结果调整训练的方法或者调整该人工智能系统。
在本发明优选的实施例中,提出了一种语音训练方法,当所述人工智能系统获取语音数据时,获取当前的语境信息;根据所述语境信息获取所述语音数据对应的音频波形;判断所述音频波形是否为预设的音频波形;若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练;生成并存储训练结果。本实施例提出的语音训练方法,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,再采用混合的语音数据进行训练,从而可以提高人工智能系统的识别能力,也提高了人工智能系统匹配和识别的准确度,可以准确识别用户的指令,提高用户的使用体验,而且在识别过程中的计算量小,也降低了系统功耗。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
参照图3,示出了本发明的语音训练装置其中一种实施例的结构示意图,在本实施例中,该装置可以应用于人工智能系统,所述装置包括:
获取模块301,用于当所述人工智能系统获取语音数据时,获取当前的语境信息;
音频波形模块302,用于根据所述语境信息获取所述语音数据对应的音频波形;
判断模块303,用于判断所述音频波形是否为预设的音频波形;
训练模块304,用于若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
可选地,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
所述音频波形模块,包括:
确定模块,用于确定所述语境信息是否为人物信息;
判断环境模块,用于若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息;
判断动物模块,用于若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息;
动物波形模块,用于若是动物信息,则获取所述动物语音数据对应的动物波形。
可选地,所述判断模块,包括:
判断人物波形模块,用于判断所述人物波形是否为预设的波形;
判断环境波形模块,用于若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形;
判断动物波形模块,用于若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形;
所述训练模块,包括:
合成模块,用于若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据;
采用数据模块,用于采用所述训练数据进行语音训练。
可选地,所述装置包括:
提取模块,用于若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征;
合并模块,用于将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征;
训练语音特征模块,用于采用所述训练语音特征进行语音训练。
可选地,所述装置还可以包括:
生成模块,用于生成并存储训练结果。
本实施例提出了一种语音训练装置,该装置可以包括:获取模块301,用于当所述人工智能系统获取语音数据时,获取当前的语境信息;音频波形模块302,用于根据所述语境信息获取所述语音数据对应的音频波形;判断模块303,用于判断所述音频波形是否为预设的音频波形;训练模块304,用于若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练本实施例提出的语音训练装置,操作简便,可以从语音数据中提取出各个语言特征以及不同的语音数据,并利用不同的语音数据或语音特征和预设的语音数据进行混合,再采用混合的语音数据进行训练,从而可以提高人工智能系统的识别能力,也提高了人工智能系统匹配和识别的准确度,可以准确识别用户的指令,提高用户的使用体验,而且在识别过程中的计算量小,也降低了系统功耗。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本发明实施例还提供了一种装置,包括:
包括一个或多个处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的机器可读介质,该机器可读介质被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储计算机程序,计算机程序被处理器执行时实现上述方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本发明所提供的一种语音训练方法和一种语音训练装置,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
1.一种语音训练方法,其特征在于,应用于人工智能系统,所述方法包括:
当所述人工智能系统获取语音数据时,获取当前的语境信息;
根据所述语境信息获取所述语音数据对应的音频波形;
判断所述音频波形是否为预设的音频波形;
若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
2.根据权利要求1所述的方法,其特征在于,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
所述根据所述语境信息获取所述语音数据对应的音频波形,包括:
确定所述语境信息是否为人物信息;
若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息;
若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息;
若是动物信息,则获取所述动物语音数据对应的动物波形。
3.根据权利要求2所述的方法,其特征在于,所述判断所述音频波形是否为预设的音频波形,包括:
判断所述人物波形是否为预设的波形;
若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形;
若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形;
所述若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练,包括:
若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据;
采用所述训练数据进行语音训练。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征;
将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征;
采用所述训练语音特征进行语音训练。
5.一种语音训练装置,其特征在于,应用于人工智能系统,所述装置包括:
获取模块,用于当所述人工智能系统获取语音数据时,获取当前的语境信息;
音频波形模块,用于根据所述语境信息获取所述语音数据对应的音频波形;
判断模块,用于判断所述音频波形是否为预设的音频波形;
训练模块,用于若所述音频波形为预设的音频波形,则采用所述音频数据进行语音训练。
6.根据权利要求5所述的装置,其特征在于,所述语境信息包括人物信息、环境信息、动物信息,所述语音数据包括人物语音数据、环境语音数据、动物语音数据;
所述音频波形模块,包括:
确定模块,用于确定所述语境信息是否为人物信息;
判断环境模块,用于若是人物信息,则获取所述人物语音数据对应的人物波形,并判断所述语境信息是否为环境信息;
判断动物模块,用于若是环境信息,则获取所述环境语音数据对应的环境波形,并判断所述语境信息是否为动物信息;
动物波形模块,用于若是动物信息,则获取所述动物语音数据对应的动物波形。
7.根据权利要求6所述的装置,其特征在于,所述判断模块,包括:
判断人物波形模块,用于判断所述人物波形是否为预设的波形;
判断环境波形模块,用于若所述人物波形为预设的波形,则判断所述环境波形是否为预设的波形;
判断动物波形模块,用于若所述环境波形为预设的波形,则判断所述动物波形是否为预设的波形;
所述训练模块,包括:
合成模块,用于若所述动物波形为预设的波形,则采用人物语音数据、环境语音数据和动物语音数据合成训练数据;
采用数据模块,用于采用所述训练数据进行语音训练。
8.根据权利要求6所述的装置,其特征在于,所述装置包括:
提取模块,用于若所述音频波形不是预设的音频波形,则从所述音频数据中提取音频语音特征;
合并模块,用于将预设的人物语音特征与所述音频语音特征进行合并,生成训练语音特征;
训练语音特征模块,用于采用所述训练语音特征进行语音训练。
9.一种装置,其特征在于,包括:
一个或多个处理器;和
其上存储有指令的一个或多个机器可读介质,当由所述一个或多个处理器执行时,使得所述装置执行如权利要求1至4所述的一个或多个方法。
10.一种计算机可读存储介质,其特征在于,其存储的计算机程序使得处理器执行如权利要求1至4任一项所述方法。
技术总结