本公开涉及人工智能领域,尤其涉及一种文本的处理方法、装置、设备及计算机可读存储介质。
背景技术:
随着人工智能的蓬勃发展,合成语音越来越多的应用在工作、生活中。举例来说,终端设备中可以安装有智能语音助手的应用,该应用可以获取用户的语音指令,并采用预设的合成语音对该语音指令进行响应。为了提高用户体验,合成语音中也需要引入语言学特征信息,例如语音、语调等。因此,在生成合成语音的过程中,首先要确定待合成语音的文本对应的语言学特征信息,从而根据语言学特征信息生成的合成语音能够更加贴合用户的语音。
现有技术中一般都是采用pipeline流程实现对待合成语音的文本对应的语言学特征信息的获取,现有技术中用于确定文本语音学特征信息的文本处理装置中具体包括多个网络模型,例如分词模型、韵律获取模型等。多个网络模型按照预设的顺序连接,前一网络模型输出的分类结果作为后一网络模型的输入,将最后一网络模型输出的数据作为待合成语音的文本对应的语言学特征信息。
但是,采用上述方法进行待合成语音的文本对应的语言学特征信息的获取时,由于各网络模型均存在误差信息,多个网络模型的累计误差信息较大,导致确定的语言学特征信息准确率不高。此外,每一个网络模型均需要单独训练,训练过程较为繁琐。
技术实现要素:
本公开提供一种文本的处理方法、装置、设备及计算机可读存储介质,用于解决现有的文本语言学特征信息获取方法多个网络模型输出的数据的累计误差较大,导致获得的语言学特征信息也不够精准的技术问题。
本公开的第一个方面是提供一种文本的处理方法,包括:
获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;
将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;
采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;
根据所述语言学特征信息生成所述待处理文本对应的合成语音。
本公开的第二个方面是提供一种文本的处理装置,包括:
获取模块,用于获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;
处理模块,用于将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;
处理模块,用于采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;
合成模块,用于根据所述语言学特征信息生成所述待处理文本对应的合成语音。
本公开的第三个方面是提供一种文本的处理设备,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如第一方面所述的文本的处理方法。
本公开的第四个方面是提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面所述的文本的处理方法。
本公开提供的文本的处理方法、装置、设备及计算机可读存储介质,通过获取待处理文本及其对应的第一向量信息,通过预设的网络模型中的预训练层以及多任务输出层对该第一向量信息进行处理,获得待处理文本对应的语言学特征信息,从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。进一步地,还可以根据该语言学特征信息生成合成语音,由于根据语言学特征信息生成的合成语音能够还原真实人物说话的发音、音调以及韵律边界,从而该合成语音能够更加贴合用户的语音,提高用户体验。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
图1为本公开实施例一提供的文本的处理方法的流程示意图;
图2为该预设的网络模型的网络结构图;
图3为本公开实施例二提供的文本的处理方法的流程示意图;
图4为本公开实施例提供的网络模型的又一网络架构图;
图5为本公开实施例三提供的文本的处理方法的流程示意图;
图6为本公开实施例提供的合成语音生成流程图;
图7为本公开实施例四提供的文本的处理装置的结构示意图;
图8为本公开实施例五提供的文本的处理设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例所获得的所有其他实施例,都属于本公开保护的范围。
针对上述提及的在现有的文本语言学特征信息获取方法中,由于文本处理装置中具体包括多个网络模型,将前一网络模型的输出结果作为下一网络模型的输入,当多个网络模型存在误差时,文本处理装置中最后一个网络模型输出的数据的累计误差较大,导致获得的语言学特征信息也不够精准的技术问题。因此,为了能够避免由于多个网络模型的架构带来的累计误差,可以减少网络模型的数量,通过一个端到端的网络模型实现对文本语言学特征信息的确定。为了解决上述技术问题,本公开提供了一种文本的处理方法、装置、设备及计算机可读存储介质。
需要说明的是,本公开所提供的文本的处理方法、装置、设备及计算机可读存储介质能够应用在任意一种需要获取文本语言学特征信息的场景中。举例来说,其具体可以应用在合成语音的生成场景中。
图1为本公开实施例一提供的文本的处理方法的流程示意图,如图1所示,所述方法包括:
步骤101、获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息。
本实施例的执行主体为文本的处理装置。该文本的处理装置能够与预设的数据服务器通信连接,从而在需要确定文本的语言学特征信息时,文本的处理装置能够从预设的数据服务器中获取待处理文本。可选地,文本的处理装置还可以与用户终端通信连接,从而当用户需要确定文本的语言学特征信息时,文本的处理装置能够从终端设备中获取待处理文本。
为了实现对文本的语言学特征信息的获取,可以采用预设的网络模型对待处理文本进行处理。因此,为了使预设的网络模型能够对待处理文本进行处理,首先需要对将该待处理文本转换为网络模型能够识别、处理的形式。具体地,可以对待处理文本进行向量化处理,获得待处理文本对应的第一向量信息。
具体地,在上述实施例的基础上,步骤101具体包括:
通过embedding方法对所述待处理文本进行向量化处理。
在本实施例中,具体可以通过embedding方法对待处理文本进行向量化处理。需要说明的是,由于embedding方法能够将文本信息替换为用于嵌入矩阵中向量的索引,从而当待处理文本的数据量较大时,也能够有效地对待处理文本进行向量化处理。
步骤102、将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量。
在本实施方式中,可以采用预设的网络模型实现对待处理文本的语言学特征信息的获取。图2为该预设的网络模型的网络结构图,如图2所示,该网络模型包括预训练层以及多任务输出层。具体地,可以将待处理文本对应的第一向量信息输入至预设的预训练层中,预训练层对该第一向量信息进行处理,获得该待处理文本信息对应的稠密向量。需要说明的是,该稠密向量中包括待处理文本对应的分词边界以及词性分类。
区别于现有技术中需要采用多个网络模型的文本处理方法,通过采用一个包括预训练层以及多任务输出层的网络模型即能够实现对待处理文本对应的语言学特征信息的获取,避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。
步骤103、采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息。
在本实施例中,为了使多任务输出层进一步地学习到待处理文本对应的分词边界以及词性分类等信息,在获得待处理文本对应的稠密向量之后,可以将该稠密向量以及第一向量信息一同输入至预设的多任务输出层中,多任务输出层对上述信息进行处理,获得待处理文本对应的语言学特征信息。其中,语言学特征信息包括但不限于待处理文本对应的发音、音调以及韵律边界。需要说明的是,采用多任务输出层能够使网络模型学习到发音、音调以及韵律边界之间的依赖关系,从而能够进一步地提高获取到的语言学特征信息的精准度。
此外,由于输入的待处理文本中除了文字信息以外,还可能包含有标点符号等信息,而最终输出的语言学特征信息中仅包括文字信息,因此,输入与输出不对齐。将稠密向量以及第一向量信息一同输入至预设的多任务输出层中还能够实现对输入与输出的对齐操作。
步骤104、根据所述语言学特征信息生成所述待处理文本对应的合成语音。
在本实施方式中,获取到待处理文本对应的语言学特征信息之后,可以根据该语言学特征信息生成合成语音。由于根据语言学特征信息生成的合成语音能够还原真实人物说话的发音、音调以及韵律边界,从而该合成语音能够更加贴合用户的语音,提高用户体验。
本实施例提供的文本的处理方法,通过获取待处理文本及其对应的第一向量信息,通过预设的网络模型中的预训练层以及多任务输出层对该第一向量信息进行处理,获得待处理文本对应的语言学特征信息,从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。进一步地,还可以根据该语言学特征信息生成合成语音,由于根据语言学特征信息生成的合成语音能够还原真实人物说话的发音、音调以及韵律边界,从而该合成语音能够更加贴合用户的语音,提高用户体验。
进一步地,在上述任一实施例的基础上,步骤103具体包括:
通过残差网络连接所述第一向量信息以及所述稠密向量,采用预设的多任务输出层对连接后的所述第一向量信息以及所述稠密向量进行处理。
在本实施例中,具体可以采用残差网络对第一向量信息以及稠密向量进行连接处理,获得连接后的第一向量信息以及稠密向量。因此,可以将连接后的第一向量信息以及稠密向量一同输入至预设的多任务输出层进行数据处理。从而多任务输出层能够进一步地学习到待处理文本对应的分词边界以及词性分类等信息,提高最终输出的语言学特征信息的精准度。
本实施例提供的文本的处理方法,通过采用残差网络连接第一向量信息以及稠密向量,从而能够进一步地学习到待处理文本对应的分词边界以及词性分类等信息,提高最终输出的语言学特征信息的精准度。
图3为本公开实施例二提供的文本的处理方法的流程示意图,在上述任一实施例的基础上,如图3所示,所述多任务输出层包括编码层以及解码层,步骤103具体包括:
步骤201、采用所述编码层对所述第一向量信息以及所述稠密向量进行处理,获得包括所述稠密向量以及第一向量信息隐藏表征信息的第二向量信息;
步骤202、采用所述解码层对所述第二向量信息进行处理,获得所述待处理文本对应的语言学特征信息。
在本实施例中,多任务输出层具体可以包括编码层以及解码层。图4为本公开实施例提供的网络模型的又一网络架构图,如图4所示,预训练层与编码层连接,从而可以将预训练层输出的稠密向量以及第一向量信息一同输入至编码层中。相应地,编码层可以对稠密向量以及第一向量信息进行数据处理,获得包括稠密向量以及第一向量信息隐藏表征信息的第二向量信息。解码层与编码层连接,可以将第二向量信息输入至解码层,采用解码层对第二向量信息进行数据处理,获取解码层的输出数据作为待处理文本对应的语言学特征信息。其中,语言学特征信息包括但不限于待处理文本对应的发音、音调以及韵律边界。需要说明的是,采用多任务输出层能够使网络模型学习到发音、音调以及韵律边界之间的依赖关系,从而能够进一步地提高获取到的语言学特征信息的精准度。
本实施例提供的文本的处理方法,通过编码层获取包括稠密向量以及第一向量信息隐藏表征信息的第二向量信息,通过解码层获取第二向量信息中待处理文本对应的语言学特征信息,能够提高获取到的语言学特征信息的精准度。此外,上一层的输出数据仅作为中间表征信息输出给下一层,该网络模型对错误的容忍较大,因此输出的语言学特征信息的精准度较高。
进一步地,在上述任一实施例的基础上,所述方法还包括:
确定所述待处理文本中拼音不包括声母的字符;
对所述字符拼音中的声母进行补充操作,以使所述待处理文本中各字符的拼音能够对齐。
在本实施例中,由于待处理文本中可能包括拼音不包括声母的字符,例如“啊”对应的拼音为“a”,其不包括声母,“哦”对应的拼音为“o”,其不包括声母。因此,为了使多任务输出层的输入数据与输出数据对齐,可以对不包括声母的字符拼音中的声母进行补充操作,以使待处理文本中各字符的拼音能够对齐。具体地,可以采用任意一种字符对声母进行补充操作,例如特定的字符、特定的数字、字母等,本公开对此不做限制。进一步地,通过对不包括声母的字符拼音中的声母进行补充操作,还可以对最终输出的非多音字因素进行真实值的替换,保证非多音字因素的准确率。
本实施例提供的文本的处理方法,通过对不包括声母的字符拼音中的声母进行补充操作,能够保证多任务输出层的输入数据与输出数据对齐,此外,还能够提高输出的非多音字因素的准确率。
图5为本公开实施例三提供的文本的处理方法的流程示意图,在上述任一实施例的基础上,所述方法还包括:
步骤301、获取待训练文本,对所述待训练文本进行向量化处理,获得所述待训练文本对应的待训练向量;
步骤302、通过所述待训练向量对预设的待训练的预训练层进行训练,直至所述待训练的预训练层收敛,获得训练后的预训练层以及所述待训练向量对应的稠密向量;
步骤303、通过所述待训练向量以及所述待训练向量对应的稠密向量对待训练的多任务输出层进行训练,直至所述待训练的多任务输出层收敛,获得所述多任务输出层。
在本实施例中,在采用网络模型对待处理文本的语言化特征信息进行处理之前,首先需要建立网络模型。具体地,可以获取待训练文本,其中,该待训练文本可以为开源的第三方语料数据。对该待训练文本进行向量化处理,获得待训练文本对应的待训练向量。其中,可以采用任意一种向量化处理方法对待训练文本进行向量化处理,例如embedding方法等,本公开对此不做限制。通过待训练向量对预设的待训练的预训练层进行训练,直至待训练的预训练层收敛,获得待训练向量对应的稠密向量一级训练后的待训练层。
进一步地,可以通过待训练层输出的稠密向量对多任务输出层进行训练,直至待训练的多任务输出层收敛,获得多任务输出层。
本实施例提供的文本的处理方法,通过采用大量的待训练文本对预设的预训练层进行训练,并采用预训练层输出的稠密向量对多任务输出层进行训练,从而能够实现对网络模型的获取。区别于现有技术中需要对多个网络模型依次进行训练,由于仅需对一个网络模型进行训练,因此训练效率较高。
图6为本公开实施例提供的合成语音生成流程图,在上述任一实施例的基础上,如图6所示,步骤104具体包括:
将所述语言学特征信息输入至预设的声学模型中,获得所述语言学特征信息对应的声学特征;
采用预设的声码器对所述声学特征进行处理,获得所述待处理文本对应的合成语音。
在本实施例中,通过网络模型获取到待处理文本对应的语言学特征信息之后,可以将语言学特征信息输入至预设的声学模型中,获得该语言学特征信息对应的声学特征。通过预设的声码器对声学特征进行处理,即能够获得待处理文本对应的合成语音。进而后续可以对该合成语音进行相应的应用。
图7为本公开实施例四提供的文本的处理装置40的结构示意图,如图7所示,所述装置包括:获取模块41、处理模块42以及合成模块43。其中,获取模块41,用于获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;处理模块42,用于将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;处理模块42,用于采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;合成模块43,用于根据所述语言学特征信息生成所述待处理文本对应的合成语音。
进一步地,在实施例四的基础上,获取模块41具体用于:
通过embedding方法对所述待处理文本进行向量化处理。
本实施例提供的文本的处理装置,通过获取待处理文本及其对应的第一向量信息,通过预设的网络模型中的预训练层以及多任务输出层对该第一向量信息进行处理,获得待处理文本对应的语言学特征信息,从而避免了由于多个网络模型的累计误差造成的语言学特征信息不精准的缺陷。此外,无需对多个网络模型进行分别训练,训练效率较高。进一步地,还可以根据该语言学特征信息生成合成语音,由于根据语言学特征信息生成的合成语音能够还原真实人物说话的发音、音调以及韵律边界,从而该合成语音能够更加贴合用户的语音,提高用户体验。
进一步地,在上述任一实施例的基础上,所述处理模块42具体用于:
通过残差网络连接所述第一向量信息以及所述稠密向量,采用预设的多任务输出层对连接后的所述第一向量信息以及所述稠密向量进行处理。
进一步地,在上述任一实施例的基础上,所述多任务输出层包括编码层以及解码层,所述处理模块42具体用于:
采用所述编码层对所述第一向量信息以及所述稠密向量进行处理,获得包括所述稠密向量以及第一向量信息隐藏表征信息的第二向量信息;
采用所述解码层对所述第二向量信息进行处理,获得所述待处理文本对应的语言学特征信息。
进一步地,在上述任一实施例的基础上,所述装置还包括:
确定模块,用于确定所述待处理文本中拼音不包括声母的字符;
补充模块,用于对所述字符拼音中的声母进行补充操作,以使所述待处理文本中各字符的拼音能够对齐。
进一步地,在上述任一实施例的基础上,所述装置还包括:
获取模块,用于获取待训练文本,对所述待训练文本进行向量化处理,获得所述待训练文本对应的待训练向量;
训练模块,用于通过所述待训练向量对预设的待训练的预训练层进行训练,直至所述待训练的预训练层收敛,获得训练后的预训练层以及所述待训练向量对应的稠密向量;
训练模块,用于通过所述待训练向量以及所述待训练向量对应的稠密向量对待训练的多任务输出层进行训练,直至所述待训练的多任务输出层收敛,获得所述多任务输出层。
进一步地,在上述任一实施例的基础上,所述合成模块43具体用于:
将所述语言学特征信息输入至预设的声学模型中,获得所述语言学特征信息对应的声学特征;
采用预设的声码器对所述声学特征进行处理,获得所述待处理文本对应的合成语音。
图8为本公开实施例五提供的文本的处理设备的结构示意图,如图8所示,所述设备包括:存储器51,处理器52;
存储器51;用于存储所述处理器52可执行指令的存储器51;
其中,所述处理器52被配置为由所述处理器52执行如上述任一实施例所述的文本的处理方法。
存储器51,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器51可能包含高速ram存储器,也可能还包括非易失性存储器(non-volatilememory),例如至少一个磁盘存储器。
其中,处理器52可能是一个中央处理器(centralprocessingunit,简称为cpu),或者是特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者是被配置成实施本公开实施例的一个或多个集成电路。
可选的,在具体实现上,如果存储器51和处理器52独立实现,则存储器51和处理器52可以通过总线相互连接并完成相互间的通信。所述总线可以是工业标准体系结构(industrystandardarchitecture,简称为isa)总线、外部设备互连(peripheralcomponent,简称为pci)总线或扩展工业标准体系结构(extendedindustrystandardarchitecture,简称为eisa)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器51和处理器52集成在一块芯片上实现,则存储器51和处理器52可以通过内部接口完成相同间的通信。
本公开又一实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如上述任一实施例所述的文本的处理方法。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上各实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述各实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的范围。
1.一种文本的处理方法,其特征在于,包括:
获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;
将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;
采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;
根据所述语言学特征信息生成所述待处理文本对应的合成语音。
2.根据权利要求1所述的方法,其特征在于,所述对所述待处理文本进行向量化处理,包括:
通过embedding方法对所述待处理文本进行向量化处理。
3.根据权利要求1所述的方法,其特征在于,所述采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,包括:
通过残差网络连接所述第一向量信息以及所述稠密向量,采用预设的多任务输出层对连接后的所述第一向量信息以及所述稠密向量进行处理。
4.根据权利要求1所述的方法,其特征在于,所述多任务输出层包括编码层以及解码层,所述采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,包括:
采用所述编码层对所述第一向量信息以及所述稠密向量进行处理,获得包括所述稠密向量以及第一向量信息隐藏表征信息的第二向量信息;
采用所述解码层对所述第二向量信息进行处理,获得所述待处理文本对应的语言学特征信息。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
确定所述待处理文本中拼音不包括声母的字符;
对所述字符拼音中的声母进行补充操作,以使所述待处理文本中各字符的拼音能够对齐。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述方法还包括:
获取待训练文本,对所述待训练文本进行向量化处理,获得所述待训练文本对应的待训练向量;
通过所述待训练向量对预设的待训练的预训练层进行训练,直至所述待训练的预训练层收敛,获得训练后的预训练层以及所述待训练向量对应的稠密向量;
通过所述待训练向量以及所述待训练向量对应的稠密向量对待训练的多任务输出层进行训练,直至所述待训练的多任务输出层收敛,获得所述多任务输出层。
7.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述语言学特征信息生成所述待处理文本对应的合成语音,包括:
将所述语言学特征信息输入至预设的声学模型中,获得所述语言学特征信息对应的声学特征;
采用预设的声码器对所述声学特征进行处理,获得所述待处理文本对应的合成语音。
8.一种文本的处理装置,其特征在于,包括:
获取模块,用于获取待处理文本,对所述待处理文本进行向量化处理,获得所述待处理文本对应的第一向量信息;
处理模块,用于将所述第一向量信息输入至预设的预训练层,获得所述待处理文本信息对应的稠密向量;
处理模块,用于采用预设的多任务输出层对所述第一向量信息以及所述稠密向量进行处理,获得所述待处理文本对应的语言学特征信息;
合成模块,用于根据所述语言学特征信息生成所述待处理文本对应的合成语音。
9.一种文本的处理设备,其特征在于,包括:存储器,处理器;
存储器;用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为由所述处理器执行如权利要求1-7任一项所述的文本的处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如权利要求1-7任一项所述的文本的处理方法。
技术总结