本申请涉及计算机
技术领域:
,特别涉及一种生成动画人物口型的方法及装置、计算设备和计算机可读存储介质。
背景技术:
:随着计算机技术的快速发展,动画制作也得到了广泛的应用,为了吸引小朋友的注意力,经常会制作一些动画教学等视频素,用以给提供娱乐或者教学等等。在现有的技术中,生成的动画人物无法根据语音制作相对应的口型,动画播放出来之后经常会出现口型与语音不对应的问题,甚至动画人物的口型十分夸张,从而导致动画不够自然,不够真实,生成的动画质量比较差。因此,如何解决上述问题,就成为技术人员亟待解决的问题。技术实现要素:有鉴于此,本申请实施例提供了一种生成动画人物口型的方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种生成动画人物口型的方法,包括:接收语音音频和所述语音音频对应的语音文本;获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列;根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表;根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。可选的,获取所述语音音频的每个音频帧中的候选音素概率,包括:将所述语音音频做分帧处理,获得多个音频帧;提取每个音频帧的声学特征;将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。可选的,获取所述语音文本对应的音素序列,包括:对所述语音文本做分字处理,获得字集合;根据所述字集合中的每个字在预设的字典中查找对应的音素;按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。可选的,根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表,包括:根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数;获取所述语音音频对应的候选音素序列,并根据所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。可选的,在根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型之前,还包括:对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表。可选的,所述音素集合列表中包括所述语音音频对应的候选音素序列和每个音素的开始帧和结束帧;对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表,包括:获取所述音素集合列表中每个音素的开始帧和结束帧,并确定每个音素的持续帧;在所述持续帧小于预设阈值时,过滤所述持续帧对应的音素,进而获得经过处理后的音素集合列表。可选的,过滤所述持续帧对应的音素,包括:在所述音素为辅音的情况下,使用所述音素的上一音素替换所述音素;在所述音素为元音的情况下,判断所述音素的上一音素或下一音素是否为元音;若否,则不做处理;若是,则用所述音素的上一音素或下一音素替换所述音素。根据本申请实施例的第二方面,提供了一种生成动画人物口型的装置,包括:接收模块,被配置为接收语音音频和所述语音音频对应的语音文本;获取模块,被配置为获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列;生成模块,被配置为根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表;播放模块,被配置为根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。可选的,所述获取模块,进一步被配置为将所述语音音频做分帧处理,获得多个音频帧;提取每个音频帧的声学特征;将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。可选的,所述获取模块,进一步被配置为对所述语音文本做分字处理,获得字集合;根据所述字集合中的每个字在预设的字典中查找对应的音素;按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。可选的,所述生成模块,进一步被配置为根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数;获取所述语音音频对应的候选音素序列,并根据所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。可选的,所述装置还包括:预处理模块,被配置为对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表。可选的,所述音素集合列表中包括所述语音音频对应的候选音素序列和每个音素的开始帧和结束帧;所述预处理模块,进一步被配置为获取所述音素集合列表中每个音素的开始帧和结束帧,并确定每个音素的持续帧;在所述持续帧小于预设阈值时,过滤所述持续帧对应的音素,进而获得经过处理后的音素集合列表。可选的,所述预处理模块,进一步被配置为在所述音素为辅音的情况下,使用所述音素的上一音素替换所述音素;在所述音素为元音的情况下,判断所述音素的上一音素或下一音素是否为元音;若否,则不做处理;若是,则用所述音素的上一音素或下一音素替换所述音素。根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述生成动画人物口型的方法的步骤。根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述生成动画人物口型的方法的步骤。本申请实施例中,通过将接收到的语音音频和所述语音音频对应的语音文本分别进行处理,获得语音音频的每个音频帧中的候选音素概率和语音文本对应的音素序列,将语音音频分解为最基本的音素,并根据语音文本获得的音素序列确定所述语音音频的音素集合列表,根据所述音素集合列表中的音素在预设的动画人物素材库中查找并播放对应的动画人物口型,通过将整段的语音音频转化为基本的音素,并根据音素获取动画人物的口型,使得生成的口型动画更加自然、真实,提高了动画质量,更符合现实世界中的说话方式,提高了用户体验,进而提高了用户粘性。附图说明图1是本申请实施例提供的计算设备的结构框图;图2是本申请实施例提供的生成动画人物口型的方法的流程图;图3是本申请实施例提供的获取语音音频候选音素概率方法的流程图;图4是本申请实施例提供的获取语音文本对应的音素序列方法的流程图;图5是本申请另一实施例提供的生成动画人物口型的方法的流程图;图6是本申请实施例提供的生成动画人物口型的装置的结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。首先,对本发明一个或多个实施例涉及的名词术语进行解释。音素:是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节ā(啊)只有一个音素,ài(爱)有两个音素。音频帧:对语音音频做分帧处理后,获得的多个语音音频片段。声学特征:声学特征的提取是语音识别的一个重要环节。梅尔频率倒谱系数(mfcc)是根据人类听觉特点进行设计的,被广泛应用于语音识别中,mfcc基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。提取每个音频帧的mfcc作为该音频帧的声学特征。语音文本:与语音音频对应的字幕文本。音素序列:语音文本中的每个字对应的音素组合的序列。在本申请中,提供了一种生成动画人物口型的方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。其中,处理器120可以执行图2所示生成动画人物口型的方法中的步骤。图2示出了根据本申请一实施例的生成动画人物口型的方法的流程图,包括步骤202至步骤208。步骤202:接收语音音频和所述语音音频对应的语音文本。随着互联网技术的日益发展,越来越多的动画制作用于教育、警示、娱乐,在制作动画的过程中,会控制动画人物的口型随着语音音频改变,与此同时,每段语音音频还会有相对应的语音文本。语音音频可以是中文,也可以是英文、德文、法文等外语,语音音频对应的语言文本即为语音音频的对应语言。在本申请提供的实施例中,接收中文的语音音频“yibian”和对应的语音文本“一边”。在本申请提供的另一具体实施方式中,接收英文的语音音频“ilovechina”和对应的语音文本“ilovechina”。步骤204:获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列。可选的,参见图3,获取所述语音音频的每个音频帧中的候选音素概率包括下述步骤302至步骤306。步骤302:将所述语音音频做分帧处理,获得多个音频帧。将所述语音音频做分帧处理,生成所述语音音频对应的多个音频帧。音频帧即为所述语音音频的片段。在本申请提供的实施例中,将接收到的中文语音音频“yibian”做分帧处理,获得多个音频帧,分别为f1,f2,f3……fn。步骤304:提取每个音频帧的声学特征。经过对人类听觉感知的实验表明人类听觉的感知只聚焦在某些特定的区域,而不是整个频谱范围,因此梅尔频率倒谱系数(mfcc)是根据人类听觉特点进行设计的,被广泛应用于语音识别中,mfcc基于声音频率的非线性梅尔刻度的对数能量频谱的线性变换。提取每个音频帧的mfcc作为该音频帧的声学特征。在本申请提供的实施例中,提取每个音频帧的声学特征mf1,mf2,mf3……mfn。步骤306:将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。所述声学模型基于深度神经网络模型而构建,通过相应的机器学习优化算法来拟合训练数据的分布,该声学模型被训练于根据给定的音频帧的声学特征作为输入预测该音频帧对应的音素概率。在实际应用中,将声学特征输入至预先训练好的声学模型中,所述训练模型预测出每个音频帧中的候选音素概率。在本申请提供的实施例中,将每个音频帧的声学特征mf1,mf2,mf3……mfn输入至预先训练好的声学模型中,所述声学模型预测出每个音频帧中候选音素的概率。可选的,参见图4,获取所述语音文本对应的音素序列包括下述步骤402至步骤406。步骤402:对所述语音文本做分字处理,获得字集合。在获得语音文本后,以字为单位对语音文本做分字处理,获得所述语音文本的字集合。在本申请提供的实施例中,对语音文本“一边”做分字处理,获得字集合为(一,边)。步骤404:根据所述字集合中的每个字在预设的字典中查找对应的音素。在本申请提供的实施例中,根据字集合(一,边)在预设的字典中分别查找“一”对应的音素为“ii,i1”,“边”对应的音素为“b,ian5”。其中,每个字的声调都放在韵母上,表示声调的“1、2、3、4、5”分别表示“一声、二声、三声、四声、轻声”。步骤406:按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。在本申请提供的实施例中,按照字集合(一,边)中每个字的顺序生成对应的音素序列为(ii,i1,b,ian5)。步骤206:根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表。可选的,根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数,根据最终获取的所述语音音频对应的候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。在本申请提供的实施例中,从所述语音音频的第一个音频帧开始,使用动态规划算法根据前n个音频帧中的候选音素序列的概率、第n 1个音频帧中的候选音素概率和音素序列获得前n 1个音频帧中的候选音素序列概率,重复这个过程,最终得到候选音素序列的最大概率,进而可以得到有所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成的音素集合列表,参见表1。表1音素开始帧结束帧ii4759i15968b6876ian57691步骤208:根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。预先由美工为每个需要生成的动画人物建立素材库,为每个音素绘制不同口型的图像,图像的命名为该图像对应的音素。根据音素集合列表在预先设置的动画人物素材库中获取对应的动画人物口型,并将所述口型与相应的动画人物相对应,最终实现动画人物根据语音生成对应的口型的动画人物讲话视频。在本申请提供的实施例中,美工预先为猴子预先创建了素材库,根据音素集合列表中的(ii,i1,b,ian5),查找猴子的相应的口型,并将所述口型对应到猴子的相应位置。最终播放所述动画,实现猴子根据“一边”生成对应的口型的讲话视频。本申请实施例提供的生成动画人物口型的方法,通过随时获取语音音频和语音文本,并将语音转换为最小的语音单位音素,并预先根据音素绘制对应的动画人物的口型,在实际应用中可以根据音素查找对应的动画人物口型,解决了现有技术无法利用语音自动生成真实的动画人物口型的问题,使生成的动画人物口型不但与实际语音匹配,而且观感自然、真实,更符合现实世界中的说话方式,提高了动画质量。图5示出了本申请一实施例的生成动画人物口型的方法,该生成动画人物口型的方法以制作斑马说话的动画为例进行描述,包括步骤502至步骤512。步骤502:接收语音音频和所述语音音频对应的语音文本。在本申请提供的实施例中,接收语音音频为“woaizhongguo”,对应的语音文本为“我爱中国”。步骤504:获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列。在本申请提供的实施例中,获取所述语音音频的每个音频帧中的候选音素概率和获取的语音文本对应的音素序列为(w,o3,aa,ai4,zh,ong1,g,uo2)步骤506:根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表。在本申请的实施例中,根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表如表2所示。表2步骤508:获取所述音素集合列表中每个音素的开始帧和结束帧,并确定每个音素的持续帧。根据音素集合列表中每个音素的开始帧和结束帧,可以直接确定每个音素的持续帧数。在本申请提供的实施例中,w持续12帧,o3持续6帧,aa持续8帧,ai4持续15帧,zh持续13帧,ong1持续20帧,g持续5帧,uo2持续19帧。步骤510:在所述持续帧小于预设阈值时,过滤所述持续帧对应的音素,进而获得经过处理后的音素集合列表。在获取到每个音素的持续帧之后,过滤时长较短的音素,即过滤掉持续帧时间短的音素,从而减少输出的动画不自然的过短的跳变。可选的,在所述音素为辅音的情况下,使用所述音素的上一音素替换所述音素;在所述音素为元音的情况下,判断所述音素的上一音素或下一音素是否为元音;若否,则不做处理;若是,则用所述音素的上一音素或下一音素替换所述音素。在本申请提供的实施例中,预设的阈值为7帧,常规的输出视频帧率为30帧/秒,因此小于7帧相当于小于等于0.2秒。因此持续帧小于预设阈值的音素为“o”和“g”。对于辅音“g”,使用其上一音素“ong1”替换“g”。对于元音“o”,得知其前后两个音素“w”和“aa”中“aa”为元音,因此使用“aa”替换元音“o”,经过预处理之后的音素集合列表如表3所示。表3音素开始帧结束帧w3042aa4248aa4856ai45671zh7184ong184104ong1104109uo2109128步骤512:根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。还可以将本申请提供的生成动画人物口型的方法封装到动画制作软件的插件中,便于所述动画制作软件可以直接利用该插件。在本申请提供的实施例中,美工为斑马预先创建了音素口型素材库,根据上述表3所述的音素集合列表在预设的斑马音素口型素材库中查找每个音素对应的斑马音素口型,并将所述斑马音素口型与斑马相对应,从而制作并播放斑马说话的动画视频。本申请实施例提供的生成动画人物口型的方法,通过随时获取语音音频和语音文本,并将语音转换为最小的语音单位音素,对获得的音素集合列表做预处理,将时长较短的音素过滤,从而减少输出的动画有不自然的过短的跳变。预先根据音素绘制对应的动画人物的口型,在实际应用中可以根据音素查找对应的动画人物口型,解决了现有技术无法利用语音自动生成真实的动画人物口型的问题,使生成的动画人物口型不但与实际语音匹配,而且观感自然、真实,更符合现实世界中的说话方式,提高了动画质量。与上述方法实施例相对应,本申请还提供了生成动画人物口型的装置实施例,图6示出了本申请一个实施例的生成动画人物口型的装置的结构示意图。如图6所示,该装置包括:接收模块602,被配置为接收语音音频和所述语音音频对应的语音文本。获取模块604,被配置为获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列。生成模块606,被配置为根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表。播放模块608,被配置为根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。可选的,所述获取模块604,进一步被配置为将所述语音音频做分帧处理,获得多个音频帧;提取每个音频帧的声学特征;将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。可选的,所述获取模块604,进一步被配置为对所述语音文本做分字处理,获得字集合;根据所述字集合中的每个字在预设的字典中查找对应的音素;按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。可选的,所述生成模块606,进一步被配置为根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数;获取所述语音音频对应的候选音素序列,并根据所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。可选的,所述装置还包括:预处理模块,被配置为对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表。可选的,所述音素集合列表中包括所述语音音频对应的候选音素序列和每个音素的开始帧和结束帧;所述预处理模块,进一步被配置为获取所述音素集合列表中每个音素的开始帧和结束帧,并确定每个音素的持续帧;在所述持续帧小于预设阈值时,过滤所述持续帧对应的音素,进而获得经过处理后的音素集合列表。可选的,所述预处理模块,进一步被配置为在所述音素为辅音的情况下,使用所述音素的上一音素替换所述音素;在所述音素为元音的情况下,判断所述音素的上一音素或下一音素是否为元音;若否,则不做处理;若是,则用所述音素的上一音素或下一音素替换所述音素。本申请实施例提供的生成动画人物口型的装置,通过随时获取语音音频和语音文本,并将语音转换为最小的语音单位音素,对获得的音素集合列表做预处理,将时长较短的音素过滤,从而减少输出的动画有不自然的过短的跳变。预先根据音素绘制对应的动画人物的口型,在实际应用中可以根据音素查找对应的动画人物口型,解决了现有技术无法利用语音自动生成真实的动画人物口型的问题,使生成的动画人物口型不但与实际语音匹配,而且观感自然、真实,更符合现实世界中的说话方式,提高了动画质量,。本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的生成动画人物口型的方法的步骤。本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述生成动画人物口型的方法的步骤。上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的生成动画人物口型的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述生成动画人物口型的方法的技术方案的描述。上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属
技术领域:
技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。当前第1页1 2 3 
技术特征:1.一种生成动画人物口型的方法,其特征在于,包括:
接收语音音频和所述语音音频对应的语音文本;
获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列;
根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表;
根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。
2.如权利要求1所述的生成动画人物口型的方法,其特征在于,获取所述语音音频的每个音频帧中的候选音素概率,包括:
将所述语音音频做分帧处理,获得多个音频帧;
提取每个音频帧的声学特征;
将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。
3.如权利要求1所述的生成动画人物口型的方法,其特征在于,获取所述语音文本对应的音素序列,包括:
对所述语音文本做分字处理,获得字集合;
根据所述字集合中的每个字在预设的字典中查找对应的音素;
按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。
4.如权利要求1所述的生成动画人物口型的方法,其特征在于,根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表,包括:
根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数;
获取所述语音音频对应的候选音素序列,并根据所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。
5.如权利要求1所述的生成动画人物口型的方法,其特征在于,在根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型之前,还包括:
对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表。
6.如权利要求5所述的生成动画人物口型的方法,其特征在于,所述音素集合列表中包括所述语音音频对应的候选音素序列和每个音素的开始帧和结束帧;
对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表,包括:
获取所述音素集合列表中每个音素的开始帧和结束帧,并确定每个音素的持续帧;
在所述持续帧小于预设阈值时,过滤所述持续帧对应的音素,进而获得经过处理后的音素集合列表。
7.如权利要求6所述的生成动画人物口型的方法,其特征在于,过滤所述持续帧对应的音素,包括:
在所述音素为辅音的情况下,使用所述音素的上一音素替换所述音素;
在所述音素为元音的情况下,判断所述音素的上一音素或下一音素是否为元音;
若否,则不做处理;
若是,则用所述音素的上一音素或下一音素替换所述音素。
8.一种生成动画人物口型的装置,其特征在于,包括:
接收模块,被配置为接收语音音频和所述语音音频对应的语音文本;
获取模块,被配置为获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列;
生成模块,被配置为根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表;
播放模块,被配置为根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。
9.如权利要求8所述的生成动画人物口型的装置,其特征在于,
所述获取模块,进一步被配置为将所述语音音频做分帧处理,获得多个音频帧;提取每个音频帧的声学特征;将所述声学特征输入至预先训练好的声学模型,以使所述声学模型预测每个所述音频帧中的候选音素概率。
10.如权利要求8所述的生成动画人物口型的装置,其特征在于,
所述获取模块,进一步被配置为对所述语音文本做分字处理,获得字集合;根据所述字集合中的每个字在预设的字典中查找对应的音素;按照所述字集合中每个字的顺序生成所述语音文本对应的音素序列。
11.如权利要求8所述的生成动画人物口型的装置,其特征在于,
所述生成模块,进一步被配置为根据前n个音频帧中的候选音素序列概率、第n 1个音频帧中的候选音素概率和所述音素序列生成前n 1个音频帧中的候选音素序列概率,其中n为正整数;获取所述语音音频对应的候选音素序列,并根据所述候选音素序列和所述候选音素序列中每个音素的开始帧和结束帧生成音素集合列表。
12.如权利要求8所述的生成动画人物口型的装置,其特征在于,
所述装置还包括:
预处理模块,被配置为对所述音素集合列表中的音素做预处理,获得经过处理后的音素集合列表。
13.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-7任意一项所述方法的步骤。
14.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-7任意一项所述方法的步骤。
技术总结本申请提供一种生成动画人物口型的方法及装置,其中所述生成动画人物口型的方法包括:接收语音音频和所述语音音频对应的语音文本;获取所述语音音频的每个音频帧中的候选音素概率和所述语音文本对应的音素序列;根据所述语音音频的每个音频帧中的候选音素概率和所述音素序列生成所述语音音频对应的音素集合列表;根据所述音素集合列表在预设的动画人物素材库中查找并播放对应的动画人物口型。通过上述方法,可以使得动画人物的口型时刻配合语音音频,使得生成的动画人物的口型更符合现实世界中的说话方式,使得生成的动画更加自然、真实。
技术研发人员:程大治;夏龙;吴凡;卓邦声;高强;马楠;郭常圳
受保护的技术使用者:北京猿力未来科技有限公司
技术研发日:2020.01.15
技术公布日:2020.06.09