本发明属于计算机视觉与模式识别技术领域,尤其涉及一种基于自适应语义时空图卷积网络的唇读方法。
背景技术:
自动唇读(automaticlipreading,alr),即视觉语音识别(visualspeechrecognition,vsr),旨在从包含说话人唇部运动的视频中解码说话的内容。由于其潜在的应用价值,近些年已得到越来越多的关注。具有唇读功能的机器可以开发很多新应用,例如在嘈杂的环境中使智能手机接收信息更准确,协助听力障碍人士以及给无声电影配字幕等应用。
基于深度学习的唇读识别方法是目前而言获得效果相对较佳的识别方式,当前基于深度学习的唇读识别方法中,多采用卷积神经网络cnn模型从在唇部序列图像提取唇部视觉特征,而为了减小特征图的大小以增加感受野,所述cnn模型中多通常会采用全局池化层来获得低维度的特征向量来作为全部视觉特征。
现有的这种唇读识别方法中,在获取唇部视觉特征的过程中,由于使用了全局池化层,所提取的唇部视觉特征更多的包含的仅是唇部的全局运动信息(唇部的表观视觉特征),而损失了唇部局部微小运动和唇部轮廓语义信息。然而,这些损失的信息实际上对唇读识别非常重要,因为在唇语动作发生的过程中,某些情况下唇部可能只会发生一些细微的局部运动。此外,唇部区域的不同部分如嘴角、牙齿或下巴等这些局部区域也会包含丰富的语义信息,这些语义信息对唇读识别的精准度有较大的影响。显然,现有的采用cnn模型提取视觉特征的唇读识别方法由于不能提取这些丰富的语义信息且损失了唇部局部运动的细微特征,而使得的唇读识别的精准度离满足实际应用需求还有一段距离,需要进一步提高唇读识别的精准度。
技术实现要素:
有鉴于此,本发明提供了一种基于自适应语义时空图卷积网络的唇读方法,以解决现有的唇读识别方法存在识别精准度不高的问题。
一种基于自适应语义时空图卷积网络的唇读方法,其特征在于,包括:
从待识别视频中获取唇部序列图像,并从所述唇部序列图像中提取包含唇部全局运动信息的全局视觉特征,
从所述待识别视频中确定与唇读相关的多个唇读相关特征点,并根据所述唇读相关特征点,提取包含唇部局部运动信息和语义信息的局部语义视觉特征,
将所述全局视觉特征和所述局部语义视觉特征进行融合,以获得融合视觉特征,
根据所述融合视觉特征获得所述唇读识别的内容。
优选地,从所述待识别视频中确定与唇读相关的多个唇读相关特征点包括:
在所述待识别视频中定位人脸,以获得人脸序列图像,
对所述人脸序列图像进行脸部关键点检测,以检测出所述人脸的各个脸部关键点,
选择位于所述人脸下半部分的多个所述脸部关键点作为所述唇读相关特征点。
优选地,从待识别视频中获取唇部序列图像包括:通过所述人脸关键点对唇部区域进行定位,以从所述人脸序列图像中裁剪出所述唇部序列图像。
优选地,根据所述唇读相关特征点,提取所述局部语义视觉特征包括:
从所述待识别视频中裁剪出以所述唇读相关特征点为中心的块视频,以提取出唇读相关特征点块序列,
从所述唇读相关特征点块序列中提取出唇部的局部运动特征,
将所述局部运动特征和所述唇读相关特征点的坐标特征相融合获得的融合局部语义特征,并输入至局部语义视觉特征提取模型,以提取包含所述局部语义视觉特征。
优选地,所述局部语义视觉特征提取模型为自适应语义时空图卷积网络模型,
所述自适应语义时空图卷积网络模型包括多层自适应语义时空图卷积网络块,
每一所述自适应语义时空图卷积网络块中包含多个自适应语义时空图卷积网络单元,每一所述自适应语义时空图卷积网络单元的输出通道相同,
每一个所述自适应语义时空图卷积网络单元包括语义图卷积模块、时空图卷积模块和时序卷积模块,
将所述语义图卷积模块的输出和所述时空卷积模块的输出相串联后输入至所述时序卷积模块,所述时序卷积模块的输出特征与所述局部语义融合特征叠加后获得所述局部语义视觉特征,
其中,将所述语义图卷积模块中的归一化邻接矩阵定义为与样本无关的归一化语义邻接矩阵,
将所述时空图卷积模块中的邻接矩阵定义为与所述样本有关的归一化时空邻接矩阵。
优选地,所述归一化时空邻接矩阵的步骤包括:
根据所述局部语义融合特征和第一嵌入空间的嵌入参数,计算出所述局部语义融合特征在所述第一嵌入空间的第一嵌入特征,
根据所述局部语义融合特征和第二嵌入空间的嵌入参数,计算出所述局部语义融合特征在所述第二嵌入空间的第二嵌入特征,
将所述第一嵌入特征和第二嵌入特征相乘之后再归一化后的矩阵作为所述归一化时空邻接矩阵。
优选地,根据所述局部视觉特征和所述全局视觉特征相融合后输出的融合视觉特征进行所述唇读识别的步骤包括:
将所述融合视觉特征输入到双向长短时记忆网络进行时空特征序列学习,以获得所述唇部的时空特征,
将所述时空特征输入至连接时序分类器进行训练并获得识别概率结果,对所述识别概率进行解码处理,以获得所述唇读识别结果。
优选地,采用多层3d卷积神经网络模型将所述唇读相关特征点块序列转换成特征向量来表征所述局部运动特征,
其中,所述多层3d卷积神经网络模型中不包括全局池化层。
优选地,所述的唇读识别方法还包括在所述自适应语义时空图卷积网络模型中加入残差连接,以使得所述自适应语义时空图卷积网络模型更容收敛,
所述自适应语义时空图卷积网络模型中的所有权重参数都能进行学习。
使所述归一化语义邻接矩阵和所述归一化时空邻接矩阵的权重参数都以端到端的方式进行自适应的学习。
在依据本发明提供的唇读识别方法中,引入图卷积来提取表征唇部轮廓、局部微小运动和语义信息的局部语义视觉特征,并将所述局部语义视觉特征和根据唇部序列图像获得的全局视觉特征相融合后的融合视觉特征用于唇读识别,由于融合视觉特征中不仅包含了唇部的全局运动信息还包含了唇部局部运动和细微运动信息以及语义信息,使得依据本发明提供的唇读识别方法具有更高的准确度。
附图说明
图1为依据本发明实施例的唇读方法的流程图;
图2为依据本发明实施例的自适应语义时空图卷积网络模型的结构图;
图3为依据本发明实施例的自适应语义时空图卷积网络块的结构图;
图4为依据本发明实施例的自适应语义时空图卷积网络单元的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所产生的所有其他实施例,都属于本发明保护的范围。此外需要说明的是,在具体实施方式这一项内容中“所述…”是仅指本发明的中的技术属于或特征。
为了能在现有技术的基础上进一步提高唇读识别的精准度,我们在现有技术的基础上增加了能够表征唇部局部细微运动信息以及唇部轮廓语义信息的局部视觉特征的提取。参考图1所示,其为依据本发明实施例的一种基于自适应语义时空图卷积网络的唇读方法的流程图,所述唇读识别方法主要包括步骤s01至步骤s04,需要申明的是本发明对以下各个步骤的先后顺序并不做特别限定,例如步骤so1和步骤s02可以并行执行。
步骤s01:从所述待识别视频中获取唇部序列图像,并从所述唇部序列图像中提取表征唇部全局运动信息的全局视觉特征。
如图1所示,步骤01在依据本实施例中可进一步包括:
步骤s011:获取待识别视频。
步骤s012:在所述待识别视频定位人脸,以获得人脸序列图像
步骤s013:对所述人脸序列图像进行检测,以检测出所述人脸的各个脸部关键点。
采用脸部关键点算法得到人脸序列图像中的每一幅人脸图像的68个脸部关键点,并自动得到图像中脸部关键点的位置。这些脸部关键点既是描述脸部组成部分(如眼角,嘴角等)位置的特征点,也是将这些特征点围绕脸部组成部分和面部轮廓连接起来的内插点。
步骤s014:根据检测到的所述脸部关键点对人脸中的唇部区域进行定位,并对所述人脸序列图像进行对齐和裁剪动作,以获取唇部序列图像。
步骤so14的目的就是从每一幅人脸图像中剪切出包括唇部区域的图像,这些图像构成了唇部序列图像,以便后续提取唇部视觉特征。
步骤s015:采用全局视觉特征提取模型从所述唇部序列图像中提取表征唇部全局运动信息的全局视觉特征。
所述全局视觉特征提取模型可以为卷积神经网络cnn模型,具体的,用于提取所述全局视觉特征的cnn模型主要由多层cnn构成,例如由一层3dcnn和多层2dcnn构成,且在cnn模型中用全局池化层来减小特征图的大小以增加感受野,并输出低维度的视觉特征。由于全局池化层的使用,损失了唇部一些局部微小运动的信息,因此步骤s015中提取的视觉特征为从包含了全部唇部区域的唇部序列图像中提取的表征唇部运动全局信息的全局视觉特征。
步骤s02:从待识别视频中确定与唇读相关的多个唇读相关特征点,并根据所述唇读相关特征点,提取表征唇部局运动信息和唇部轮廓语义信息的局部视觉特征。
为了使得最终提取的视觉特征能根据全面化,在本步骤中,在唇语发生时,还对一些在步骤1中由于使用全局池化层而损失掉的信息如唇部局部运动信息以及步骤so1中无法提取的信息如唇部轮廓语义信息进行提取,以获得局部视觉特征。在本发明实施例中,步骤so2的具体实现方式可以与步骤s01共用步骤so1中的步骤so11至步骤s013,即所述步骤s02包括所述步骤s011、步骤s012和步骤s013,且在步骤s013之后,还进一步包括:
步骤s024:选择位于脸部下半部分的多个所述脸部关键点作为所述唇读相关特征点(lrlps),以确定各个与唇读相关的特征点。
在68个脸部关键点选择k个脸部关键点作为唇读相关特征点,这k个脸部关键点均位于包含唇部区域的脸部下半部分。由于68个脸部关键点中,有20个脸部关键点位于唇部区域,则选择的k个脸部关键点最好大于20个,且最好将位于唇部区域的20个脸部关键点全部包含进来。在本实施例中,我们选择k=38,这是因为当人在说话时,脸部的下半部分也会跟随着在运动,因此在脸部下半部分选择38个脸部关键点作为唇读相关特征点。被选择的这些脸部关键点由于位于唇部区域或位于与所述唇部区域的附近区域如嘴角,牙齿或下巴等区域,不仅包含着丰富的语义信息还能体现唇语发生时唇部局部的一些细微动态变化。
步骤s025:从所述待识别视频中裁剪出以所述唇读相关特征点中心的块视频,以提取出唇读相关特征点块序列(lrlps块序列)。
所述块视频可以为16*16像素的块,所述块视频可以描述唇读相关特征点。对于每一个输入的待识别视频,我们均提取k个lrlps块序列做预处理。
步骤s026:从所述唇读相关特征点块序列中提取出唇部的局部运动特征。
步骤so25中的每一个块就类似与步骤s015中的一个唇部区域图像。因此我们从所述lrlps块序列提取的特征则为表征唇语时唇部局部运动信息的局部运动特征。在步骤s015中是针对整体的唇部提取全局特征,而在步骤s025中是对唇部区域的各个局部区域(每一个唇读相关特征点确定一个所述局部区域)进行特征提取,因此所提取的特征更能体现出唇部在唇语发生时的一些细微变化信息。
具体的,可以使用多层3dcnn从lrpls块序列中提取时空特征向量来作为所述局部运动特征。例如,可以通过轻量级的3dcnn对lrpls块序列进行处理,通过这种方式,所述待识别视频中的每一个t帧(灰度图像)的lrlps块序列(大小为t×16×16),被转换成d×t(如d=64)维的特征向量。因此,,k个lrpls块序列经过多层3dcnn的处理,会得到k个d维的特征向量作为所述局部运动特征,其最终表示为k×d×t的特征向量,这个特征向量表征所述局部特征。为了最大限度的保留唇部的局部运动相关信息,在提取所述局部运动特征的过程中均未使用全局池化层,即用于提取所述局部运动特征的模型中不包括全局池化层。
步骤s027:提取唇读相关特征点的坐标特征。
除了步骤s015中所涉及的全局信息以及步骤s025中所涉及的局部运动信息与唇读密切相关外,唇部轮廓所包含的语义信息也对唇读是否重要。而在lrlps中个点之间存在着某些特定的关系(固定关系)如唇部轮廓点的对称关系等,这些关系在人类中普遍存在,且这些特定关系不会随着唇语的不同而发生变化,这些特定关系与语义信息相关,此外,lrlps中的个点之间的关系还存在随唇语的不同而发生变化的关系。因此,lrlps的坐标本身也可以作为唇读识别的一个特征。
步骤s028:将所述局部运动特征和所述唇读相关特征点的坐标特征相融合,以获得局部语义融合特征。
步骤s025中提取的局部特征体现了唇部的局部运动信息,而步骤s027提取的坐标特征体现了唇部轮廓的语义信息,因此,在步骤s028中,我们将所述局部特征和所述坐标特征进行融合,以获得局部语义融合特征。具体的,可以采用串联的方式融合所述局部特征和所述坐标特征。
步骤s029:采用局部语义视觉特征提取模型将所述局部语义融合特征转换成所述局部语义视觉特征。
所述局部语义视觉特征提取模型用于将所述局部特征和坐标特征提取成视觉特征。具体的,本实施例中,所述局部视觉特征提取模型为自适应语义时空图卷积网络(asst-gcn,semantic-spatial-temporalgraphconvolutionnetwork)模型。所述
图2为依据本发明实施例的一种asst-gcn模型的结构图,asst-gcn模型由多层自适应语义时空图卷积网络块(asst-gcnblock)构成,如asst-gcnblock1、asst-gcnblock2、asst-gcnblock3和asst-gcnblock4,第一层asst-gcnblock的输入为步骤s028中获得的局部语义融合特征,输出作为下一层asst-gcnblock的输入,中间层的每一层asst-gcnblock的输入均为上一层asst-gcnblock的输出,输出作为下一层asst-gcnblock的输入,最后一层asst-gcnblock输出所述局部语义视觉特征。多层asst-gcnblock一层层从局部语义融合特征图(即局部语义融合特征的表现形式)中进一步提取局部语义视觉特征。
进一步的,如图3所示,其为图2中的asst-gcnblock的结构图。每一个asst-gcnblock可包含多个相互串联的自适应语义时空图卷积网络单元asst-gcnunit,如asst-gcnunit1、asst-gcnunit2和asst-gcnunit3,前一个asst-gcnunit的输出作为后一个asst-gcnunit的输入。
进一步的,每一个asst-gcnunit包括语义图卷积模块、时空图卷积模块和时序卷积模块。参考图4所示,其为所述自适应语义时空图卷积网络单元的一种具体结构图。在所述asst-gcnunit中,所述语义图卷积主模块主要用于提取表征唇部轮廓语义信息的语义特征,而所述时空图卷积网络主要用于提取表征唇部局部运动的局部特征,语义图卷积模块的输出和所述时空卷积模块的输出相串联后输入至所述时序卷积模块,所述时序卷积模块的输出特征与所述局部语义融合特征fin叠加后获得所述局部视觉特征fout。
根据步骤s027中的具体描述,我们可以知道而在lrlps中个点之间存在着某些特定的关系(固定关系)如唇部轮廓点的对称关系等,这些关系在人类中普遍存在,且这些特定关系不会随着唇语的不同而发生变化,这些特定关系与语义信息相关,此外,lrlps中的个点之间的关系还存在随唇语的不同而发生变化的关系。因此,lrlps中既包括与样本(唇读内容)无关的语义信息也包含着与样本相关的时空信息,我们需要对离散的lrlps进行建模,以从中提取出相关的视觉特征。而传统的cnn模型只能应用于图像类似规则的网格数据,而图神经网络可以选择性聚合图节点信息。因此,依据本发明实施例采用自适应语义时空图卷积网络模型来对lrlps建模,以从中提取相应的视觉特征。本发明中,所述的样本是指单个的训练视频,即本发明所述的待识别视频。不同的输入待视频中的语义信息是共享的,而不同的输入待识别视频中的时空信息是不同的,则所述时空信息与所述待识别视频相关。因此,我们通过定义与样本无关的语义图和与样本有关的时空图来构建自适应语义时空图卷积网络模型,以通过该模型来获得所述待识别视频的局部语义视觉特征。
具体的,自适应语义时空图卷积网络模型的构建过程中,我们需要定义好各个图卷积模块中的归一化邻接矩阵。例如,我们将所述语义图卷积模块中的归一化邻接矩阵定义为与输入至所述语义图卷积模块中的所述局部语义融合特征fin(fin为特征图的表现形式,具体可以用特征向量表示)无关的语义邻接矩阵aqse(可以表示为语义图)即归一化语义邻接矩阵aqse与样本无关,将所述时空图卷积模块中的归一化邻接矩阵定义为与输入至所述语义图卷积模块中的所述局部语义融合特征fin有关的归一化时空邻接矩阵aqst(可以表示为时空图),即时空邻接矩阵aqst与样本有关。即语义图卷积模块将局部语义融合特征图和所述语义图进行图卷积操作,以提取语义特征,而时空图卷积模块将局部语义融合特征图和所述时空图进行图卷积操作,以提取局部运动特征。
图卷积为基于图节点空间连接关系而构建的图上。接下来我们将通过公式计算进一步定义图卷积网络gcn。我们假设:
