一种基于自注意力机制的人脸正脸化生成方法与流程

专利2022-06-29  80


本发明属于数字图像处理和模式识别领域,涉及深度学习等技术,具体涉及一种基于自注意力机制的人脸正脸化生成方法。
背景技术
:在过去的近十年间,深度学习方法获得了长足的进步且在人脸识别领域取得了巨大的成功。凭借其数据驱动的训练方式,基于深度学习的人脸识别方法在大型人脸数据集上(如multipie)已经取得了不俗的效果。然而,由于人脸的姿态变化所导致的自遮挡,语义对应缺失问题仍然是人脸识别问题中的一大挑战。特别是在现实场景中(如安保,监控等),拍摄设备所获取的人脸图像通常处于非限制场景下,且人脸姿态不受控制,这为已有的人脸识别方法带来了巨大挑战。这一问题引起了广泛的关注。最近,生成模型的方法,特别是以生成对抗网络模型为基础的方法大量提出。近几年来,生成对抗网络得到了快速发展,并在各个应用领域获得了大量的成功。该类方法将生成对抗网络模型作为人脸图片的转化器。具体来说,该类方法的流程是对输入的人脸图片进行特征提取,随后将该特征送入生成对抗网络中的生成器中,产生于该人脸图片所对应的正脸图片。判别器在训练中不断对生成图片做出真伪判别,从而指导生成器产生更逼真的图片。大多数该类方法在训练时,通常需要成对的图像作为训练数据,即同一人的正脸图像与非正脸图像,其中正脸图像作为模型的先验监督信息。但是,并非所有人脸数据集都能提供这样的正面人脸图像作为参照。另外,基于卷积方法的生成对抗网络过于依赖参照图像的像素级关系,却很难有效保持整幅图像的结构信息。特别是在人脸识别任务中,人脸的结构信息(如人脸的轮廓,五官等)就显得尤为重要。技术实现要素:有鉴于此,本发明的目的在于提供一种基于自注意力机制的人脸正脸化生成方法,用于解决基于生成对抗网络的生成模型方法中生成图像的结果结构不易保持的问题。同时利用自注意力机制,使得判别器能专注于人脸五官的判别信息,从而更好地指导生成器产生高质量的正面人脸图像。为达到上述目的,本发明提供如下技术方案:一种基于自注意力机制的人脸正脸化生成方法,包括以下步骤:s1:数据预处理阶段:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将裁剪后切块的尺寸重新拉伸为224×224;s2:人脸生成阶段:将输入的任意姿态下人脸图像正脸化,并得到生成的正面图像;s3:人脸判别阶段:判别器网络将输入的图片按照人脸的五官特征区域进行切分,并得到一组切块,每个切块对应各自的自注意力子判别器,并根据输入图像输出一个概率值;s4:判别结果整合阶段:根据人脸特征分块图像的尺度,每个子判别器的结果将与一个对应的权值相乘,得到整个判别器组的输出。进一步,所述步骤s1具体包括以下步骤:s11:对所有人脸图像数据进行归一化,使整个图像的均值为0,标准差为1,即使原始图像在r,g,b通道上的分布服从正态分布;s12:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将裁剪后切块的尺寸重新拉伸为224×224,此操作是为了确保在后续对图片卷积操作后得到的特征图尺寸一致。进一步,所述步骤s2具体包括以下步骤:s21:图像的编码阶段,将步骤s12得到的人脸图像作为输入送入编码器网络,输出与输入图像所对应的编码向量;其中,人脸图像分为非正面图像组和正面图像组s22:图像的解码阶段,将步骤s21得到的编码向量作为图像的身份特征向量送入解码器网络,输出一个正面的人脸图像;s23:将生成的人脸图像与真实的人脸图像进行对比,产生比较损失约束生成网络。更进一步,所述步骤s23具体包括以下步骤:s231:对于步骤s22得到的生成正面人脸图像,将其送入步骤s21得到的生成图像的编码向量,使用此向量与步骤s21所得到的编码向量间的欧氏距离作为身份信息损失函数,此操作的目的是产生身份信息损失来约束生成器产生的图像与s21中图像的身份相一致;s232:若步骤s21所处理的图像为正面图像组中的图像,则额外利用步骤s22所得的生成图像与步骤s21中的真实正面图像的像素级欧氏距离作为像素损失函数,此操作的目的是使生成器学习输入人脸图像到正面人脸图像之间的像素级映射关系。更进一步,所述步骤s231中,所述的身份信息损失函数的表达式为:其中,f(x)为编码器网络中的深层特征图,x、y、分别表示非正面人脸图像、正面人脸图像与各自对应的生成器处理后产生的图像,表示对应向量的欧氏距离。更进一步,所述步骤s232中,所述像素损失函数的表达式为:其中,|·|代表l1范数约束,yc,h,w为真实的正面人脸图像,为由生成器生成的正面人脸图像,c×h×w表示图像的总像素数量。进一步,所述步骤s3具体包括以下步骤:s31:将输入图像按照人脸的五官特征区域进行裁剪分块,分为原图像、中心脸、眼睛区域、鼻子区域和嘴区域等一组不同尺度的区域分块;s32:将步骤s31得到的每个区域分块都各自对应一个独立的子判别器,每个子判别器输出一个概率值来判别输入图像与真实图像的相似性。进一步,所述步骤s32中,每个独立的子判别器采用相同的网络结构,并在其网络的倒数第一、二层加入自注意力模块。此操作的目的在于借助自注意力机制,使判别器更加关注具有判别信息的区域。更进一步,所述自注意力模块具体包括:对于输入人脸图片x,判别器输出的中间特征图记作fea(x);对于fea(x),分别采用1×1卷积将其映射至一组不同的特征空间θ,φ,η,将该映射分别记作θ(x)=wθ{fea(x)},φ(x)=wφ{fea(x)},η(x)=wη{fea(x)};自注意力模块的输出为:out=αh(respondij) fea(x),其中,α为一个权重标量,h(x)=wh{respond(x)},η(x)=wη{fea(x)}。进一步,所述步骤s4具体包括以下步骤:s41:根据人脸特征分块图像的尺度大小,为每个子判别器设置一组对应的权值;s42:判别结果整合阶段,每个子判别器的结果将与对应的权值相乘,得到整个判别器组的输出。本发明的有益效果在于:本发明所述方法基于人脸的几何结构特征,利用自注意力机制,使得判别器能专注于人脸五官的判别信息,更好地指导生成器产生高质量的正面人脸图像,从而使得任意姿态下人脸的正脸化图片能更好的保持人脸的正脸结构信息。本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。附图说明为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:图1为本发明所述方法中生成器的流程框图;图2为本发明所述方法中判别器的流程框图;图3为本发明所述方法中子判别器的结构示意图;图4为本发明所述方法中自注意力模块的处理流程框图;图5为采用本发明所述方法的正脸化效果图。具体实施方式以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。请参阅图1~图5,图1为本发明方法优选的一种实施例中的生成器的流程框图,该流程包含如下步骤:步骤1:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将该切块的尺寸重新拉伸为224×224。具体包括:步骤101:对所有人脸图像数据进行归一化,让整个图像的均值为0,标准差为1,即使原始图像在r,g,b通道上的分布服从正态分布。步骤102:利用预训练好的mtcnn人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将该切块的尺寸重新拉伸为224×224。步骤2:将输入的任意姿态下人脸图像正脸化,并得到生成的正面图像。具体包括:步骤201:将步骤1得到的所有人脸图像分为两组,分别为非正面图像组与正面图像组,并分别进行下述步骤。步骤202:对输入图像进行编码,将上一步裁剪拉伸后得到的图像作为输入送入编码器网络,输出与输入图像所对应的编码向量作为图像的身份特征。这里,编码器网络使用了在vgg-face2数据库上预训练好的resnet-50网络模型,提取该网络的最后一层卷积层的输出特征图作为图像的身份体征编码,该编码的尺寸为2048×7×7。步骤203:将201步骤中得到的编码向量作为身份特征向量送入解码器网络,并输出一个正面的人脸图像。这里,解码器的结构如下:(1)原始特征编码向量先经过1×1卷积后,将通道数降低为512,此时卷积后的特征编码向量尺寸为512×7×7。(2)使用4个串联的resblock将上一步中所得的特征进行处理,处理后的特征编码向量的尺寸保持不变。(3)使用卷积核为4,步长为2,补零值为1的转置卷积(输出通道数为输入通道数的一半)处理上一步所得的特征,随后使用批归一化batchnorm,激活函数使用leakyrelu,参数为0.2。(4)串联5次(3)中的操作,特别的,在最后一次操作中,此时输入的特征编码向量为32×112×112,该步骤中转置卷积的输出通道数与输入通道数相同。该步骤结束后,得到的特征编码向量尺寸应为32×224×224。(5)使用卷积核为3,步长为1,补零值为1,,输出通道数为3(对应原输入图像的r,g,b三通道)转置卷积处理步骤(4)中得到的特征编码向量,随后使用激活函数tanh,此时解码器工作完成,输出尺寸为3×224×224的生成正面人脸图像。步骤204:对于步骤203得到的生成正面人脸图像,将其送入编码器网络得到生成图像的编码向量,使用此向量与步骤202所得到的真实人脸图像的编码向量间的欧氏距离作为身份信息损失函数,身份信息损失函数的定义为:其中,f(x)为编码器网络中的深层特征图;x,y,分别表示非正面人脸图像,正面人脸图像与各自对应的生成器处理后产生的图像;表示对应向量的欧氏距离;f()使用了resnet-50中的最后一层的池化层的输出。步骤205:若步骤203所处理的图像为正面图像组中的图像,则额外利用该生成图像与其输入的真实正面图像的像素级欧氏距离作为像素损失函数,像素损失函数的定义为:其中,|·|代表l1范数约束,y为真实的正面人脸图像,为由生成器生成的正面人脸图像,c×h×w表示图像的总像素数量。这一约束使得生成器产生出的图片拥有正确的正面人脸结构,从而完成人脸正脸化任务。图2为本发明方法优选的一种实施例中判别器的流程框图,该流程包含如下步骤:步骤1:判别器网络将输入的图片按照人脸的五官特征区域进行切分,并得到一组切块,每个切块对应各自的自注意力子判别器,并根据输入图像输出一个概率值。步骤101:将输入图像按照人脸的五官特征区域进行裁剪分块,分别原图像,中心脸,眼睛区域,鼻子区域,嘴区域等一组不同尺度的区域分块。具体地,以一张224×224尺寸的图像为例,以图像的最左上角为原点坐标(0,0),分块的裁剪依据为:原图像:不需要裁剪;中心脸:起始坐标为(55,75),尺寸为120×90;眼睛区域:起始坐标为(55,75),尺寸为110×40;鼻子区域:起始坐标为(100,80),尺寸为35×60;嘴巴区域:起始坐标为(80,144),尺寸为64×36。步骤102:步骤101所得到的每个区域分块都各自对应一个独立的子判别器,每个子判别器输出一个概率值来判别输入图像与真实图像的相似性。每个独立的子判别器采用相同的网络结构,并在其网络的倒数一,二层加入自注意力模块。子判别器的结构图如图3所示,具体来说,判别器网络的网络结构为:(1)对输入图像,使用卷积核为3,步长为2,补零为1的卷积操作,输出的通道数为64,激活函数使用leakyrelu,参数为0.2。(2)对上一步所得到的特征图,使用卷积核为3,步长为2,补零为1的卷积操作,输出的通道数为128,随后使用层归一化layernorm,激活函数使用leakyrelu,参数为0.2。(3)对上一步所得到的特征图,使用卷积核为3,步长为2,补零为1的卷积操作,输出的通道数为256,随后使用层归一化layernorm,激活函数使用leakyrelu,参数为0.2。(4)对上一步所得到的特征图,使用卷积核为3,步长为2,补零为1的卷积操作,输出的通道数为256,随后使用层归一化layernorm,激活函数使用leakyrelu,参数为0.2。(5)对上一步所得到的特征图使用自注意力模块处理,输出通道数不变。(5)对上一步所得到的特征图,使用卷积核为3,步长为2,补零为1的卷积操作,输出的通道数为256,随后使用层归一化layernorm,激活函数使用leakyrelu,参数为0.2。(6)对上一步所得到的特征图使用自注意力模块处理,输出通道数不变。(7)使用全连接层将上一步所得到的特征输出为一维的数值。对应所有子判别器,其全连接层的参数为:原图像:输入通道数为256×7×7,输出通道数为1;中心脸:输入通道数为256×7×3,输出通道数为1;眼睛区域:输入通道数为256×4×3,输出通道数为1;鼻子区域:输入通道数为256×4×3,输出通道数为1;嘴巴区域:输入通道数为256×4×3,输出通道数为1。步骤2:根据人脸特征分块图像的尺度,每个子判别器的结果将与一个对应的权值相乘,得到整个判别器组的输出。步骤201:根据人脸特征分块图像的尺度大小,为每个子判别器设置一组对应的权值。具体来说,对于每个特征区域分块,其对应子判别器的输出权值为:原图像:输出权值为1;中心脸:输出权值为0.7;眼睛区域:输出权值为0.5;鼻子区域:输出权值为0.5;嘴巴区域:输出权值为0.5。步骤202:每个子判别器的结果将与对应的权值相乘,得到整个判别器组的输出。图4为本发明方法优选的一种实施例中自注意力模块的处理流程框图,该流程包含如下步骤:步骤1:对于输入人脸图片x,判别器的输出的中间特征图记作fea(x)。对于fea(x),分别采用1×1卷积将其映射至一组不同的特征空间θ,φ,η。将该映射分别记作θ(x)=wθ{fea(x)},φ(x)=wφ{fea(x)},η(x)=wη{fea(x)}。步骤2:为了计算当前特征图中每个像素与其他所有位置像素的相关性,对特征映射θ(x),φ(x),计算注意力响应:其中,attentionij代表特征图中i位置的像素值在特征图位置j上的响应权重,θ(xi)tφ(xj)为矩阵点积。步骤3:对特征图fea(x),使用1×1卷积另取一对映射η,η(x)=wη{fea(x)},并计算:其中,respondij即为经过自注意力机制处理后所对应的在嵌入空间上的特征图。特别的,为了降低计算复杂度,步骤1、2、3中的特征映射θ,φ,η均为1×1卷积,设输入通道数为n,输出通道数则降低为在本实施例中,我们取k=2。步骤4:为了使得响应特征图与原特征图的尺寸一致,同样取1×1卷积层作为映射函数,映射关系为h,h(x)=wh{respond(x)}。与前三组1×1卷积所相反的是,在h(x)中输入通道数为输出通道数为n。该操作将响应特征图从嵌入特征空间还原至原特征空间,实现了通道数的还原。步骤5:自注意力模块的输出为:out=αh(respondij) fea(x)(5)其中,α为一个权重标量。在训练开始时,该标量被初始化为0,并作为整个模块中的一个参数,在参数优化过程中被不断更新为了验证本发明的效果,进行了以下实验:1、正脸化效果实验。2、在multi-pie人脸数据集上的人脸识别实验。对于实验1,本发明所提出方法的正脸化效果图如图5所示。可以明显地观察到:得益于自注意力机制,由模型正脸化操作所得到的正脸图像保持了良好的正脸结构与五官特征。值得一提的是,当输入图像的面部转动角度超过60°时,由于自遮挡现象,人脸图片半数以上的语义信息(如眼睛,耳朵,面颊等)已经缺失。在早期的人脸正脸化方法中是一个极具挑战性的问题,而本实验的模型克服了这一问题,且依旧能产生高质量的正面人脸图像。同时在身份信息损失函数的约束下,模型能够有效的保持输入图像的身份,使得生成的图像身份信息与输入图像保持一致。对于实验2,依据公开实验协议在multi-pie数据集的setting1实验设置中验证了模型在各个姿态角度下的rank-1识别率。该设置下共收录了250个身份个体,其中每个个体包含了13个观察角度(0°到±90°)以及20个光照条件变化下的图片。在训练阶段时使用前150个个体的所有人脸图片;在测试阶段时,验证集(gallery)选取后续100个个体中处于自然光照条件下的一张正面图片,其余的全部图片作为测试集(probe)。在实验中,我们使用了模型生成器中的编码器部分,并取编码器网络中的最后一层池化层所得到的特征图作为图片的特征编码。本实验采用了余弦相似度来度量probe集与galley集中的图片的特征编码,并将probe集图片的身份标签标注为与其最大余弦相似度的galley集图片的身份标签。probe集图片的标注信息可由下公式得到:其中,fprobe、分别表示probe集图片与第i个galley集图片由编码器网络所得到的特征编码,pred表示对probe图片的身份标签预测。表1数据库测试结构(%)人脸旋转角度±90°±75°±60°±45°±30°±15°识别率(%)56.978.491.998.999.799.9上述表1展示了本实验模型在实验设置setting1下的rank-1识别率(%),可以发现本发明所提出的方法在姿态变化下的人脸识别问题中有着优秀的表现。最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。当前第1页1 2 3 
技术特征:

1.一种基于自注意力机制的人脸正脸化生成方法,其特征在于,该方法包括以下步骤:

s1:数据预处理阶段:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将裁剪后切块的尺寸重新拉伸为224×224;

s2:人脸生成阶段:将输入的任意姿态下人脸图像正脸化,并得到生成的正面图像;

s3:人脸判别阶段:判别器网络将输入的图片按照人脸的五官特征区域进行切分,并得到一组切块,每个切块对应各自的自注意力子判别器,并根据输入图像输出一个概率值;

s4:判别结果整合阶段:根据人脸特征分块图像的尺度,每个子判别器的结果将与一个对应的权值相乘,得到整个判别器组的输出。

2.根据权利要求1所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s1具体包括以下步骤:

s11:对所有人脸图像数据进行归一化,使整个图像的均值为0,标准差为1,即使原始图像在r,g,b通道上的分布服从正态分布;

s12:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,并将裁剪后切块的尺寸重新拉伸为224×224。

3.根据权利要求2所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s2具体包括以下步骤:

s21:图像的编码阶段,将步骤s12得到的人脸图像作为输入送入编码器网络,输出与输入图像所对应的编码向量;其中,人脸图像分为非正面图像组和正面图像组

s22:图像的解码阶段,将步骤s21得到的编码向量作为图像的身份特征向量送入解码器网络,输出一个正面的人脸图像;

s23:将生成的人脸图像与真实的人脸图像进行对比,产生比较损失约束生成网络。

4.根据权利要求3所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s23具体包括以下步骤:

s231:对于步骤s22得到的生成正面人脸图像,将其送入步骤s21得到的生成图像的编码向量,使用此向量与步骤s21所得到的编码向量间的欧氏距离作为身份信息损失函数;

s232:若步骤s21所处理的图像为正面图像组中的图像,则额外利用步骤s22所得的生成图像与步骤s21中的真实正面图像的像素级欧氏距离作为像素损失函数。

5.根据权利要求4所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s231中,所述的身份信息损失函数的表达式为:

其中,f(x)为编码器网络中的深层特征图,x、y、分别表示非正面人脸图像、正面人脸图像与各自对应的生成器处理后产生的图像,表示对应向量的欧氏距离。

6.根据权利要求4所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s232中,所述像素损失函数的表达式为:

其中,|·|代表l1范数约束,yc,h,w为真实的正面人脸图像,为由生成器生成的正面人脸图像,c×h×w表示图像的总像素数量。

7.根据权利要求3所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s3具体包括以下步骤:

s31:将输入图像按照人脸的五官特征区域进行裁剪分块,分为原图像、中心脸、眼睛区域、鼻子区域和嘴区域的一组不同尺度的区域分块;

s32:将步骤s31得到的每个区域分块都各自对应一个独立的子判别器,每个子判别器输出一个概率值来判别输入图像与真实图像的相似性。

8.根据权利要求7所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s32中,每个独立的子判别器采用相同的网络结构,并在其网络的倒数第一、二层加入自注意力模块。

9.根据权利要求8所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述自注意力模块具体包括:对于输入人脸图片x,判别器输出的中间特征图记作fea(x);对于fea(x),分别采用1×1卷积将其映射至一组不同的特征空间θ,φ,η,将该映射分别记作θ(x)=wθ{fea(x)},φ(x)=wφ{fea(x)},η(x)=wη{fea(x)};自注意力模块的输出为:out=αh(respondij) fea(x),其中,α为一个权重标量,h(x)=wh{respond(x)},η(x)=wη{fea(x)}。

10.根据权利要求7所述的一种基于自注意力机制的人脸正脸化生成方法,其特征在于,所述步骤s4具体包括以下步骤:

s41:根据人脸特征分块图像的尺度大小,为每个子判别器设置一组对应的权值;

s42:判别结果整合阶段,每个子判别器的结果将与对应的权值相乘,得到整个判别器组的输出。

技术总结
本发明涉及一种基于自注意力机制的人脸正脸化生成方法,属于数字图像处理和模式识别领域。该方法包括:数据预处理阶段:利用人脸检测网络裁剪出原始图像中处于非限制姿态下的人脸部分,将裁剪后切块的尺寸重新拉伸;人脸生成阶段:将输入的任意姿态下人脸图像正脸化;人脸判别阶段:判别器网络将输入的图片按照人脸的五官特征区域进行切分,并得到一组切块,每个切块对应各自的自注意力子判别器,并根据输入图像输出一个概率值;判别结果整合阶段:根据人脸特征分块图像的尺度,每个子判别器的结果与一个对应的权值相乘,得到整个判别器组的输出。本发明结合自注意力机制与人脸的几何结构特征,使得正脸化图片能更好的保持人脸的正脸结构信息。

技术研发人员:栾晓;耿弘民;刘玲慧
受保护的技术使用者:重庆邮电大学
技术研发日:2020.01.20
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53624.html

最新回复(0)