基于深度神经网络模型的图像生成方法与装置与流程

专利2022-06-28 95

本申请涉及图像处理和深度学习领域，具体涉及一种基于深度神经网络模型的图像生成方法与装置。

背景技术：

在图像处理、计算机图形学和计算机视觉领域，图像生成问题可以看作将输入图像生成相对应的输出图像。

随着深度学习技术的发展，深度神经网络模型在各个领域展现出接近甚至超越人类的作用，例如无人驾驶、语音识别、人脸识别等。因此，基于深度神经网络进行图像生成的研究也越来越多。然而，输入图像可能存在各种不同的限制，例如输入图像为手绘图像、素描图像、缺失图像等等，这也经常导致用于训练深度神经网络模型的数据集数量不足，或者生成的图像质量与画质不佳等问题。虽然，通过一些线性与非线性函数、插值法可以提高图像质量，但也存在方案复杂或效果不佳的情况。

技术实现要素：

本申请实施例提供了一种基于深度神经网络模型的图像生成方法与装置，以期望提高每个像素处理的效率，以及增加生成图像的生成效果和画质。

第一方面，本申请实施例提供一种基于深度神经网络模型的图像生成方法，包括：

获取待处理的原始图像和预设图像数据库，所述原始图像用于生成目标图像，所述目标图像比所述原始图像具有更多图像特征；

将所述原始图像进行图像分块处理，得到所述原始图像的m个第一子图像块，所述m为大于1的整数；

将所述m个第一子图像块输入预先训练的深度神经网络模型，得到m个第二子图像块，所述m个第一子图像块与所述m个第二子图像块一一对应，所述深度神经网络模型由所述预设图像数据库训练得到；

从所述预设图像数据库中获得与所述m个第二子图像块相似度最高的m个第三子图像块，所述m个第二子图像块与所述m个第三子图像块一一对应；

根据所述m个第二子图像块和所述m个第三子图像块生成所述目标图像。

第二方面，本申请实施例提供一种基于深度神经网络模型的图像生成装置，包括：

处理单元，用于获取待处理的原始图像和预设图像数据库，所述原始图像用于生成目标图像，所述目标图像比所述原始图像具有更多图像特征；用于将所述原始图像进行图像分块处理，得到所述原始图像的m个第一子图像块；用于将所述m个第一子图像块输入预先训练的深度神经网络，得到m个第二子图像块，所述m个第一子图像块与所述m个第二子图像块一一对应，所述深度神经网络由所述预设图像数据库训练得到；用于从所述预设图像数据库中获得与所述m个第二子图像块相似度最高的m个第三子图像块，所述m个第二子图像块与所述m个第三子图像块一一对应；用于根据所述m个第二子图像块和所述m个第三子图像块生成所述目标图像。

第三方面，本申请实施例提供一种电子设备，所述电子设备包括应用处理器和存储器，所述存储器存储有至少一条指令，所述至少一条指令用于被所述应用处理器执行以实现上述第一方面所述的方法。

第四方面，本申请实施例提供一种计算机可读存储介质，其中，上述计算机可读存储介质存储用于电子数据交换的计算机程序，并且上述计算机程序被处理器执行以实现本申请实施例第一方面中所描述的部分或全部步骤。

第五方面，本申请实施例提供一种计算机程序产品，其中，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如本申请实施例第一方面中所描述的部分或全部步骤。该计算机程序产品可以为一个软件安装包。

可以看出，本申请实施例所描绘的基于深度神经网络模型的图像生成方法与装置，通过对原始图像进行图像分块处理，得到更好处理每个像素的多个第一子图像块，即对原始图像执行多分块并行处理，大大缩短了以往对原始图像的像素处理时间，从而提高了每个像素处理的效率。然后，将该多个第一子图像块输入已经学习到由低画质到高画质映射关系的深度神经网络模型，得到具有更多图像特征的多个第二子图像块。最后，对多个第三子图像块进行图像相似度处理，进一步得到具有更多图像特征的多个第三子图像块，并根据多个第二子图像块和多个第三子图像块生成目标图像。由于获取到的第二子图像块和第三子图像块携带丰富的图像特征，故使得合成的目标图像能携带更多的图像特征，从而有利于增加生成图像的生成效果和画质。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。显而易见地，下面描述的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种生成对抗网络模型的结构示意图；

图2是本申请实施例提供的一种基于深度神经网络模型的图像生成的流程示意图；

图3是本申请实施例提供的一种生成模型的结构示意图；

图4是本申请实施例提供的有一种判决模型的示意图；

图5是本申请实施例提供的一种训练生成对抗网络模型的示意图；

图6是本申请实施例提供的一种基于深度神经网络模型的图像生成装置的功能单元组成框图；

图7是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、软件、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其他步骤或单元。

在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。下面结合附图，对本申请实施例进行详细介绍。

在对本申请实施例提供的基于深度神经网络模型的图像生成方法进行详细介绍之前，先对本申请实施例涉及深度神经网络模型和相关概念进行简单介绍。

在图像处理、计算机图形学和计算机视觉领域，很多问题可以看作将输入图像生成相对应的输出图像。图像的表现形式包括rgb图像、边缘图像和语义图像，而基于深度神经网络模型的图像生成问题可以表示为在给定足够训练数据的情况下，将图像的表现形式转换成另一种表现形式，例如素描图转化为真实图。其中，生成对抗网络(generativeadversarialnetworks，gan)模型作为针对图像生成问题通常考虑的一种深度神经网络模型。gan模型不仅可以学习输入图像到输出图像的映射关系，还可以学习用于训练该映射关系的损失函数。gan模型的模型框架包括生成模型(generativemodel)和判别模型(discriminativemodel)。生成模型g捕捉样本数据分布，并用服从某一分布的噪声生成一个类似真实训练数据的样本，与真实样本越接近越好；判别模型d一般属于一个多分类模型，用于估计样本数据趋于真实样本的概率。如果样本数据来自于真实样本，则判别模型d输出较大的概率值，否则，输出较小的概率值。此外，在生成对抗网络gan模型的训练过程中，通常固定生成模型g的网络参数(判别模型d)，更新判决模型d(生成模型g)的网络参数，如此交替迭代训练。在整个训练的过程中，生成模型g和判别模型d都尽可能优化各自的网络参数，从而形成竞争对抗，直到彼此达到动态平衡状态。此时，生成模型g生成的数据样本与真实样本的分布几乎相同，判别模型d无法再对该生成的数据样本判断出真假。

请参阅图1，图1是本申请实施例提供的一种生成对抗网络模型的结构示意图。其中，生成模型g输入噪声向量z，并通过卷积、激活函数、池化、反卷积等隐藏层生成图像g(z)，再将生成的g(z)与从图像数据库中获取的真实样本x一起输入判别模型d；判别模型d通过卷积、激活函数等隐藏层计算概率值d(g(z))和d(x)，并经过交叉熵(crossentropy)函数优化生成对抗网络gan模型的目标函数。其中，优化的生成对抗网络gan模型的目标函数表示为：

具体的，激活函数对于深度神经网络模型去学习、理解复杂和非线性的函数来说具有重要作用。激活函数能够将保证深度神经网络模型的隐藏层中每个层输出与上层输入具有非线性特性，使得深度神经网络模型可以逼近任何非线性函数。其中，激活函数包括sigmod函数、tanh函数、relu(rectifiedlinearunit，修正线性单元)函数、leakyrelu函数、elu(exponentiallinearunits，指数线性单元)函数。

下面将从方法示例的角度介绍基于深度神经网络模型的图像生成方法的执行步骤，请参阅图2。图2是本申请实施例提供的一种基于深度神经网络模型的图像生成的流程示意图，该方法包括：

s210、获取待处理的原始图像和预设图像数据库。

其中，原始图像用于生成目标图像，目标图像比原始图像具有更多图像特征。

具体的，图像特征可以包括图像的颜色特征、纹理特征、形状特征和空间关系特征。其中，颜色特征是一种全局特征，描述了图像或图像区域所对应的景物的表面性质。一般颜色特征是基于像素点的特征，所有属于图像或图像区域的像素都有各自的贡献。由于颜色对图像或图像区域的方向、大小等变化不敏感，所以颜色特征不能很好地捕捉图像中对象的局部特征。纹理特征也是一种全局特征，也描述了图像或图像区域所对应景物的表面性质。但由于纹理只是一种物体表面的特性，并不能完全反映出物体的本质属性，所以仅仅利用纹理特征是无法获得高层次图像内容的。与颜色特征不同，纹理特征不是基于像素点的特征，而是需要在包含多个像素点的区域中进行统计计算。形状特征有两类表示方法，一类是轮廓特征，另一类是区域特征。图像的轮廓特征主要针对物体的外边界，而图像的区域特征则关系到整个形状区域。空间关系特征是指图像中分割出来的多个目标之间的相互的空间位置或相对方向关系，这些关系也可分为连接/接关系、交叠/重叠关系和包含/包容关系等等。

进一步的，原始图像可以为目标图像的素描图。预设图像数据库可以包括“素描图-真实图”样本对，其中，素描图和真实图是一一对应的。此外，预设图像数据库还可以包括“素描人像图-真实人像图”样本对，例如现有的cufs(thechineseuniversityofhongkongfacesketchdatabase，香港中文大学人脸素描数据库)。

进一步的，目标图像比原始图像具有更多图像特征，可以理解为，在预设图像数据库为“素描图-真实图”样本对的情况下，原始图像为素描图，而目标图像为该素描图对应的真实图，也就是说，真实图比素描图具体更多的图像特征。

s220、将原始图像进行图像分块处理，得到原始图像的m个第一子图像块。

其中，m为大于1的整数。

具体的，在图像处理中，图像中每个像素之间的关联度随着像素距离的增大而降低。图像分块处理能够得到更好处理子图像块中的每个像素，以及获得子图像块的更多细节，以便提高图像处理的效果。本申请可以通过设置滑动窗口，并按照一定的步长滑动该滑动窗口以进行图像分块处理。由于滑动窗口的形状对图像分块具有一定影响，因此可以采用高斯加权计算每一滑动窗口的均值、方差以及协方差。

s230、将m个第一子图像块输入预先训练的深度神经网络模型以得到m个第二子图像块。

其中，m个第一子图像块与m个第二子图像块一一对应，深度神经网络模型由预设图像数据库训练得到。

在一个可能的示例中，深度神经网络模型可以包括生成对抗网络gan模型，该生成对抗网络gan模型包括生成模型g和判决模型d。

具体的，生成模型g包括第一输入层、l层第一隐藏层和第一输出层，l层可以为多个隐藏层，l层第一隐藏层中每层卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层卷积层的步长为s1，l层第一隐藏层中每层卷积层的激活函数包括reul函数，l层第一隐藏层中每层池化层的滤波器尺寸为f1*f1，l层第一隐藏层中每层池化层的步长为s2，l层第一隐藏层中每层反卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层反卷积层的步长为1/s1，其中，k1取值为[3,9]的整数，s1取值为[1,4]的整数，f1取值为[2,4]的整数，s2取值为1或2，l为大于1的整数。

进一步的，l层第一隐藏层可以包括依次相连的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层。

举例中，请参阅图3，图3是本申请实施例提供的一种生成模型的结构示意图。将大小为128*128*1的原始图像输入生成模型，然后输出大小为128*128*1的生成图像。其中，生成模型的隐藏层可以包括依次相连的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层。隐藏层中卷积层的卷积核尺寸为4*4个像素，卷积层的步长为2，卷积层的激活函数包括reul函数。池化层的滤波器尺寸为4*4个像素，池化层的步长为2。反卷积层的滤波器尺寸为4*4个像素，反卷积层的步长为1/2。特征映射图的数目分别为1、32、64、128、256、512、1024、512、256、128、64、32、1。

具体的，判决模型d包括第二输入层、k层第二隐藏层和第二输出层，k层第二隐藏层中每层卷积层的卷积核尺寸为k2*k2个像素，k层第二隐藏层中每层卷积层的步长为s3，k层第二隐藏层中每层卷积层的激活函数包括leakyreul函数，其中，k2取值为3或4，s3取值为1或2，k为大于1的整数。

进一步的，k层第二隐藏层可以包括依次相连的第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层。

举例中，请参阅图4，图4是本申请实施例提供的有一种判决模型的示意图。其中，将大小为128*128*1的生成图像输入判别模型，然后通过分类器输出概率值。其中，判别模型的隐藏层可以包括依次相连的第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层。隐藏层中卷积层的卷积核尺寸为5*5个像素，卷积层的步长为1，卷积层的激活函数包括leakyreul函数。

在一个可能的示例中，上述生成对抗网络gan模型的训练过程具有以下步骤：从预设图像数据库中获取第一图像和第二图像，第二图像包括第一图像增加图像特征后的图像；对第一图像和第二图像进行图像分块处理，得到第一图像的m个第四子图像块x＝[x1,x2,...,xm]和第二图像的m个第五子图像块y＝[y1,y2,...,ym]；根据m个第四子图像块和m个第五子图像块确定生成对抗网络gan模型的目标函数；根据预设图像数据库和目标函数交替迭代训练生成模型g和判别模型d以获得训练完成的生成对抗网络gan模型。

具体的，在预设图像数据库为“素描图-真实图”样本对的情况下，第一图像为素描图a，第二图像为素描图a对应的真实图b。或者，在预设图像数据库为“简易手绘图-素描图”样本对的情况下，第一图像为简易手绘图c，第二图像为简易手绘图c对应的素描图d，在此不做具体限制。

举例中，请参阅图5，图5是本申请实施例提供的一种训练对抗生成网络模型的示意图。首先，从“素描图-真实图”样本对获取一幅素描图x和一幅素描图x对应的真实图y，并对x和y进行图像分块处理，得到x的m块子图像块中的任一块子图像块x和y的m块子图像块中的任一块子图像块y。然后，将x输入待训练的生成模型g，得到生成图像g(x)，再将x和g(x)输入判别模型以得到概率值d(x,g(x))。其次，将x和y输入判别模型以得到概率值d(x,y)。最后，在g(x)尽可能等于y的条件下，通过最大化判别模型的目标函数以迭代优化判别模型d，通过最小化生成模型的目标函数以迭代优化生成模型g，最终不断交替训练判别模型g和生成模型d以获得训练完成的生成对抗网络gan模型。

下面，对于生成对抗网络gan模型的目标函数可以通过判别模型d的目标函数和生成模型g的目标函数确认得到。

具体的，判别模型d的目标函数可以为：

可以看出，在优化判别模型d的情况下，判别模型d的目标函数的第一项中d(x,y)相当于由真样本(真实图)得到的平均概率值，因此其值越大越好，也就是说，真样本的预测结果越接近于1越好。而判别模型d的目标函数的第二项中d(x,g(x))相当于由假样本(素描图)得到的平均概率值，需要优化假样本的预测结构越接近于0越好。此外，判决模型d的目标函数的第三项为拉格朗日乘数法条件。为了保证第一项和第二项能够同时最大化，因此将第二项改成1-d(x,g(x))。

具体的，生成模型g的目标函数可以为：

可以看出，在优化生成模型g的情况下，生成模型g的目标函数的第一项中d(x,g(x))由假样本(素描图)得到的平均概率值，需要优化假样本的预测结构越接近于1越好。此外，生成模型g的目标函数的第二项为拉格朗日乘数法条件。为了统一与上述一致的1-d(x,g(x))形式，因此最小化第一项。然后，将判别模型d的目标函数和生成模型g的目标函数合并起来，可以得到生成对抗网络gan模型的最大最小化目标函数。

进一步的，根据m第四子图像块和m个第五子图像块确定生成对抗网络gan模型的目标函数可以包括以下操作：将m个第四子图像块和m个第五子图像块输入判决网络d，得到m个第一概率值；求解m个第一概率值的平均值，得到第一平均值；将m个第四子图像块输入生成模型g，得到m个第六子图像块；将m个第六子图像块和m个第四子图像块输入判别模型d，得到m个第二概率值；求解m个第二概率值的平均值，得到第二平均值；求解m个第五子图像块与m个第六子图像块之差的l1范数值的平均值，得到第三平均值；在第三平均值等于0的条件下，优化第一平均值和第二平均值，得到目标函数。

进一步的，m个第一概率值可以为{log[d(x1,y1)],...,log[d(xm,ym)]}；第一平均值可以为m个第六子图像块可以为{g(x1),...,g(xm)}。m个第二概率值可以为{log[1-d(x1,g(x1))],...,log[1-d(xm,g(xm))]}；第二平均值可以为第三平均值可以为因此，目标函数可以为：

其中，g(xj)表示xj输入生成模型g后得到的第六子图像块中的子图像块，d(xi,yi)表示xi和yi输入判决模型d后得到的取值(0,1)的概率值，λ表示拉格朗日乘数法参数，||*||1表示l1范数。

s240、从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块。

其中，m个第二子图像块与m个第三子图像块一一对应。

具体的，图像相似度计算主要用于两幅图像之间内容的相似程度进行打分，并根据分数的高低来判断图像内容的相近程度。其中，图像相似度的计算可以包括基于欧几里得距离、基于结构相似性度量(structuralsimilaritymeasurement，ssim)、基于余弦相似度、基于直方图距离、基于互信息(mutualinformation)、基于感知哈希算法和基于深度学习模型。其中，ssim是一种全参考的图像质量评价指标，分别从亮度、对比度、结构三个方面度量图像相似性，并且ssim取值范围为[0,1]，其值越大，表示图像失真越小。在通过滑动窗口将图像分块，并采用高斯加权计算每一窗口的均值、方差和协方差之后，计算所有子图像块的ssim，再将所有子图像块的ssim的平均值作为两副图像的平均ssim。余弦相似度是将两幅图像表示成特征向量，并计算该特征向量之间的余弦距离来表示该两幅图像的相似度。直方图能够描述一幅图像中颜色的全局分布。感知哈希算法的作用是将每幅图像生成一个“指纹”信息序列，然后比较两幅图像的“指纹”信息序列相同的位数。如果不相同的数据位不超过5，则说明两幅图像相似；如果大于10，则说明两幅图像不相似。

在一个可能的示例中，从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块可以包括以下操作：从预设图像数据库中选取n个第三图像，n为大于1的整数；对n个第三图像块进行图像分块处理，得到m*n个第七子图像块；计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值；从m*m*n个相似度值中选取大于预设阈值的子图像块以作为m个第三子图像块中的子图像块。

具体的，在预设图像数据库包括“素描图-真实图”样本对的情况下，从“素描图-真实图”样本对中选取n张“真实图”样本，并对该n张“真实图”样本进行图像分块处理以获得m*n张子图像块。然后，将由生成对抗网络gan模型生成的m张子图像块与该m*n张子图像块一一进行图像相似度处理以获得m*m*n个相似度值。最后，从该m*m*n个相似度值中选取大于预设阈值的子图像块。进一步的，当从该m*m*n个相似度值中选取大于预设阈值的子图像块无法获得m张时，可以再从“素描图-真实图”样本对中随机选取n张“真实图”样本，并再次进行上述类似的操作，直到从相似度值中选取到大于预设阈值的m个子图像块。

在一个可能的示例中，计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值可以包括以下操作：提取m个第二子图像块的特征向量w＝[w1,w2,...wm]和m*n个第七子图像块的特征向量v＝[v1,v2,...,vm*n]；根据预设相似系数计算公式获取m*m*n个相似度值。

在一个可能的示例中，预设相似系数计算公式可以为：

s250、根据m个第二子图像块和m个第三子图像块生成目标图像。

具体的，先确定m个第三子图像块与m个第二子图像块一一对应关系，然后根据该对应关系拼接m个第三子图像块以生成目标图像。

可以看出，本申请实施例所描绘的基于深度神经网络模型的图像生成方法，通过对原始图像进行图像分块处理，得到更好处理每个像素的多个第一子图像块，即对原始图像执行多分块并行处理，大大缩短了以往对原始图像的像素处理时间，从而提高了每个像素处理的效率。然后，将该多个第一子图像块输入已经学习到图像映射关系的深度神经网络模型，得到具有更多图像特征的多个第二子图像块。最后，对多个第三子图像块进行图像相似度处理，进一步得到具有更多图像特征的多个第三子图像块，并根据多个第二子图像块和多个第三子图像块生成目标图像。由于获取到的第二子图像块和第三子图像块携带丰富的图像特征，故使得合成的目标图像能携带更多的图像特征，从而有利于增加生成图像的生成效果和画质。

基于上述基于深度神经网络模型的图像生成方法实施例的描述，本申请实施例还提供一种基于深度神经网络模型的图像生成装置，请参阅图6。图6是申请实施例提供的一种基于深度神经网络模型的图像生成装置的结构示意图。其中，该图像生成装置600包括处理单元610和通信单元620。

其中，该处理单元610用于执行如上述方法实施例中的任一步骤，且在执行诸如发送等数据传输时，可选择的调用所述通信单元620来完成相应操作，下面进行详细说明。

该处理单元610具体用于：获取待处理的原始图像和预设图像数据库，原始图像用于生成目标图像，目标图像比原始图像具有更多图像特征；将原始图像进行图像分块处理，得到原始图像的m个第一子图像块，m为大于1的整数；将m个第一子图像块输入预先训练的深度神经网络模型，得到m个第二子图像块，该m个第一子图像块与m个第二子图像块一一对应，该深度神经网络模型由预设图像数据库训练得到；从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块，该m个第二子图像块与m个第三子图像块一一对应；根据m个第二子图像块和m个第三子图像块生成目标图像。

可以看出，本申请实施例所描绘的基于深度神经网络模型的图像生成装置，通过对原始图像进行图像分块处理，得到更好处理每个像素的多个第一子图像块，即对原始图像执行多分块并行处理，大大缩短了以往对原始图像的像素处理时间，从而提高了每个像素处理的效率。然后，将该多个第一子图像块输入已经学习到图像映射关系的深度神经网络模型，得到具有更多图像特征的多个第二子图像块。最后，对多个第三子图像块进行图像相似度处理，进一步得到具有更多图像特征的多个第三子图像块，并根据多个第二子图像块和多个第三子图像块生成目标图像。由于获取到的第二子图像块和第三子图像块携带丰富的图像特征，故使得合成的目标图像能携带更多的图像特征，从而有利于增加生成图像的生成效果和画质。

在一个可能的示例中，深度神经网络模型可以包括生成对抗网络gan模型，该gan模型包括生成模型g和判别模型d，其中，生成模型g包括第一输入层、l层第一隐藏层和第一输出层，l层可以为多个隐藏层，l层第一隐藏层中每层卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层卷积层的步长为s1，l层第一隐藏层中每层卷积层的激活函数包括reul函数，l层第一隐藏层中每层池化层的滤波器尺寸为f1*f1，l层第一隐藏层中每层池化层的步长为s2，l层第一隐藏层中每层反卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层反卷积层的步长为1/s1，其中，k1取值为[3,9]的整数，s1取值为[1,4]的整数，f1取值为[2,4]的整数，s2取值为1或2，l为大于1的整数；判别模型d包括第二输入层、k层第二隐藏层和第二输出层，k层第二隐藏层中每层卷积层的卷积核尺寸为k2*k2个像素，k层第二隐藏层中每层卷积层的步长为s3，k层第二隐藏层中每层卷积层的激活函数包括leakyreul函数，其中，k2取值为3或4，s3取值为1或2，k为大于1的整数。

在一个可能的示例中，l层第一隐藏层可以包括依次相连的第一卷积层、第二卷积层、第一池化层、第三卷积层、第四卷积层、第二池化层、第一反卷积层、第二反卷积层、第三反卷积层、第四反卷积层、第五反卷积层和第六反卷积层；k层第二隐藏层可以包括依次相连的第五卷积层、第六卷积层、第七卷积层、第八卷积层、第九卷积层、第十卷积层。

在一个可能的示例中，生成对抗网络gan模型的训练过程可以包括以下步骤：从预设图像数据库中获取第一图像和第二图像，第二图像包括第一图像增加图像特征后的图像；对第一图像和第二图像进行图像分块处理，得到第一图像的m个第四子图像块和第二图像的m个第五子图像块；根据m个第四子图像块和m个第五子图像块确定生成对抗网络gan模型的目标函数；根据预设图像数据库和目标函数交替迭代训练生成模型g和判别模型d以获得训练完成的生成对抗网络gan模型。

在一个可能的示例中，在根据m第四子图像块和m个第五子图像块确定生成对抗网络gan模型的目标函数方面，该处理单元610具体用于：将所述m个第四子图像块和所述m个第五子图像块输入所述判决网络d，得到m个第一概率值；求解所述m个第一概率值的平均值，得到第一平均值；将所述m个第四子图像块输入所述生成模型g，得到m个第六子图像块；将m个第六子图像块和m个第四子图像块输入所述判别模型d，得到m个第二概率值；求解所述m个第二概率值的平均值，得到第二平均值；求解所述m个第五子图像块与所述m个第六子图像块之差的l1范数值的平均值，得到第三平均值；在所述第三平均值等于0的条件下，优化所述第一平均值和所述第二平均值，得到所述目标函数。

在一个可能的示例中，在从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块方面，该处理单元610具体用于：从预设图像数据库中选取n个第三图像，n为大于1的整数；对n个第三图像块进行图像分块处理，得到m*n个第七子图像块；计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值；从m*m*n个相似度值中选取大于预设阈值的子图像块以作为m个第三子图像块中的子图像块。

在一个可能的示例中，在计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值方面，该处理单元610具体用于：提取m个第二子图像块的特征向量和m*n个第七子图像块的特征向量；根据预设相似系数计算公式获取m*m*n个相似度值。

其中，该图像生成装置600还可以包括存储单元630，用于存储服务器的程序代码和数据。该处理单元610可以是处理器，该通信单元620可以是触控显示屏或者收发器，该存储单元630可以是存储器。

基于上述方法实施例以及装置实施例的描述，本申请实施例还提供一种电子设备。其中，电子设备可以是具备图像处理能力的电子设备，该电子设备可以包括各种具有无线通信和图像处理功能的手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其他处理设备，以及各种形式的用户设备(userequipment，ue)、移动台(mobilestation，ms)、终端设备(terminaldevice)等等。

下面本申请实施例可以对电子设备进行功能单元的划分，例如，可以对应各个功能划分各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。需要说明的是，本申请实施例中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，请参阅图7。图7是本申请实施例提供的一种电子设备的结构示意图。

电子设备包括应用处理器710、存储器720、通信接口730以及一个或多个程序721，其中，该一个或多个程序721被存储在上述存储器720中，并且被配置由上述应用处理器710执行，该一个或多个程序721包括用于执行以下步骤的指令：获取待处理的原始图像和预设图像数据库，原始图像用于生成目标图像，目标图像比原始图像具有更多图像特征；将原始图像进行图像分块处理，得到原始图像的m个第一子图像块，m为大于1的整数；将m个第一子图像块输入预先训练的深度神经网络模型，得到m个第二子图像块，该m个第一子图像块与m个第二子图像块一一对应，该深度神经网络模型由预设图像数据库训练得到；从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块，该m个第二子图像块与m个第三子图像块一一对应；根据m个第二子图像块和m个第三子图像块生成目标图像。

可以看出，电子设备通过对原始图像进行图像分块处理，得到更好处理每个像素的多个第一子图像块，即对原始图像执行多分块并行处理，大大缩短了以往对原始图像的像素处理时间，从而提高了每个像素处理的效率。然后，将该多个第一子图像块输入已经学习到图像映射关系的深度神经网络模型，得到具有更多图像特征的多个第二子图像块。最后，对多个第三子图像块进行图像相似度处理，进一步得到具有更多图像特征的多个第三子图像块，并根据多个第二子图像块和多个第三子图像块生成目标图像。由于获取到的第二子图像块和第三子图像块携带丰富的图像特征，故使得合成的目标图像能携带更多的图像特征，从而有利于增加生成图像的生成效果和画质。

在一个可能的示例中，深度神经网络模型可以包括生成对抗网络gan模型，该生成对抗网络gan模型包括生成模型g和判别模型d，其中，生成模型g包括第一输入层、l层第一隐藏层和第一输出层，l层可以为多个隐藏层，l层第一隐藏层中每层卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层卷积层的步长为s1，l层第一隐藏层中每层卷积层的激活函数包括reul函数，l层第一隐藏层中每层池化层的滤波器尺寸为f1*f1，l层第一隐藏层中每层池化层的步长为s2，l层第一隐藏层中每层反卷积层的卷积核尺寸为k1*k1个像素，l层第一隐藏层中每层反卷积层的步长为1/s1，其中，k1取值为[3,9]的整数，s1取值为[1,4]的整数，f1取值为[2,4]的整数，s2取值为1或2，l为大于1的整数；判别模型d包括第二输入层、k层第二隐藏层和第二输出层，k层第二隐藏层中每层卷积层的卷积核尺寸为k2*k2个像素，k层第二隐藏层中每层卷积层的步长为s3，k层第二隐藏层中每层卷积层的激活函数包括leakyreul函数，其中，k2取值为3或4，s3取值为1或2，k为大于1的整数。

在一个可能的示例中，生成对抗玩网络gan模型的训练过程可以包括以下步骤：从预设图像数据库中获取第一图像和第二图像，第二图像包括第一图像增加图像特征后的图像；对第一图像和第二图像进行图像分块处理，得到第一图像的m个第四子图像块和第二图像的m个第五子图像块；根据m个第四子图像块和m个第五子图像块确定gan模型的目标函数；根据预设图像数据库和目标函数交替迭代训练生成模型g和判别模型d以获得训练完成的gan模型。

在一个可能的示例中，在根据m第四子图像块和m个第五子图像块确定生成对抗网络gan模型的目标函数方面，该一个或多个程序721中的指令具体用于执行以下操作：将m个第四子图像块和m个第五子图像块输入判决网络d，得到m个第一概率值；求解m个第一概率值的平均值，得到第一平均值；将m个第四子图像块输入生成模型g，得到m个第六子图像块；将m个第六子图像块和m个第四子图像块输入判别模型d，得到m个第二概率值；求解m个第二概率值的平均值，得到第二平均值；求解m个第五子图像块与m个第六子图像块之差的l1范数值的平均值，得到第三平均值；在第三平均值等于0的条件下，优化第一平均值和第二平均值，得到目标函数。

在一个可能的示例中，在从预设图像数据库中获得与m个第二子图像块相似度最高的m个第三子图像块方面，该一个或多个程序721中的指令具体用于执行以下操作：从预设图像数据库中选取n个第三图像，n为大于1的整数；对n个第三图像块进行图像分块处理，得到m*n个第七子图像块；计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值；从m*m*n个相似度值中选取大于预设阈值的子图像块以作为m个第三子图像块中的子图像块。

在一个可能的示例中，在计算m个第二子图像块与m*n个第七子图像块的图像相似度以获得m*m*n个相似度值方面，该一个或多个程序721中的指令具体用于执行以下操作：提取m个第二子图像块的特征向量和m*n个第七子图像块的特征向量；根据预设相似系数计算公式获取m*m*n个相似度值。

本申请实施例还提供一种计算机存储介质，其中，该计算机存储介质存储用于电子数据交换的计算机程序，该计算机程序使得计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤，上述计算机包括服务器。

本申请实施例还提供一种计算机程序产品，上述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质，上述计算机程序可操作来使计算机执行如上述方法实施例中记载的任一方法的部分或全部步骤。该计算机程序产品可以为一个软件安装包，上述计算机包括服务器。

需要说明的是，对于上述的各方法实施例，为了简单描述，将其都表述为一系列的动作组合。本领域技术人员应该知悉，本申请不受所描述的动作顺序的限制，因为本申请实施例中的某些步骤可以采用其他顺序或者同时进行。此外，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，本领域技术人员应该知悉，所描述的装置可以通过其它的方式实现。可以理解的是，上述描述的装置实施例仅仅是示意性的。例如，上述单元的划分只是一种逻辑功能划分，实际中可以有另外的划分方式。也就是说，多个单元或组件可以结合或集成到另一个软件，以及一些特征可以忽略或不执行。此外，所显示或讨论的相互之间的耦合、直接耦合或通信连接等方式可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电性或其它的形式。

上述作为分离部件说明的单元可以是物理上分开的，也可以不是。此外，上述作为单元显示的部件可以是物理单元，也可以不是，即可以位于一个网络单元上，也可以分布到多个网络单元上。因此，上述各个实施例可以根据实际的需要选择其中的部分或者全部单元来实现。

另外，上述各个实施例中的各个功能单元可以集成在一个处理单元中，也可以存在不同的物理单元中，也可以两个或两个以上的功能单元集成在一个物理单元中。上述单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

上述单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储器中。可以理解的是，本申请的技术方案(该技术方案对现有技术做出贡献的部分或者该技术方案的全部或部分)可以通过计算机软件产品的形式体现。该计算机软件产品存储在一个存储器中，包括若干指令用以使得计算机设备(个人计算机、服务器或者网络设备等)执行本申请实施例的全部或部分步骤。此外，上述存储器包括u盘、只读存储器(read-onlymemory，rom)、随机存取存储器(randomaccessmemory，ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本领域技术人员应该知悉，本申请实施例的全部或部分步骤可以通过程序来指令相关的硬件来完成，该程序可以存储于存储器中，该存储器可以包括闪存盘、rom、ram、磁盘或光盘等。

以上对本申请实施例进行了详细介绍，本申请实施例中的说明只是用于帮助理解本申请的方法及其核心思想。本领域技术人员应该知悉，本申请实施例在具体实施方式和应用范围上均会有改变之处，至此，本说明书内容不应理解为对本申请的限制。

技术特征：

1.一种基于深度神经网络模型的图像生成方法，其特征在于，包括：

获取待处理的原始图像和预设图像数据库，所述原始图像用于生成目标图像，所述目标图像比所述原始图像具有更多图像特征；

将所述原始图像进行图像分块处理，得到所述原始图像的m个第一子图像块，所述m为大于1的整数；

从所述预设图像数据库中获得与所述m个第二子图像块相似度最高的m个第三子图像块，所述m个第二子图像块与所述m个第三子图像块一一对应；

根据所述m个第二子图像块和所述m个第三子图像块生成所述目标图像。

2.根据权利要求1所述的方法，其特征在于，所述深度神经网络模型包括生成对抗网络gan模型，所述生成对抗网络gan模型包括生成模型g和判别模型d，其中，

所述生成模型g包括第一输入层、l层第一隐藏层和第一输出层，所述l层第一隐藏层中每层卷积层的卷积核尺寸为k1*k1个像素，所述l层第一隐藏层中每层卷积层的步长为s1，所述l层第一隐藏层中每层卷积层的激活函数包括修正线性单元reul函数，所述l层第一隐藏层中每层池化层的滤波器尺寸为f1*f1，所述l层第一隐藏层中每层池化层的步长为s2，所述l层第一隐藏层中每层反卷积层的卷积核尺寸为k1*k1个像素，所述l层第一隐藏层中每层反卷积层的步长为1/s1，其中，所述k1取值为[3,9]的整数，所述s1取值为[1,4]的整数，所述f1取值为[2,4]的整数，所述s2取值为1或2，所述l为大于1的整数；

所述判别模型d包括第二输入层、k层第二隐藏层和第二输出层，所述k层第二隐藏层中每层卷积层的卷积核尺寸为k2*k2个像素，所述k层第二隐藏层中每层卷积层的步长为s3，所述k层第二隐藏层中每层卷积层的激活函数包括渗漏修正线性函数单元leakyreul函数，其中，所述k2取值为3或4，所述s3取值为1或2，所述k为大于1的整数。

3.根据权利要求2所述的方法，其特征在于，所述生成对抗网络gan模型的训练过程包括以下步骤：

从所述预设图像数据库中获取第一图像和第二图像，所述第二图像包括所述第一图像增加图像特征后的图像；

对所述第一图像和所述第二图像进行图像分块处理，得到所述第一图像的m个第四子图像块和所述第二图像的m个第五子图像块；

根据所述m个第四子图像块和所述m个第五子图像块确定所述生成对抗网络gan模型的目标函数；

根据所述预设图像数据库和所述目标函数交替训练所述生成模型g和所述判别模型d以获得训练完成的生成对抗网络gan模型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述m个第四子图像块和所述m个第五子图像块确定所述生成对抗网络gan模型的目标函数，包括：

将所述m个第四子图像块和所述m个第五子图像块输入所述判决网络d，得到m个第一概率值；

求解所述m个第一概率值的平均值，得到第一平均值；

将所述m个第四子图像块输入所述生成模型g，得到m个第六子图像块；

将所述m个第六子图像块和所述m个第四子图像块输入所述判别模型d，得到m个第二概率值；

求解所述m个第二概率值的平均值，得到第二平均值；

求解所述m个第五子图像块与所述m个第六子图像块之差的范数值的平均值，得到第三平均值；

在所述第三平均值等于0的条件下，优化所述第一平均值和所述第二平均值，得到所述目标函数。

5.根据权利要求1所述的方法，其特征在于，所述从所述预设图像数据库中获得与所述m个第二子图像块相似度最高的m个第三子图像块，包括：

从所述预设图像数据库中选取n个第三图像，所述n为大于1的整数；

对所述n个第三图像块进行图像分块处理，得到m*n个第七子图像块；

计算所述m个第二子图像块与所述m*n个第七子图像块的图像相似度以获得m*m*n个相似度值；

从所述m*m*n个相似度值中选取大于预设阈值的子图像块以作为所述m个第三子图像块中的子图像块。

6.一种基于深度神经网络的图像生成装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述深度神经网络模型包括生成对抗网络gan模型，所述生成对抗网络gan模型包括生成模型g和判别模型d，其中，

所述生成模型g包括第一输入层、l层第一隐藏层和第一输出层，所述l层第一隐藏层中每层卷积层的卷积核尺寸为k1*k1个像素，所述l层第一隐藏层中每层卷积层的步长为s1，所述l层第一隐藏层中每层卷积层的激活函数包括reul函数，所述l层第一隐藏层中每层池化层的滤波器尺寸为f1*f1，所述l层第一隐藏层中每层池化层的步长为s2，所述l层第一隐藏层中每层反卷积层的卷积核尺寸为k1*k1个像素，所述l层第一隐藏层中每层反卷积层的步长为1/s1，其中，所述k1取值为[3,9]的整数，所述s1取值为[1,4]的整数，所述f1取值为[2,4]的整数，所述s2取值为1或2，所述l为大于1的整数；

所述判别模型d包括第二输入层、k层第二隐藏层和第二输出层，所述k层第二隐藏层中每层卷积层的卷积核尺寸为k2*k2个像素，所述k层第二隐藏层中每层卷积层的步长为s3，所述k层第二隐藏层中每层卷积层的激活函数包括leakyreul函数，其中，所述k2取值为3或4，所述s3取值为1或2，所述k为大于1的整数。

8.根据权利要求6所述的装置，其特征在于，所述从所述预设图像数据库中获得与所述m个第二子图像块相似度最高的m个第三子图像块，所述处理单元用于：

从所述预设图像数据库中选取n个第三图像，所述n为大于1的整数；

对所述n个第三图像块进行图像分块处理，得到m*n个第七子图像块；

计算所述m个第二子图像块与所述m*n个第七子图像块的图像相似度以获得m*m*n个相似度值；

从所述m*m*n个相似度值中选取大于预设阈值的子图像块以作为所述m个第三子图像块中的子图像块。

9.一种电子设备，其特征在于，包括应用处理器和存储器，所述存储器存储有至少一条指令，所述至少一条指令用于被所述应用处理器执行以实现权利要求1-5任一项方法的步骤。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-5任一项方法的步骤。

技术总结
本申请实施例公开了一种基于深度神经网络模型的图像生成方法及装置，包括：获取待处理的原始图像和预设图像数据库，原始图像用于生成目标图像，目标图像比原始图像具有更多图像特征；将原始图像进行图像分块处理，得到原始图像的M个第一子图像块，M为大于1的整数；将M个第一子图像块输入预先训练的深度神经网络模型，得到M个第二子图像块，深度神经网络模型由预设图像数据库训练得到；从预设图像数据库中获得与M个第二子图像块相似度最高的M个第三子图像块；根据M个第二子图像块和M个第三子图像块生成目标图像。本申请实施例不仅有利于提高每个像素处理的效率，还有利于增加生成图像的生成效果和画质。

技术研发人员：程冰;魏新明
受保护的技术使用者：深圳云天励飞技术有限公司
技术研发日：2019.12.31
技术公布日：2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-10281.html

专利

最新回复(0)