一种基于生成对抗网络的文本到图像生成方法与流程

专利2022-06-28  93


本发明涉及图像生成领域,特别涉及一种基于生成对抗网络的文本到图像生成方法。



背景技术:

基于文本描述生成高分辨率和逼真的图像是一项非常有意义的研究。在工业上,它不仅为计算机视觉领域的相关研究提供了对更深层次的视觉理解的帮助,而且具有广泛的现实应用。在学术界,它已成为近年来计算机视觉领域最受欢迎的研究方向之一,并取得了显著成果。递归神经网络(rnn)和生成对抗网络(gan)经常被结合起来,用来基于自然语言描述生成真实的图像。这些方法已经能够在某些领域产生令人满意的结果,例如创建花朵或鸟类的精美图像。

原始gan模型包含一个生成器和一个判别器。生成器经过优化,可以产生向真实数据分布的样本,从而达到欺骗判别器的目的。训练后的判别器可以将真实数据分布样本与生成器生成的虚假样本分开。生成器和判别器在相互博弈中达到最优,使生成的结果越来越好。

尽管已经取得了令人印象深刻的结果,但是在训练条件生成对抗网络时,仍然面临许多挑战。大多数模型倾向于只学习一种数据分布模式,这种模式易于崩溃,也就是说,生成器每次都会生成相同的图像。尽管图像清晰,但没有变化。另一个主要挑战是训练过程的不稳定以及训练过程中获得的损失不会收敛。此外,大多数现有的图像生成方法都将关注的重点放在全局句子向量上,有用的细粒度图像特征和单词级文本信息都被忽视了。不仅如此,在评估生成的图像时,不认为图像的每个子区域对整个图像有着不同的影响。这样的方法一方面将阻碍高质量图像的生成,另一方面也会减少所生成图像的多样性。当需要生成的场景和对象更加复杂时,此问题将变得更加严重。



技术实现要素:

本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于生成对抗网络的文本到图像生成方法,能够达到既满足生成图像的内容与文本描述的语义相一致,又使生成图像拥有更加优化的图像细节的目的,有效提高生成图像的分辨率,增加图像的多样性。

本发明的目的通过以下的技术方案实现:

一种基于生成对抗网络的文本到图像生成方法,包括以下步骤:

1)向网络中输入一段文本描述,根据文本描述生成单词特征矩阵和句子特征向量;

2)向句子特征向量添加条件和噪声向量,获得图像特征矩阵;

3)计算图像特征的单词上下文矩阵;

4)利用图像特征矩阵和单词上下文矩阵在生成对抗网络中进行计算,分三个阶段逐步生成越来越高分辨率的图像;

5)根据生成的图像获取本地图像特征矩阵;

6)评估生成图像和文本描述的相似度,优化下一次图像生成。

步骤1)中,所述文本描述是对一个以上对象的属性进行的描述,通过一个双向长短期记忆网络,将文本描述中每个单词相对应的两个隐藏状态串联起来,以表示单词的语义;所述属性包括种类、大小、数量、形状、位置;所述两个隐藏状态,最后一个隐藏状态所连接得到的是全局句子向量,其余隐藏状态串联得到的是单词特征矩阵。

所述步骤2),具体如下:

2.1)向句子特征向量添加条件形成条件增强,以增强训练数据和避免过度拟合;

2.2)对条件增强拼接从标准正态分布采样的噪声向量,获得图像特征矩阵。

步骤3)中,所述图像特征的单词上下文矩阵是利用步骤2)得到的图像特征矩阵和步骤1)得到的单词特征矩阵计算得到,所述图像特征的单词上下文矩阵的每一列表示与图像的一个子区域相关联的单词上下文向量。

所述图像特征的单词上下文矩阵是利用步骤2)得到的图像特征矩阵和步骤1)得到的单词特征矩阵计算得到,具体为:

首先通过添加新的感知器层将单词特征转换为图像特征的公共语义空间;

然后计算图像的第j个子区域对应第i个单词的权重:其通过第j列图像特征向量(即图像特征矩阵的一个列向量)和第i列单词特征向量(即单词特征矩阵的一个列向量)乘积的归一化计算得到;

之后通过计算每个单词及与其对应的图像子区域的权重的乘积和,得到一个图像子区域的单词上下文向量;单词特征矩阵的每一个列向量对应着一个图像子区域的单词上下文向量。

所述步骤4),具体如下:

4.1)将图像特征矩阵输入第一层生成对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出64*64分辨率的图像;

4.2)将一次优化后的图像特征矩阵和单词上下文矩阵输入第二层生成对抗网络中,得到二次优化后的图像特征矩阵,对其进行3x3卷积输出128*128分辨率的图像;

4.3)对图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域,再利用步骤3)更新单词上下文矩阵;

4.4)将二次优化后的图像特征矩阵和更新后的单词上下文矩阵输入第三层生成对抗网络中,得到最终的图像特征矩阵,对其进行3x3卷积输出256*256分辨率的图像。

步骤5)中,所述根据生成的图像获取本地图像特征矩阵,是通过图像编码器完成的;图像编码器是利用在imagenet数据集上预先训练好的inception-v3模型,图像编码器本质上是一个卷积神经网络。

步骤6)中,所述评估生成图像和文本描述的相似度的具体过程如下:

6.1)对本地图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域;

6.2)计算优化后的本地图像特征矩阵和单词特征矩阵的余弦相似性,用来评估文本描述与生成图像的相似度,以辅助生成对抗网络中生成器的优化。

本发明与现有技术相比,具有如下优点和有益效果:

本发明采用的注意力机制,其中心思想是对多个部分的信息进行区分,为不同部分添加不同程度的注意力,以重视那些需要被重点关注到的信息。基于此,本发明提出了一种基于生成对抗网络的文本到图像生成方法,以更加关注生成图像的重点区域,从而通过多个阶段产生细节越来越丰富的图像。

传统的文本到图像生成的方法中,在训练条件生成对抗网络时,大多数现有的方法都将重点放在全局句子向量上,有用的具有细粒度细节的图像特征和单词级的文本信息都被忽略。同时,在评估生成图像的质量时,忽视了图像的每个子区域是对整个图像有着不同影响的。这些方法可能导致图像中重要程度不高的子区域(例如图像的背景区域)被过多地关注,且一些需要不断优化、精细的细粒度细节被忽视。与之相比,本发明提供了一种添加了图像注意力机制的生成对抗网络,通过在生成图像时,专注于优化图像的重要子区域,即更加关注图像的重要子区域和内容丰富的子区域的生成效果,以产生更高分辨率、细节更加丰富的图像。

附图说明

图1是本发明所述一种基于生成对抗网络的文本到图像生成方法的架构图。

图2是本发明所述一种基于生成对抗网络的文本到图像生成方法的流程图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

如图1、2,一种基于生成对抗网络的文本到图像生成方法,包括以下步骤:

1)向网络中输入一段有意义的文本描述,该文本描述可以是对一个或者多个实体对象的种类、大小、数量、颜色、形状、位置等具有代表性的属性进行的描述。通过使用一个双向长短期记忆网络(bi-directionallstm),将文本描述中每个单词相对应的两个隐藏状态串联起来,以表示单词的语义。最后一个隐藏状态所连接得到的是全局句子向量,其余隐藏状态串联得到的是单词特征矩阵。

2)获取图像特征矩阵,具体过程如下:

2.1)向得到的句子特征向量添加条件形成条件增强,以增强训练数据和避免过度拟合;

2.2)将条件增强与从标准正态分布采样的噪声向量进行拼接,得到图像特征矩阵。

3)利用步骤2)得到的图像特征矩阵和步骤1)得到的单词特征矩阵计算得到图像特征的单词上下文矩阵,该矩阵的每一列表示与图像的一个子区域相关联的单词上下文向量。

4)利用三层生成对抗网络计算及优化图像特征矩阵,以生成图像。每一层网络的具体工作如下:

4.1)将图像特征矩阵输入第一层生成对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出64*64分辨率的图像;

4.2)将一次优化后的图像特征矩阵和单词上下文矩阵输入第二层生成对抗网络中,得到二次优化后的图像特征矩阵,对其进行3x3卷积输出128*128分辨率的图像;

4.3)对图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域,再利用步骤3更新单词上下文矩阵;

4.4)将二次优化后的图像特征矩阵和更新后的单词上下文矩阵输入第三层生成对抗网络中,得到最终的图像特征矩阵,对其进行3x3卷积输出256*256分辨率的图像。

5)利用在imagenet数据集上预先训练好的inception-v3模型作为图像编码器,将生成的高分辨率图像映射到本地图像特征矩阵。该图像编码器本质上是一个卷积神经网络。

6)评估生成图像和文本描述的相似度,具体过程如下:

6.1)对本地图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域;

6.2)计算优化后的本地图像特征矩阵和单词特征矩阵的余弦相似性,用来评估文本描述与生成图像的相似度,以辅助生成对抗网络中生成器的优化。

综上所述,在采用上述方案后,本发明为文本到图像生成的过程提供了一种新的方法,利用添加了注意力机制的生成对抗网络生成图像,不仅保证了生成图像的内容与文本描述的语义相一致,还可以保证生成图像拥有更加优化的图像细节,能够有效提高生成图像的分辨率,增加生成图像的多样性。

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。


技术特征:

1.一种基于生成对抗网络的文本到图像生成方法,其特征在于,包括以下步骤:

1)向网络中输入一段文本描述,根据文本描述生成单词特征矩阵和句子特征向量;

2)向句子特征向量添加条件和噪声向量,获得图像特征矩阵;

3)计算图像特征的单词上下文矩阵;

4)利用图像特征矩阵和单词上下文矩阵在生成对抗网络中进行计算,分三个阶段逐步生成越来越高分辨率的图像;

5)根据生成的图像获取本地图像特征矩阵;

6)评估生成图像和文本描述的相似度,优化下一次图像生成。

2.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,步骤1)中,所述文本描述是对一个以上对象的属性进行的描述,通过一个双向长短期记忆网络,将文本描述中每个单词相对应的两个隐藏状态串联起来,以表示单词的语义;所述属性包括种类、大小、数量、形状、位置;所述两个隐藏状态,最后一个隐藏状态所连接得到的是全局句子向量,其余隐藏状态串联得到的是单词特征矩阵。

3.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,所述步骤2),具体如下:

2.1)向句子特征向量添加条件形成条件增强,以增强训练数据和避免过度拟合;

2.2)对条件增强拼接从标准正态分布采样的噪声向量,获得图像特征矩阵。

4.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,步骤3)中,所述图像特征的单词上下文矩阵是利用步骤2)得到的图像特征矩阵和步骤1)得到的单词特征矩阵计算得到,所述图像特征的单词上下文矩阵的每一列表示与图像的一个子区域相关联的单词上下文向量。

5.根据权利要求4所述基于生成对抗网络的文本到图像生成方法,其特征在于,所述图像特征的单词上下文矩阵是利用步骤2)得到的图像特征矩阵和步骤1)得到的单词特征矩阵计算得到,具体为:

首先通过添加新的感知器层将单词特征转换为图像特征的公共语义空间;

然后计算图像的第j个子区域对应第i个单词的权重:其通过第j列图像特征向量和第i列单词特征向量乘积的归一化计算得到;

之后通过计算每个单词及与其对应的图像子区域的权重的乘积和,得到一个图像子区域的单词上下文向量;单词特征矩阵的每一个列向量对应着一个图像子区域的单词上下文向量。

6.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,所述步骤4),具体如下:

4.1)将图像特征矩阵输入第一层生成对抗网络中,得到一次优化后的图像特征矩阵,对其进行3x3卷积输出64*64分辨率的图像;

4.2)将一次优化后的图像特征矩阵和单词上下文矩阵输入第二层生成对抗网络中,得到二次优化后的图像特征矩阵,对其进行3x3卷积输出128*128分辨率的图像;

4.3)对图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域,再利用步骤3)更新单词上下文矩阵;

4.4)将二次优化后的图像特征矩阵和更新后的单词上下文矩阵输入第三层生成对抗网络中,得到最终的图像特征矩阵,对其进行3x3卷积输出256*256分辨率的图像。

7.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,步骤5)中,所述根据生成的图像获取本地图像特征矩阵,是通过图像编码器完成的;图像编码器是利用在imagenet数据集上预先训练好的inception-v3模型,图像编码器本质上是一个卷积神经网络。

8.根据权利要求1所述基于生成对抗网络的文本到图像生成方法,其特征在于,步骤6)中,所述评估生成图像和文本描述的相似度的具体过程如下:

6.1)对本地图像特征矩阵添加注意力机制,加强图像的重点子区域,削弱图像的不重要区域;

6.2)计算优化后的本地图像特征矩阵和单词特征矩阵的余弦相似性,用来评估文本描述与生成图像的相似度,以辅助生成对抗网络中生成器的优化。

技术总结
本发明公开了一种基于生成对抗网络的文本到图像生成方法,包括以下步骤:1)向网络中输入一段文本描述,根据文本描述生成单词特征矩阵和句子特征向量;2)向句子特征向量添加条件和噪声向量,获得图像特征矩阵;3)计算图像特征的单词上下文矩阵;4)利用图像特征矩阵和单词上下文矩阵在生成对抗网络中进行计算,分三个阶段逐步生成越来越高分辨率的图像;5)根据生成的图像获取本地图像特征矩阵;6)评估生成图像和文本描述的相似度,优化下一次图像生成。本发明的图像生成方法,不仅可以保证生成图像的内容与文本描述的语义相一致,还可以保证生成图像拥有更加优化的图像细节,能够有效提高生成图像的分辨率,增加生成图像的多样性。

技术研发人员:田安捷;陆璐
受保护的技术使用者:华南理工大学
技术研发日:2020.01.16
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-9487.html

最新回复(0)