跨域图像扩散模型的制作方法

专利2025-11-16  5



背景技术:

1、本说明书涉及使用神经网络处理图像。

2、神经网络是采用一个或多个非线性单元层来预测所接收的输入的输出的机器学习模型。除了输出层之外,一些神经网络还包括一个或多个隐藏层。每个隐藏层的输出用作到网络中的下一层(即,下一隐藏层或输出层)的输入。网络的每个层根据一组相应的参数的当前值从所接收的输入生成输出。

3、一些神经网络是循环神经网络。循环神经网络是接收输入序列并且从输入序列生成输出序列的神经网络。具体地,循环神经网络可在计算当前时间步处的输出时使用来自先前时间步的网络的内部状态中的一些或全部。


技术实现思路

1、本说明书描述一种在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统,所述系统通过使用扩散模型和潜在空间特征预测器来执行跨域图像转换,即,将源域中的输入图像转换成目标域中的输出图像。

2、在一些实现方式中,所述系统可将图像的风格转变为其他期望风格,同时基本上保留图像中所呈现的内容。例如,可通过使用所述系统将素描图像(例如,徒手素描或手绘素描)转换为照片,但素描图像中对象的类型以及形状基本上保持相同。因此,所述系统可生成手绘素描或粗略绘画中所描绘的对象的高保真图像,或所述系统可增强源图像。

3、可实现本说明书中所描述的主题的特定实施例,以便实现以下优点中的一个或多个。

4、如本说明书中所描述的空间引导扩散框架可提供跨域图像转换,其中可通过迭代扩散过程将示出源对象的源图像转换成示出同一源对象(或与源对象处于同一类或类别中的对象)但具有不同风格或域的目标图像。所描述的框架提供了灵活性和普遍性,这允许跨域图像转换过程在域外源图像上表现良好,所述域外源图像甚至包括徒手素描风格绘画。除了提供一种稳健且富有表现力的方式来生成可遵循不同风格或域的源图像的引导的图像之外,所描述的框架还可应用于许多其他图像增强任务,诸如显著性引导的图像修补和层位控制。

5、有利地,如本文所讨论的跨域图像转换过程依赖取决于源图像与由扩散模型在迭代扩散过程期间生成的目标图像的中间表示之间的空间特征相似度的引导。具体地,所述引导由参数高效的微分引导图预测器(也称为潜在空间特征预测器)提供,所述参数高效的微分引导图预测器可使用不超过几千个图像(这比训练常见的图像到图像转换模型所需的量少几个数量级)进行训练。

6、此外,与用于引导扩散模型的先前方法不同,所描述的框架不需要单独训练专用模型或专门编码器来将源图像映射到扩散模型的潜在空间中,以便从不同域的源图像计算引导。因此,相对于这些常规方法,所描述的框架的实现需要减少的计算资源消耗,例如减少的处理器周期、减少的内存、减少的功耗。

7、在以下附图和说明书中阐述了本说明书的主题的一个或多个实施例的细节。本主题的其他特征、方面和优点将根据说明书、附图和权利要求书而变得显而易见。



技术特征:

1.一种用于使用扩散模型生成目标域中的输出图像的计算机实现的方法,其中所述方法包括:

2.如权利要求1所述的方法,其中所述潜在空间特征预测器包括多层感知器mlp神经网络,所述mlp神经网络包括具有relu激活的多个全连接层。

3.如权利要求1至2中任一项所述的方法,其中所述源域是素描图像域,并且所述目标域是摄影图像域。

4.如权利要求1至3中任一项所述的方法,其中使用所述潜在空间特征预测器来处理由所述扩散模型生成的所述一个或多个中间输出包括:

5.如权利要求1至4中任一项所述的方法,其中确定所述当前空间特征图相对于所述源域中的所述输入图像的所述目标空间特征图的所述相似度度量包括:

6.如权利要求1至5中任一项所述的方法,其中基于所述相似度度量来生成针对所述引导反向扩散时间步的所述输出图像的所述经修改的更新潜在表示包括:

7.如权利要求6所述的方法,其中从所述相似度函数的所述梯度确定对所述更新潜在表示的所述一个或多个更新包括:

8.如权利要求1至7中任一项所述的方法,其中所述扩散模型输入进一步包括针对所述引导反向扩散时间步的噪声水平。

9.如权利要求1至8中任一项所述的方法,所述生成包括,在多个无引导反向扩散时间步中的每一个处:

10.如权利要求1至9中任一项所述的方法,其中所述空间特征图包括以下中的一者或多者:边缘特征图、显著性特征图或语义分割特征图。

11.如权利要求10所述的方法,其中对于不同的空间特征图,在所述输出图像的所述生成期间引导反向扩散时间步的数量不同。

12.如权利要求1至11中任一项所述的方法,其中获得针对所述引导反向扩散时间步的所述输出图像的所述当前潜在表示包括:

13.如权利要求1至12中任一项所述的方法,其中生成针对所述引导反向扩散时间步的所述输出图像的所述更新潜在表示包括:

14.如任一前述权利要求所述的方法,进一步包括:连同经预训练的扩散模型一起训练所述潜在空间特征预测器以优化多个训练元组上的自监督训练目标函数,所述多个训练元组各自包括(i)图像、(ii)所述图像的空间特征图和(iii)描述所述图像的文本提示。

15.如权利要求14所述的方法,其中训练所述潜在空间特征预测器不更新所述经预训练的扩散模型的参数值。

16.如任一前述权利要求所述的方法,进一步包括:

17.如权利要求16所述的方法,其中所述输入文本进一步指定所述目标域。

18.一种系统,所述系统包括一个或多个计算机和一个或多个存储装置,所述一个或多个存储装置存储指令,所述指令在由所述一个或多个计算机执行时能够操作以使所述一个或多个计算机执行如任一前述权利要求所述的相应方法的操作。

19.一种编码有指令的计算机存储介质,所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行如权利要求1至17中任一项所述的相应方法的操作。


技术总结
公开了用于使用扩散模型生成目标域中的输出图像的方法、系统和设备,包括在计算机存储介质上编码的计算机程序。在一个方面,一种方法包括任选地接收指定特定对象类的输入文本;接收描绘属于特定对象类的对象的源域中的输入图像;以及通过使用扩散模型和潜在空间特征预测器来生成描绘属于特定对象类的对象的目标域中的输出图像。

技术研发人员:安德烈·沃伊诺夫,克菲尔·阿贝尔曼,达尼埃尔·科恩-沃尔
受保护的技术使用者:谷歌有限责任公司
技术研发日:
技术公布日:2024/7/25
转载请注明原文地址: https://bbs.8miu.com/read-435380.html

最新回复(0)