本公开涉及图片处理技术领域,特别涉及一种生成广告图片的方法和系统。
背景技术:
随着电子商务平台用户对商品品质的关注度不断提升,为了提供更好的用户体验以吸引更多用户来访,促进平台交易量提升,电商平台页面越来越多地使用各类精美的商品图文来吸引用户。而令顾客感兴趣的商品日新月异,电商平台页面自然每天都要更新展示在用户眼前的数以万计的广告商品图文,这其中涉及到大量图片设计工作。如果让设计师来完成这样庞大的工作量,耗费的精力之巨大是不现实的。并且人工的效率也跟不上需求更新的速度。因此,在相关技术中,可以按照预定规则自动生成图片。
技术实现要素:
本公开的发明人发现,相关技术中的技术方案由于规则本身的不灵活性和局限性,对同类商品产生的是几乎相同的图片。这与顾客想要看到不同的新颖的商品图片需求是相悖的。并且每位顾客看到图片都是一样的,必然有一部分的顾客会不喜欢,没有考虑到不同顾客审美的差异。
鉴于此,本公开解决的一个技术问题是:提高一种生成广告图片的方法,可以按照用户喜欢的风格生成广告图片。
根据本公开实施例的一个方面,提供了一种生成广告图片的方法,包括:对商品的图片进行图片处理以获得所述商品的主体图片;根据用户行为日志获得与用户行为对应的图片风格;根据所述图片风格选择素材空间;从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材,其中,所述价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动,所述图片状态表示已选择的素材组合;和根据所选择的素材生成所述商品的广告图片。
在一些实施例中,从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材的步骤包括:从当前的素材空间选择在当前图片状态下使得所述价值函数的函数值最大的素材;将当前选择的素材加入到已选择的素材组合中以获得下一个图片状态;以及从下一个素材空间中选择在下一个图片状态下使得所述价值函数的函数值最大的素材。
在一些实施例中,在从多个素材空间选择素材之前,所述方法还包括:构造所述价值函数。
在一些实施例中,根据用户行为日志获得与用户行为对应的图片风格的步骤包括:利用风格生成模型根据用户行为日志预测得到与用户行为对应的图片风格;其中,在模型训练阶段,向所述风格生成模型输入已标注了图片风格的图片,所述风格生成模型计算得到对该图片的风格预测结果,并比较所述风格预测结果和风格真实结果以更新所述风格生成模型的参数。
在一些实施例中,在初始阶段未选择素材的情况下,所述当前已选择的素材组合的状态为0向量,所述价值函数的初始值为0。
在一些实施例中,所述素材空间包括:修饰图案、布局方式、颜色组合和背景质地。
在一些实施例中,所述用户行为日志包括用户浏览、点击、购买或收藏的商品图片。
在一些实施例中所述方法还包括:响应于用户对所述广告图片的反馈操作,利用深度确定性策略梯度算法更新所述价值函数。
在一些实施例中,所述方法还包括:收集用户点击过的图片以更新所述用户喜欢的图片风格。
根据本公开实施例的另一个方面,提供了一种生成广告图片的系统,包括:图片处理单元,用于对商品的图片进行图片处理以获得所述商品的主体图片;风格获取单元,用于根据用户行为日志获得与用户行为对应的图片风格;素材空间选择单元,用于根据所述图片风格选择素材空间;素材选择单元,用于从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材,其中,所述价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动,所述图片状态表示已选择的素材组合;以及广告图片生成单元,用于根据所选择的素材生成所述商品的广告图片。
在一些实施例中,所述素材选择单元用于从当前的素材空间选择在当前图片状态下使得所述价值函数的函数值最大的素材;将当前选择的素材加入到已选择的素材组合中以获得下一个图片状态;以及从下一个素材空间中选择在下一个图片状态下使得所述价值函数的函数值最大的素材。
在一些实施例中,所述系统还包括:函数构造单元,用于构造所述价值函数。
在一些实施例中,所述风格获取单元用于利用风格生成模型根据用户行为日志预测得到与用户行为对应的图片风格;其中,在模型训练阶段,向所述风格生成模型输入已标注了图片风格的图片,所述风格生成模型计算得到对该图片的风格预测结果,并比较所述风格预测结果和风格真实结果以更新所述风格生成模型的参数。
在一些实施例中,在初始阶段未选择素材的情况下,所述当前已选择的素材组合的状态为0向量,所述价值函数的初始值为0。
在一些实施例中,所述素材空间包括:修饰图案、布局方式、颜色组合和背景质地。
在一些实施例中,所述用户行为日志包括用户浏览、点击、购买或收藏的商品图片。
在一些实施例中,所述系统还包括:更新单元,用于响应于用户对所述广告图片的反馈操作,利用深度确定性策略梯度算法更新所述价值函数。
在一些实施例中,所述风格获取单元还用于收集用户点击过的图片以更新所述用户喜欢的图片风格。
根据本公开实施例的另一个方面,提供了一种生成广告图片的系统,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如前所述的方法。
根据本公开实施例的另一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如前所述的方法的步骤。
在上述方法中,对商品的图片进行图片处理以获得该商品的主体图片。根据用户行为日志获得与用户行为对应的图片风格。根据该图片风格选择素材空间。从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材。该价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动。该图片状态表示已选择的素材组合。根据所选择的素材生成商品的广告图片。该方法可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
通过以下参照附图对本公开的示例性实施例的详细描述,本公开的其它特征及其优点将会变得清楚。
附图说明
构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本公开,其中:
图1是示出根据本公开一些实施例的生成广告图片的方法的流程图;
图2是示出根据本公开另一些实施例的生成广告图片的方法的流程图;
图3是示出根据本公开一些实施例的深度确定性策略梯度算法的流程图;
图4是示意性地示出根据本公开一些实施例的生成广告图片的系统的结构图;
图5是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图;
图6是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图;
图7是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图;
图8是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图。
具体实施方式
现在将参照附图来详细描述本公开的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本公开的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本公开及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1是示出根据本公开一些实施例的生成广告图片的方法的流程图。如图1所示,该方法包括步骤s102~s110。
在步骤s102,对商品的图片进行图片处理以获得该商品的主体图片。
例如,可以使用adaboost等图像处理方法对待推荐商品图片进行主体抠图,从而得到该商品的主体图片。
在步骤s104,根据用户行为日志获得与用户行为对应的图片风格。
需要说明的是,这里所述的“用户”可以是单个用户,也可以是群体用户。图片风格是指图片所属的风格类型。例如,图片风格可以包括在图片中所涉及到的修饰图案、布局方式、颜色组合和背景质地等。
在一些实施例中,用户行为日志可以包括用户浏览、点击、购买或收藏的商品图片。这里的浏览、点击、购买或收藏等即为用户行为。
此外,还需要说明的是,与用户行为对应的图片风格是指与用户行为的总体表现所对应的该用户所偏好的图片风格。例如,从用户的浏览、点击、购买或收藏等行为的总体表现得到用户更a类型的图片风格,则可以得到与该用户行为对应的图片风格即为a类型的图片风格。
在一些实施例中,该步骤s104可以包括:利用风格生成模型根据用户行为日志预测得到与用户行为对应的图片风格。例如,该风格生成模型是卷积神经网络模型。在模型训练阶段,向该风格生成模型输入已标注了图片风格的图片,该风格生成模型计算得到对该图片的风格预测结果,比较该风格预测结果和风格真实结果以更新该风格生成模型的参数。例如,可以通过反响传播误差技术来更新模型参数,从而使得该风格生成模型对图片风格的预测准确率越来越高。例如,风格预测结果是指该风格生成模型利用所使用的函数计算图片风格所得到的预测函数值,风格真实结果是指该图片的风格所对应的真实函数值。
在模型训练完后,向风格生成模型输入用户行为日志中用户点击过的广告图片,输出这些图片主要代表的风格,该风格作为用户喜好的风格。
在步骤s106,根据图片风格选择素材空间。
在一些实施例中,素材空间可以包括:修饰图案、布局方式、颜色组合和背景质地。例如,根据图片风格选择出修饰图案、布局方式、颜色组合和背景质地的素材空间。
例如,根据生成图片的四个阶段存在四个素材空间:修饰图案、布局方式、颜色组合和背景质地。这四个素材空间是从四个很大的素材库中筛选得出的子集合。每个素材在加入到素材库时都经过机器学习训练加上了风格标签。当确定一个风格时,用决策树对素材库里每个素材进行二分类得到素材空间。
在步骤s108,从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材。该价值函数的自变量可以包括图片状态和从对应的素材空间选择素材的行动。该图片状态表示已选择的素材组合。即,该价值函数可以包括两个自变量:状态和行动。该状态表示已经选择的素材组合的数学描述,该行动表示在当前阶段选择的素材。例如,可以依次从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材。
在一些实施例中,该步骤s108可以包括:从当前的素材空间选择在当前图片状态下使得价值函数的函数值最大的素材;将当前选择的素材加入到已选择的素材组合中以获得下一个图片状态;以及从下一个素材空间中选择在下一个图片状态下使得该价值函数的函数值最大的素材。这样直到从每个素材空间均选择出一个素材。
例如,可以将步骤s102得到的商品主体图片作为图片生成器的输入。构造能描述每个状态和选择素材的价值函数。在每一个阶段选取素材时可以选取令当前状态的价值函数值最大的素材。这样,一步一步在每个阶段根据图片生成策略在当前阶段素材空间中选择一个素材。
例如,可以用q(s,a)表示价值函数,s是状态(即已选择的素材组合的状态),a是从对应的素材空间选择某种素材的行动(例如,从当前素材空间选择素材的行动),q是在某个确定的状态s时进行选择某个素材这一行为a获得的累积价值。累积价值指的是从某个状态开始到来至终止状态的过程中,所有状态获得即时收益的加和。
例如,在策略π下的价值函数qπ(s,a)为:
qπ(s,a)=eπ[rt 1 γqπ(st 1,at 1)|st=s,at=a](1)
其中,q表示价值函数,s为状态,a为行动,rt 1为即时收益,π为策略。小写s表示确定的某种状态,小写a表示从素材空间选择某个素材的行动(即确定的某个行动)。所以qπ(s,a)的价值等于(s,a)发生的前提下,得到的累积收益的期望。qπ(s,a)中,s和a为确定已知的。
在一些实施例中,在初始阶段未选择素材的情况下,当前已选择的素材组合的状态为0向量,价值函数的初始值为0。
在步骤s110,根据所选择的素材生成商品的广告图片。例如,每次选好一个素材,按照该素材在图片所处的位置直接填充。在最后的素材选定时,图片即可生成。
至此,提供了根据本公开一些实施例的生成广告图片的方法。在该方法中,对商品的图片进行图片处理以获得该商品的主体图片。根据用户行为日志获得与用户行为对应的图片风格;根据该图片风格选择素材空间。从多个素材空间选择在相应的图片状态下使得所述价值函数的函数值最大的素材。该价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动,该图片状态表示已选择的素材组合。根据所选择的素材生成商品的广告图片。该方法可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
在一些实施例中,在步骤s108之前,所述方法还可以包括:构造上述价值函数。
在一些实施例中,所述方法还可以包括:响应于用户对广告图片的反馈操作,利用深度确定性策略梯度算法(deepdeterministicpolicygradient,简称为ddpg)更新价值函数。例如,在生成广告图片之后,可以在前端页面展示给用户,得到用户反馈操作。该用户反馈操作可以包括点击或不点击。然后根据ddpg算法利用用户反馈更新价值函数。后面将结合附图详细描述该ddpg算法。
在一些实施例中,所述方法还可以包括:收集用户点击过的图片以更新用户喜欢的图片风格。例如,收集用户点击过的图片重新输入到深度神经网络模型中产生用户喜欢的图片风格。这实现了对用户喜欢的图片风格的采集,方便生成用户喜欢的广告图片。
图2是示出根据本公开另一些实施例的生成广告图片的方法的流程图。如图2所示,该方法可以包括步骤s202~s214。例如,商品的广告图片可以包括:商品主体图片、修饰图案、布局方式、颜色组合和背景质地。
在步骤s202,对待推荐商品的图片进行主体抠图处理以获得该商品的主体图片。将该商品的主体图片作为图片生成器220的输入。
在步骤s204,根据用户行为日志获得与用户行为对应的图片风格。即,生成用户喜欢的图片风格。
在步骤s206,根据图片风格选择素材空间,确定每个阶段需要的素材空间,例如修饰图案、布局方式、颜色组合和背景质地的素材空间。
在步骤s208,构造用于描述选择素材的价值函数,并依次从多个素材空间选择在相应的图片状态下使得该价值函数的函数值最大的素材。
例如,可以用q(s,a)表示价值函数,s是状态(即已选择的素材组合),a是从对应的素材空间选择某种素材的行动(例如,从当前素材空间选择素材的行动),q是在某个确定的状态s时进行选择某个素材这一行为a获得的累积价值。可以在强化学习的过程中,对该价值函数执行训练。例如,如果对某图片只是浏览,则该图片的终止状态的前一个状态和最后一次选择的素材的q(s,a)=-100,如果有点击、收藏和购买行为,则q(s,a)可以分别等于20、50和100。
下面结合图2详细描述选择素材的过程,如下所述:
首先,如图2所示,在状态1(即s1)的情况下,该状态1还没有选择素材。在该阶段,需要从修饰图案选择素材。例如在选择花朵作为素材这一行动a1时q(s1,a1)的函数值最大,则选择花朵作为修饰图案。
接下来,在状态2(s2)的情况下,该状态2包括选择的修饰图案。在该阶段,需要从布局方式中选择素材。例如在选择某一个图案模板作为素材这一行动a2时q(s2,a2)的函数值最大,则选择该图案模板作为布局方式。
接下来,在状态3(s3)的情况下,该状态3包括选择的修饰图案和布局方式。在该阶段,需要从颜色组合中选择素材。例如在选择某一个配色模板作为素材这一行动a3时q(s3,a3)的函数值最大,则选择该配色模板作为颜色组合。
接下来,在状态4(s4)的情况下,该状态4包括选择的修饰图案、布局方式和颜色组合。在该阶段,需要从背景质地中选择素材。例如在选择圆点纯色作为素材这一行动a4时q(s4,a4)的函数值最大,则选择该圆点纯色作为背景质地。
至此,选择出了使得价值函数值最大的修饰图案、布局方式、颜色组合和背景质地的素材。
接下来,根据所选择的素材生成商品的广告图片。
在步骤s210,图片生成器220生成了广告图片,在前端页面展示给用户,得到用户反馈(例如,点击或不点击)。
在步骤s212,根据用户反馈更新用户行为日志,从而可以收集用户点击过的图片重新输入到深度神经网络模型中产生用户喜欢的风格。
在步骤s214,根据ddpg算法利用用户反馈更新图片生成器220的价值函数。
例如,可以利用如下关系式更新q(st,at):
q(st,at)←q(st,at) α[rt 1 γmaxaq(st 1,a)-q(st,at)]。(2)
其中,q(st,at)表示当前状态为st且选择素材行动为at时的价值函数,q(st 1,a)表示下一个状态为st 1且选择素材行动为a时的价值函数,maxaq(st 1,a)表示在进行选择素材行动a的情况下使得q(st 1,a)的函数值最大时的函数值,rt 1为即时收益,γ为设定的衰减系数,α为学习率。例如,在一些场景里,只有终止状态时得到的即时收益rt 1不为0,其他的状态均为0。
在上面的关系式中,将q(st,at) α[rt 1 γmaxaq(st 1,a)-q(st,at)]更新为最新的价值函数q(st,at)。
至此,提供了根据本公开另一些实施例的生成广告图片的方法。该方法可以结合用户在客户端对广告图片的操作(例如点击、购买或忽略等),分析该用户当前喜欢的风格,产生符合用户当前审美的广告图片,从而满足用户个性化、审美动态化的需求,提升用户体验。
强化学习是机器学习的一个重要分支,它的本质是连续的进行自动进行决策(decisionmaking),求解一个最优动作序列的方法。它主要包含四个元素:智能体(agent)、状态(state)、行动(action)和奖励(reward)。智能体在环境中观察所处的状态,根据策略选择一个行动,此时转移到新的状态并获得一个即时奖励,重复上述过程直到来到最终状态,然后可以得到每个状态到最终状态的累积奖励。然后再重复从初始状态走到最终状态。在整个过程中不断根据累积奖励来调整策略。如此反复的更新策略直到达到能让智能体获得最大累计奖励的最佳策略。在本公开的模型中,智能体是图片生成器,状态是当前生成的图案(即当前阶段已经选择的素材),行动是在步骤对应的素材空间中选择一个素材,策略是状态映射行动的依据,奖励是用户对该图片的操作(例如,图片被点击得到10分,图片对应商品购买得到50分,未被点击得到-5分等)。本公开的实施例使用深度确定性策略梯度算法(ddpg)实现。该ddpg算法流程可以如图3所示。
图3是示出根据本公开一些实施例的深度确定性策略梯度算法的流程图。
ddpg是基于actor-critic(行动主体-评价主体)思想的算法。actor-critic包含两个深度神经网络,actor(行动主体)网络和critic(评价主体)网络。智能体根据actor网络做出决策行动,环境收到此行动后会给出一个奖励(reward)。智能体来到新的状态(state)。critic网络根据观察到的旧状态、新状态、动作和奖励来对该动作进行评价,该评价是一个价值函数q。该价值函数q能反映某状态下某动作对应的累积奖励。因此价值函数的大小能反映某状态下该动作是好动作还是坏动作。该价值函数通过dqn(deepqlearning,深度q学习)算法来计算。该评价返回给actor网络,actor网络根据该评价优化自己的策略。如此循环下去,直到训练出一个找到最优策略的actor网络。当系统积累一些用户反馈后,该反馈一方面作为奖励更新图片生成器的策略,另一方面输入到用户喜好风格生成模型中产生用户喜欢的风格。
这里,dqn算法是使用深度网络对q-learning算法的近似实现。q-learning算法思想是反复的经历一个过程,当经历次数接近无限时可以得到所有的动作序列和序列的积累价值,积累价值最大的动作序列就是最优动作序列。
图4是示意性地示出根据本公开一些实施例的生成广告图片的系统的结构图。如图4所示,该系统可以包括图片处理单元402、风格获取单元404、素材空间选择单元406、素材选择单元408和广告图片生成单元410。
该图片处理单元402可以用于对商品的图片进行图片处理以获得该商品的主体图片。
该风格获取单元404可以用于根据用户行为日志获得与用户行为对应的图片风格。
该素材空间选择单元406可以用于根据该图片风格选择素材空间。
该素材选择单元408可以用于从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材。该价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动。该图片状态表示已选择的素材组合。
该广告图片生成单元410可以用于根据所选择的素材生成商品的广告图片。
在上述实施例的系统中,图片处理单元对商品的图片进行图片处理以获得该商品的主体图片。风格获取单元根据用户行为日志获得与用户行为对应的图片风格。素材空间选择单元根据该图片风格选择素材空间。素材选择单元依次从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材。该价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动。该图片状态表示已选择的素材组合。广告图片生成单元根据所选择的素材生成所述商品的广告图片。该系统可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
在一些实施例中,素材选择单元408可以用于从当前的素材空间选择在当前图片状态下使得价值函数的函数值最大的素材;将当前选择的素材加入到已选择的素材组合中以获得下一个图片状态;以及从下一个素材空间中选择在下一个图片状态下使得该价值函数的函数值最大的素材。
在一些实施例中,该风格获取单元404可以用于利用风格生成模型根据用户行为日志预测得到与用户行为对应的图片风格。在模型训练阶段,向风格生成模型输入已标注了图片风格的图片,该风格生成模型计算得到对该图片的风格预测结果,并比较该风格预测结果和风格真实结果以更新该风格生成模型的参数。
在一些实施例中,在初始阶段未选择素材的情况下,当前已选择的素材组合的状态为0向量,该价值函数的初始值为0。
在一些实施例中,素材空间可以包括:修饰图案、布局方式、颜色组合和背景质地。
在一些实施例中,用户行为日志可以包括用户浏览、点击、购买或收藏的商品图片。
在一些实施例中,风格获取单元404还可以用于收集用户点击过的图片以更新用户喜欢的图片风格。
图5是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图。与图4所示的系统类似的,图5所示的系统也包括图片处理单元402、风格获取单元404、素材空间选择单元406、素材选择单元408和广告图片生成单元410。
在一些实施例中,如图5所示,该系统还可以包括函数构造单元512。该函数构造单元512用于构造上述价值函数。
在一些实施例中,如图5所示,该系统还可以包括更新单元514。该更新单元514可以用于响应于用户对广告图片的反馈操作,利用深度确定性策略梯度算法更新价值函数。
图6是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图。该系统包括存储器610和处理器620。其中:
存储器610可以是磁盘、闪存或其它任何非易失性存储介质。存储器用于存储图1和/或图2所对应实施例中的指令。
处理器620耦接至存储器610,可以作为一个或多个集成电路来实施,例如微处理器或微控制器。该处理器620用于执行存储器中存储的指令,可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
在一些实施例中,还可以如图7所示,该系统700包括存储器710和处理器720。处理器720通过bus总线730耦合至存储器710。该系统700还可以通过存储接口740连接至外部存储装置750以便调用外部数据,还可以通过网络接口760连接至网络或者另外一台计算机系统(未标出),此处不再进行详细介绍。
在该实施例中,通过存储器存储数据指令,再通过处理器处理上述指令,可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
图8是示意性地示出根据本公开另一些实施例的生成广告图片的系统的结构图。如图8所示,该系统可以包括客户端810和服务器820。
该客户端810可以用于展示商品的图片(例如广告图片),并接收用户行为(例如浏览、点击、购买或收藏等用户行为)。例如,该客户端810可以将所接收的用户行为传输到服务器820,并从该服务器820接收所生成的商品的广告图片。
该服务器820可以用于执行生成广告图片的操作流程。例如,该服务器820可以执行如图1和/或图2所对应实施例中的指令,以生成商品的广告图片。这样可以按照用户喜欢的风格生成广告图片,满足用户个性化、审美动态化的需求,从而提升用户体验。
在另一些实施例中,本公开还提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现图1和/或图2所对应实施例中的方法的步骤。本领域内的技术人员应明白,本公开的实施例可提供为方法、装置、或计算机程序产品。因此,本公开可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本公开可采用在一个或多个其中包含有计算机可用程序代码的计算机可用非瞬时性存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本公开是参照根据本公开实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
至此,已经详细描述了本公开。为了避免遮蔽本公开的构思,没有描述本领域所公知的一些细节。本领域技术人员根据上面的描述,完全可以明白如何实施这里公开的技术方案。
可能以许多方式来实现本公开的方法和系统。例如,可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本公开的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明,本公开的方法的步骤不限于以上具体描述的顺序,除非以其它方式特别说明。此外,在一些实施例中,还可将本公开实施为记录在记录介质中的程序,这些程序包括用于实现根据本公开的方法的机器可读指令。因而,本公开还覆盖存储用于执行根据本公开的方法的程序的记录介质。
虽然已经通过示例对本公开的一些特定实施例进行了详细说明,但是本领域的技术人员应该理解,以上示例仅是为了进行说明,而不是为了限制本公开的范围。本领域的技术人员应该理解,可在不脱离本公开的范围和精神的情况下,对以上实施例进行修改。本公开的范围由所附权利要求来限定。
1.一种生成广告图片的方法,包括:
对商品的图片进行图片处理以获得所述商品的主体图片;
根据用户行为日志获得与用户行为对应的图片风格;
根据所述图片风格选择素材空间;
从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材,其中,所述价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动,所述图片状态表示已选择的素材组合;和
根据所选择的素材生成所述商品的广告图片。
2.根据权利要求1所述的方法,其中,
从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材的步骤包括:
从当前的素材空间选择在当前图片状态下使得所述价值函数的函数值最大的素材;
将当前选择的素材加入到已选择的素材组合中以获得下一个图片状态;以及
从下一个素材空间中选择在下一个图片状态下使得所述价值函数的函数值最大的素材。
3.根据权利要求1所述的方法,其中,在从多个素材空间选择素材之前,所述方法还包括:构造所述价值函数。
4.根据权利要求1所述的方法,其中,根据用户行为日志获得与用户行为对应的图片风格的步骤包括:
利用风格生成模型根据用户行为日志预测得到与用户行为对应的图片风格;
其中,在模型训练阶段,向所述风格生成模型输入已标注了图片风格的图片,所述风格生成模型计算得到对该图片的风格预测结果,并比较所述风格预测结果和风格真实结果以更新所述风格生成模型的参数。
5.根据权利要求1所述的方法,其中,
在初始阶段未选择素材的情况下,所述当前已选择的素材组合的状态为0向量,所述价值函数的初始值为0。
6.根据权利要求1所述的方法,其中,
所述素材空间包括:修饰图案、布局方式、颜色组合和背景质地。
7.根据权利要求1所述的方法,其中,
所述用户行为日志包括用户浏览、点击、购买或收藏的商品图片。
8.根据权利要求1所述的方法,还包括:
响应于用户对所述广告图片的反馈操作,利用深度确定性策略梯度算法更新所述价值函数。
9.根据权利要求1所述的方法,还包括:
收集用户点击过的图片以更新所述用户喜欢的图片风格。
10.一种生成广告图片的系统,包括:
图片处理单元,用于对商品的图片进行图片处理以获得所述商品的主体图片;
风格获取单元,用于根据用户行为日志获得与用户行为对应的图片风格;
素材空间选择单元,用于根据所述图片风格选择素材空间;
素材选择单元,用于从多个素材空间选择在相应的图片状态下使得价值函数的函数值最大的素材,其中,所述价值函数的自变量包括图片状态和从对应的素材空间选择素材的行动,所述图片状态表示已选择的素材组合;和
广告图片生成单元,用于根据所选择的素材生成所述商品的广告图片。
11.一种生成广告图片的系统,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令执行如权利要求1至9任意一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时实现如权利要求1至9任意一项所述的方法的步骤。
技术总结