本发明涉及计算机领域,具体而言,涉及一种模板子图的获取方法、装置、处理器及电子装置。
背景技术:
简笔画通常是指提取客观形象最突出的特点,以简洁的笔法来表现概括性的绘画。模板子图通常是指能够体现一类图像特点的代表性局部图像。
从简笔画中准确、高效地提取模板子图,对于简笔画识别任务而言具有重要的意义。在提取出模板子图之后,可以通过将关键子图(针对单张图像)与模板子图(即整个图像集,其相当于在多个图像中分别提取出的关键子图的集合)进行匹配来获取简笔画的笔画语义特征,从而进行特征训练或匹配。
简笔画识别通常是指由计算机自动识别简笔画,其为图像识别的一个重要分支。简笔画与一般图像相比,具有其独特的性质,例如:简笔画具有简单的线条信息,绘画手法通常比较随意,并且通常不会带有填充图形和任何色彩信息。这些独特的性质决定了简笔画识别这一任务的特殊性。简笔画识别技术不仅可用于以图搜图的搜索领域,而且在游戏领域也具有广泛的应用,例如:匹配游戏玩家手绘和人物、场景、物件等图像的娱乐游戏。
简笔画识别方法通常可以分为基于人工特征的方法和端到端的深度学习方法。端到端的深度学习方法对带标注的训练数据的数据量具有极大需求,如果数据量不足,甚至不具备带标签的数据,而获取带标签的数据的成本通常又很高,那么端到端的深度学习方法将无法适用,这使得基于人工特征的方法仍是极具性价比的做法。
在基于人工特征的方法中,大多数方法是采用全局或局部直方图的经典人工图像特征作为简笔画的表征,其常见特征包括但不限于:计算机视觉和图像处理中常用来进行物体检测的方向直方图特征(histogramoforientedgradient,简称为hog)、作为局部图像特征描述子研究领域一项里程碑式发明的尺度不变特征变换(scaleinvariantfeaturetransform,简称为sift)、sift的效率提升版本加速稳健特征(speededuprobustfeatures,简称为surf)、利用高斯卷积来进行梯度方向直方图的分块汇聚的daisy特征,以此来进行特征匹配或者特征训练。
然而,上述特征的共同之处在于:完全是由人工设计提取规则的特征,与数据无关,这意味着这些人工特征虽然具备良好的广泛适用性,但是不具备表征简笔画特点的功能。
针对上述的问题,目前尚未提出有效的解决方案。
技术实现要素:
本发明至少部分实施例提供了一种模板子图的获取方法、装置、处理器及电子装置,以至少解决相关技术中所提供的简笔画识别方式完全是由人工设计提取规则的特征,不具备表征简笔画特点的功能的技术问题。
根据本发明其中一实施例,提供了一种模板子图的获取方法,包括:
从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
可选地,从简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合包括:对简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;按照指定窗口大小生成窗口卷积模板;利用窗口子图和窗口卷积模板计算得到差幅值;按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点;采用部分目标笔画点扩展出多个关键子图,得到关键子图集合。
可选地,按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点包括:对关键子图集合中的每个样本进行网格划分,得到多个网格;按照排序结果依次遍历多个笔画点,并将多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的部分目标笔画点。
可选地,对关键子图特征数据集进行聚类处理,得到多个模板子图包括:从关键子图特征数据集中选取多个关键子图特征向量,并将多个关键子图特征向量确定为多个第一簇中心;计算关键子图特征数据集中每个关键子图特征向量与多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;如果关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到多个模板子图。
可选地,对关键子图特征数据集进行聚类处理,得到多个模板子图还包括:如果关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算关键子图特征数据集中每个关键子图特征向量与多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
根据本发明其中一实施例,还提供了一种模板子图的获取装置,包括:
第一提取模块,用于从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;第二提取模块,用于对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;获取模块,用于对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
可选地,第一提取模块包括:第一处理单元,用于对简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;生成单元,用于按照指定窗口大小生成窗口卷积模板;第一计算单元,用于利用窗口子图和窗口卷积模板计算得到差幅值;提取单元,用于按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点;扩展单元,用于采用部分目标笔画点扩展出多个关键子图,得到关键子图集合。
可选地,提取单元,用于对关键子图集合中的每个样本进行网格划分,得到多个网格;以及按照排序结果依次遍历多个笔画点,并将多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的部分目标笔画点。
可选地,获取模块包括:选取单元,用于从关键子图特征数据集中选取多个关键子图特征向量,并将多个关键子图特征向量确定为多个第一簇中心;第二计算单元,用于计算关键子图特征数据集中每个关键子图特征向量与多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;获取单元,用于如果关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到多个模板子图。
可选地,获取模块还包括:第二处理单元,用于如果关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算关键子图特征数据集中每个关键子图特征向量与多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
根据本发明其中一实施例,还提供了一种存储介质,存储介质中存储有计算机程序,其中,计算机程序被设置为运行时执行上述任一项中的模板子图的获取方法。
根据本发明其中一实施例,还提供了一种处理器,处理器用于运行程序,其中,程序被设置为运行时执行上述任一项中的模板子图的获取方法。
根据本发明其中一实施例,还提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述任一项中的模板子图的获取方法。
在本发明至少部分实施例中,采用从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图以得到关键子图集合,以及对关键子图集合中的每个样本进行特征提取处理以得到关键子图特征数据集的方式,通过对关键子图特征数据集进行聚类处理,得到多个模板子图,该关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图,达到了在不使用带标签数据的前提下,能够准确、高效地提取模板子图的目的,从而实现了可以高效地提取既基于数据的表征简笔画特点的,又不需要使用带标签数据的模板子图,从而用于基于模板子图的特征提取,降低简笔画识别技术复杂度,提高识别准确率的技术效果,进而解决了相关技术中所提供的简笔画识别方式完全是由人工设计提取规则的特征,不具备表征简笔画特点的功能的技术问题。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明其中一实施例的模板子图的获取方法的流程图;
图2是根据本发明其中一可选实施例的关键子图生成过程的示意图;
图3是根据本发明其中一可选实施例的通过简笔画图像得到的关键子图的示意图;
图4是根据本发明其中一实施例的模板子图的获取装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明其中一实施例,提供了一种模板子图的获取方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
该方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。以运行在移动终端上为例,移动终端可以包括一个或多个处理器(处理器可以包括但不限于中央处理器(cpu)、图形处理器(gpu)、数字信号处理(dsp)芯片、微处理器(mcu)或可编程逻辑器件(fpga)等的处理装置)和用于存储数据的存储器。可选地,上述移动终端还可以包括用于通信功能的传输设备、输入输出设备以及显示设备。本领域普通技术人员可以理解,上述结构描述仅为示意,其并不对上述移动终端的结构造成限定。例如,移动终端还可包括比上述结构描述更多或者更少的组件,或者具有与上述结构描述不同的配置。
存储器可用于存储计算机程序,例如,应用软件的软件程序以及模块,如本发明实施例中的模板子图的获取方法对应的计算机程序,处理器通过运行存储在存储器内的计算机程序,从而执行各种功能应用以及数据处理,即实现上述的模板子图的获取方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至移动终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输设备用于经由一个网络接收或者发送数据。上述的网络具体实例可包括移动终端的通信供应商提供的无线网络。在一个实例中,传输设备包括一个网络适配器(networkinterfacecontroller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备可以为射频(radiofrequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
显示设备可以例如触摸屏式的液晶显示器(lcd)和触摸显示器(也被称为“触摸屏”或“触摸显示屏”)。该液晶显示器可使得用户能够与移动终端的用户界面进行交互。在一些实施例中,上述移动终端具有图形用户界面(gui),用户可以通过触摸触敏表面上的手指接触和/或手势来与gui进行人机交互,此处的人机交互功能可选的包括如下交互:创建网页、绘图、文字处理、制作电子文档、游戏、视频会议、即时通信、收发电子邮件、通话界面、播放数字视频、播放数字音乐和/或网络浏览等、用于执行上述人机交互功能的可执行指令被配置/存储在一个或多个处理器可执行的计算机程序产品或可读存储介质中。
在本实施例中提供了一种运行于上述移动终端的模板子图的获取方法。图1是根据本发明其中一实施例的模板子图的获取方法的流程图,如图1所示,该方法应用且不限于以下简笔画识别技术中:简笔画匹配、简笔画分类等。而相关简笔画识别技术又可以应用且不限于以下实际场景中:数据归档、娱乐互动应用、简笔画图像搜索等。
该方法包括如下步骤:
步骤s12,从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;
步骤s14,对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;
步骤s16,对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
通过上述步骤,可以采用从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图以得到关键子图集合,以及对关键子图集合中的每个样本进行特征提取处理以得到关键子图特征数据集的方式,通过对关键子图特征数据集进行聚类处理,得到多个模板子图,该关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图,达到了在不使用带标签数据的前提下,能够准确、高效地提取模板子图的目的,从而实现了可以高效地提取既基于数据的表征简笔画特点的,又不需要使用带标签数据的模板子图,从而用于基于模板子图的特征提取,降低简笔画识别技术复杂度,提高识别准确率的技术效果,进而解决了相关技术中所提供的简笔画识别方式完全是由人工设计提取规则的特征,不具备表征简笔画特点的功能的技术问题。
上述标签可以包括但不限于:简笔画图像的类别、内容、画风,不带标签则意味着无需任何人为标注的标签内容。上述方法将已有的不带标签的简笔画数据作为输入,并且以简笔画模板子图特征作为输出。
在关键子图特征提取过程中,可以对关键子图集合的每个样本提取特征,构成一个关键子图特征数据集。具体地,可以采用相关技术中所提供的人工图像特征提取方法,例如:上述直方图特征、利用高斯卷积来进行梯度方向直方图的分块汇聚的daisy特征等。
可选地,在步骤s12中,从简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合可以包括以下执行步骤:
步骤s121,对简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;
步骤s122,按照指定窗口大小生成窗口卷积模板;
步骤s123,利用窗口子图和窗口卷积模板计算得到差幅值;
步骤s124,按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点;
步骤s125,采用部分目标笔画点扩展出多个关键子图,得到关键子图集合。
在关键子图生成过程中,从不带标签的简笔画数据集的每个样本(即不带标签的简笔画图像)中分别提取出一定数量的关键子图,共同组成一个关键子图集合。后续模板子图的准确性在很大程度取决于关键子图的选取质量。
图2是根据本发明其中一可选实施例的关键子图生成过程的示意图,如图2所示,该关键子图生成过程可以包括如下步骤:
步骤s202,获取笔画点。对简笔画图像进行灰度图处理,通过设定灰度值阈值t(其取值范围是从0到255,其中,0为纯黑,255为纯白),其中,灰度值小于t的像素点均可作为笔画点。
步骤s204,生成窗口卷积模板。设定指定大小的u×v窗口,并采用以下高斯卷积模糊公式计算得到窗口卷积模板w(u,v):
w(u,v)=exp(-(u2 v2)/σ2);
其中,u和v是距离窗口中心点的横坐标像素差和纵坐标像素差,σ是一个调整窗口卷积模糊程度的参数。在上述公式中,σ越大,则相同距离差下最终的权重值便越大,卷积后得到的图像越模糊;σ越小,则相同距离差下最终的权重值便越小,卷积后得到的图像越接近原始图像。卷积处理的作用在于:通过对图像进行一定程度的模糊处理,能够使得算法具有更高的抗噪能力。
步骤s206,加窗计算差幅值。上述获取到的每个笔画点均可对应一个以该笔画点为中心的窗口子图,将窗口卷积模板应用到每个窗口子图上,得到对应的以窗口子图中心像素点为中心的差幅值,差幅值e(x,y)的计算公式如下:
e(x,y)=∑u,vw(u,v)[i(x u,y v)-i(x,y)]2;
其中,i(x,y)表示横坐标为x,纵坐标为y的像素点对应的灰度值,i(x u,y v)表示与横坐标为x,纵坐标为y的像素点偏移(u,v)像素的值,u的取值范围为(-u/2,u/2),v的取值范围为(-v/2,v/2)。
步骤s208,过滤非关键笔画点。首先,对关键子图集合中的每个样本进行网格划分,得到多个网格;然后,再按照排序结果依次遍历多个笔画点,并将多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的部分目标笔画点。即,保留关键笔画点,丢弃非关键笔画点。
步骤s210,根据关键笔画点扩展出关键子图。以关键笔画点为中心,选取uxv矩形范围的像素图像作为笔画点对应的关键子图。最终,l个笔画点会对应l个关键子图。
需要说明的是,u和v的取值可以预先设定,取值需要设定为奇数,其实际大小可以根据简笔画数据集中的图像大小来调整。
在对简笔画数据集中每张简笔画图像重复执行上述步骤之后,便可得到简笔画的关键子图集合。图3是根据本发明其中一可选实施例的通过简笔画图像得到的关键子图的示意图,如图3所示,“×”表示每张关键子图的中心点。由于简笔画图像大小为400*400像素,因此,u和v分别被设定为31。即,以每个中心点为中心的31×31的矩形便是关键子图。
可选地,在步骤s124中,按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点可以包括以下执行步骤:
步骤s1241,对关键子图集合中的每个样本进行网格划分,得到多个网格;
步骤s1242,按照排序结果依次遍历多个笔画点,并将多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的部分目标笔画点。
具体地,按照计算得到的差幅值由大到小的顺序对全部笔画点排序。首先将原简笔画图像划分成pxq(p和q的取值可以预先设定,取值无具体限制)的网格,然后设置目标笔画点提取数目l,对排序后的笔画点依次遍历,记录每个网格内第一个出现的笔画点,排除掉后面再出现的笔画点,直到总共有l个网格具有笔画点则停止过滤。通过这种做法便可得到l个不会冗余重复的关键笔画点。
可选地,在步骤s16中,对关键子图特征数据集进行聚类处理,得到多个模板子图可以包括以下执行步骤:
步骤s161,从关键子图特征数据集中选取多个关键子图特征向量,并将多个关键子图特征向量确定为多个第一簇中心;
步骤s162,计算关键子图特征数据集中每个关键子图特征向量与多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;
步骤s163,如果关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到多个模板子图。
在聚类生成模板子图过程中,可以采用聚类方法对关键子图特征数据集进行聚类处理,构成指定类别数的子图特征簇,其中,每个子图特征簇的重心对应一个模板子图。具体地,在得到关键子图特征数据集(其包括n个关键子图特征向量)之后,如果每个关键子图特征向量的维度是m,则对于关键子图特征集合(即n×m的矩阵),可以采用聚类方法对关键子图特征数据集进行聚类处理。以聚类方法是k均值(k-means)算法为例,其可以包括如下步骤:
第一步、从关键子图特征集合中随机选取k个关键子图特征向量作为簇中心;
第二步、计算所有关键子图特征向量与这k个“簇中心”之间的距离,进而对于每个关键子图特征向量,将其分配到与该关键子图特征向量距离最近的“簇中心”所在的簇中;
第三步、如果全部关键子图特征向量的当前分配结果与上一次分配结果完全一致,则结束算法流程。
例如:假设当前存在10万个关键子图特征向量和150个簇,那么只有在这10万个关键子图特征向量分别满足连续两次分配到同一个簇的限定条件时,整个算法流程才会结束。
可选地,在步骤s16中,对关键子图特征数据集进行聚类处理,得到多个模板子图还可以包括以下执行步骤:
步骤s164,如果关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算关键子图特征数据集中每个关键子图特征向量与多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
在一个可选实施例中,如果关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算部分关键子图特征向量在第二次被分配的簇的簇中心,即上述k均值算法还可以包括如下步骤:
第四步、对于分配至新簇的关键子图特征向量而言,需要计算各个簇的新“簇中心”,即簇的重心位置,并重新返回到上述第二步。
在上述聚类过程结束之后,每个子图簇的重心均对应一个模板子图,由此得到k个模板子图。例如:在经过聚类处理之后,第i个模板子图具有三个特征,其分别为(0,1,2),(3,3,1),(0,2,6),那么这三个特征的重心(即每一维的均值)为(1,2,3),由此,(1,2,3)便成为第i个模板子图的特征,用于表示上述三个特征对应的子图平均后的模样。上述聚类算法能够聚成多少类,便会得到相应数量的模板子图,其中,类别数量可以采用初始设定的数值。
通过本发明提供的上述实施例,模板子图提取方法执行时间消耗主要分为两个部分:第一个部分,在计算关键笔画点过程中的加窗计算差幅值操作,该部分由于加窗操作只用于包含笔画的像素上,而并非全图应用,因此计算量相对较小;第二个部分,在聚类处理过程中,该部分使用到的k均值法可以使用kd树进行效率加速,当然还可以直接采用其它效率更高的聚类算法。另外,由于模板子图均预先离线计算完成,并直接应用于后续特征提取过程,因此模板子图的提取时间消耗并不影响后续在线特征提取过程的实际操作进度。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
在本实施例中还提供了一种模板子图的获取装置,该装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
图4是根据本发明其中一实施例的模板子图的获取装置的结构框图,如图4所示,该装置包括:第一提取模块10,用于从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;第二提取模块20,用于对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;获取模块30,用于对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
可选地,第一提取模块10包括:第一处理单元(图中未示出),用于对简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;生成单元(图中未示出),用于按照指定窗口大小生成窗口卷积模板;第一计算单元(图中未示出),用于利用窗口子图和窗口卷积模板计算得到差幅值;提取单元(图中未示出),用于按照计算得到的差幅值由大到小的顺序对多个笔画点进行排序,并依据排序结果从多个笔画点中提取出部分目标笔画点;扩展单元(图中未示出),用于采用部分目标笔画点扩展出多个关键子图,得到关键子图集合。
可选地,提取单元(图中未示出),用于对关键子图集合中的每个样本进行网格划分,得到多个网格;以及按照排序结果依次遍历多个笔画点,并将多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的部分目标笔画点。
可选地,获取模块30包括:选取单元(图中未示出),用于从关键子图特征数据集中选取多个关键子图特征向量,并将多个关键子图特征向量确定为多个第一簇中心;第二计算单元(图中未示出),用于计算关键子图特征数据集中每个关键子图特征向量与多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;获取单元(图中未示出),用于如果关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到多个模板子图。
可选地,获取模块30还包括:第二处理单元(图中未示出),用于如果关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算关键子图特征数据集中每个关键子图特征向量与多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
需要说明的是,上述各个模块是可以通过软件或硬件来实现的,对于后者,可以通过以下方式实现,但不限于此:上述模块均位于同一处理器中;或者,上述各个模块以任意组合的形式分别位于不同的处理器中。
本发明的实施例还提供了一种存储介质,该存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。
可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的计算机程序:
s1,从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;
s2,对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;
s3,对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-onlymemory,简称为rom)、随机存取存储器(randomaccessmemory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储计算机程序的介质。
本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
s1,从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;
s2,对关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;
s3,对关键子图特征数据集进行聚类处理,得到多个模板子图,其中,关键子图特征数据集包括:多个子图特征簇,多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
1.一种模板子图的获取方法,其特征在于,包括:
从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;
对所述关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;
对所述关键子图特征数据集进行聚类处理,得到多个模板子图,其中,所述关键子图特征数据集包括:多个子图特征簇,所述多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
2.根据权利要求1所述的方法,其特征在于,从所述简笔画数据集的每个样本中分别提取出所述多个关键子图,得到所述关键子图集合包括:
对所述简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,所述多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;
按照指定窗口大小生成窗口卷积模板;
利用所述窗口子图和所述窗口卷积模板计算得到差幅值;
按照计算得到的差幅值由大到小的顺序对所述多个笔画点进行排序,并依据排序结果从所述多个笔画点中提取出部分目标笔画点;
采用所述部分目标笔画点扩展出多个关键子图,得到所述关键子图集合。
3.根据权利要求2所述的方法,其特征在于,按照计算得到的差幅值由大到小的顺序对所述多个笔画点进行排序,并依据所述排序结果从所述多个笔画点中提取出所述部分目标笔画点包括:
对所述关键子图集合中的每个样本进行网格划分,得到多个网格;
按照所述排序结果依次遍历所述多个笔画点,并将所述多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的所述部分目标笔画点。
4.根据权利要求1所述的方法,其特征在于,对所述关键子图特征数据集进行聚类处理,得到所述多个模板子图包括:
从所述关键子图特征数据集中选取多个关键子图特征向量,并将所述多个关键子图特征向量确定为多个第一簇中心;
计算所述关键子图特征数据集中每个关键子图特征向量与所述多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;
如果所述关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到所述多个模板子图。
5.根据权利要求4所述的方法,其特征在于,对所述关键子图特征数据集进行聚类处理,得到所述多个模板子图还包括:
如果所述关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算所述部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算所述关键子图特征数据集中每个关键子图特征向量与所述多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
6.一种模板子图的获取装置,其特征在于,包括:
第一提取模块,用于从不带标签的简笔画数据集的每个样本中分别提取出多个关键子图,得到关键子图集合;
第二提取模块,用于对所述关键子图集合中的每个样本进行特征提取处理,得到关键子图特征数据集;
获取模块,用于对所述关键子图特征数据集进行聚类处理,得到多个模板子图,其中,所述关键子图特征数据集包括:多个子图特征簇,所述多个子图特征簇中的每个子图特征簇的重心分别对应一个模板子图。
7.根据权利要求6所述的装置,其特征在于,所述第一提取模块包括:
第一处理单元,用于对所述简笔画数据集的每个样本进行灰度图处理,获取多个笔画点,其中,所述多个笔画点中每个笔画点分别对应一个以该笔画点为中心的窗口子图;
生成单元,用于按照指定窗口大小生成窗口卷积模板;
第一计算单元,用于利用所述窗口子图和所述窗口卷积模板计算得到差幅值;
提取单元,用于按照计算得到的差幅值由大到小的顺序对所述多个笔画点进行排序,并依据排序结果从所述多个笔画点中提取出部分目标笔画点;
扩展单元,用于采用所述部分目标笔画点扩展出多个关键子图,得到所述关键子图集合。
8.根据权利要求7所述的装置,其特征在于,所述提取单元,用于对所述关键子图集合中的每个样本进行网格划分,得到多个网格;以及按照所述排序结果依次遍历所述多个笔画点,并将所述多个网格中每个网格内首次出现的笔画点记录为目标笔画点,直至提取出满足预设数量的所述部分目标笔画点。
9.根据权利要求6所述的装置,其特征在于,所述获取模块包括:
选取单元,用于从所述关键子图特征数据集中选取多个关键子图特征向量,并将所述多个关键子图特征向量确定为多个第一簇中心;
第二计算单元,用于计算所述关键子图特征数据集中每个关键子图特征向量与所述多个第一簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中;
获取单元,用于如果所述关键子图特征数据集中每个关键子图特征向量在连续两次分配过程中均被分配至同一个簇,则得到所述多个模板子图。
10.根据权利要求9所述的装置,其特征在于,所述获取模块还包括:
第二处理单元,用于如果所述关键子图特征数据集中部分关键子图特征向量在连续两次分配过程中未被分配至同一个簇,则重新计算所述部分关键子图特征向量在第二次被分配的簇的簇中心,得到多个第二簇中心,以重新计算所述关键子图特征数据集中每个关键子图特征向量与所述多个第二簇中心之间的距离,并将每个关键子图特征向量分配至距离最近的簇中心所在的簇中。
11.一种存储介质,其特征在于,所述存储介质中存储有计算机程序,其中,所述计算机程序被设置为运行时执行所述权利要求1至5任一项中所述的模板子图的获取方法。
12.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序被设置为运行时执行所述权利要求1至5任一项中所述的模板子图的获取方法。
13.一种电子装置,包括存储器和处理器,其特征在于,所述存储器中存储有计算机程序,所述处理器被设置为运行所述计算机程序以执行所述权利要求1至5任一项中所述的模板子图的获取方法。
技术总结