刻蚀字符识别网络训练样本增广方法与流程

专利2022-06-29  74


本发明属于图像处理技术及深度学习领域,特别涉及一种刻蚀字符识别网络训练样本增广方法。



背景技术:

刻蚀字符识别常见于工业设备标牌中的文本识别,是场景文本识别的难点之一。工业设备标牌通常为金属材质且部分放置于户外环境中,因此标牌图像中常常存在着反光、污渍、模糊、划痕等退化情况,这为刻蚀字符的识别带来了诸多困难。

使用深度学习的方法识别刻蚀字符需要大量数据训练字符识别模型以满足模型的泛化能力,在样本规模小的情况下训练出的模型容易出现过拟合的现象。在刻蚀字符识别的研究中,特定场景下可以采集的刻蚀字符图像数量小,样本数据匮乏问题严重,无法满足深度学习的需求。此外,样本的采集和整理消耗大量人力物力,仅靠人工收集整理样本效率非常低。因此,使用深度学习的方法识别刻蚀字符亟需解决样本规模小的问题。常用的图像增广方法有翻转、旋转、缩放比例、剪裁、移位、添加噪声等,但这些方法均是对已有的样本做一系列随机改变,只能产生和原有样本相似的图像。



技术实现要素:

本发明的目的在于针对刻蚀字符识别网络训练样本规模小的问题,提供一种图像样本增广方法,快速生成大批量刻蚀字符图像以满足深度学习网络的训练需求。

实现本发明目的的技术解决方案为:一种刻蚀字符识别网络训练样本增广方法,所述方法包括以下步骤:

步骤1,采集场景中的刻蚀字符图像;

步骤2,根据刻蚀字符图像生成内容图像和风格图像;

步骤3,构建双向生成对抗网络;

步骤4,训练所述双向生成对抗网络;

步骤5,将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像。

进一步地,步骤2所述根据刻蚀字符图像生成内容图像,具体包括:

步骤2-1,标注刻蚀字符图像的文本信息;

步骤2-2,根据标注的刻蚀字符图像的真实标签统计字符信息;

步骤2-3,根据字符信息生成多种字体的内容图像。

进一步地,步骤2所述根据刻蚀字符图像生成风格图像,具体为:根据刻蚀字符图像特征生成风格图像。

进一步地,步骤2所述根据刻蚀字符图像生成风格图像,具体包括:

从采集的刻蚀字符图像中选取分辨率符合第一预设条件和或清晰度符合第二预设条件和或特征显著度符合第三预设条件的图像,作为风格图像。

进一步地,步骤3中所述构建双向生成对抗网络,具体包括:

步骤3-1,构建风格化生成对抗网络;

步骤3-2,构建去风格化生成对抗网络;

步骤3-3,构建损失函数。

进一步地,步骤3-1中所述风格化生成对抗网络包括:风格化生成网络和风格化判别网络;

所述风格化生成网络,其输入为内容图像和风格图像,输出为风格化字符图像;风格化生成网络包括:内容编码器ex1,其输入为内容图像,输出为内容特征向量;风格编码器ex2,其输入为风格图像,输出为风格特征向量;生成器gx,其输入为所述内容特征向量和风格特征向量,输出为风格化字符图像;

所述风格化判别网络,其输入为所述风格化字符图像或真实的刻蚀字符图像,输出为一个0到1之间的数,用于表示输入的图像为真实图像的概率。

进一步地,步骤3-2中所述去风格化生成对抗网络包括:去风格化生成网络和去风格化判别网络;

所述去风格化生成网络,其输入为所述风格化字符图像,输出为去风格化字符图像;该去风格化生成网络包括:第一编码器ey,其输入为风格化字符图像,输出为特征向量;第二生成器gy,其输入为第一编码器ey输出的特征向量,输出为去风格化字符图像;

所述去风格化判别网络,其输入为所述去风格化字符图像或者真实的内容图像,输出为一个0到1之间的数,用于表示输入的图像是真实图像的概率。

进一步地,步骤3-3中所述损失函数l包括:内容图像重构损失l1、风格化生成对抗网络损失l2和去风格化生成对抗网络损失l3,公式为:

l=l1 l2 l3

所述内容图像重构损失l1,用于保证所述内容编码器ex1能提取内容图像的核心信息,公式为:

式中,x表示输入的内容图像,λx表示内容图像重构损失的权重,λx的取值范围为0到1;

所述风格化生成对抗网络损失l2,包括第一像素损失lspix和第一对抗损失lsadv,公式为:

l2=λx1lspix λx2lsadv

式中,lspix表示第一像素损失,lsadv表示第一对抗损失,λx1、λx2分别表示lspix、lsadv的权重,λx1、λx2的取值范围为0到1;

其中,第一像素损失lspix的计算公式如下:

式中,x、y分别表示输入的内容图像和风格图像,y'表示风格化生成网络生成的图像;

第一对抗损失lsadv的计算公式如下:

式中,定义为在风格图像y和风格化生成网络生成的图像y'之间沿直线均匀采样的向量,λsadv为取值范围为0到1的权重参数,dx代表风格化判别网络;

所述去风格化生成对抗网络损失l3,包括第二像素损失ldpix、第二对抗损失ldfeat和内容特征损失ldadv,公式为:

l3=λy1ldpix λy2ldadv λy3ldfeat

式中,λy1、λy2、λy3分别为ldpix、ldadv、ldfeat的权重,且取值范围均为0到1;

其中,第二像素损失ldpix的计算公式如下:

第二对抗损失ldfeat的计算公式如下:

内容损失ldadv的计算公式如下:

进一步地,步骤4中训练所述双向生成对抗网络,具体过程包括:

步骤4-1,初始化双向生成对抗网络的参数和迭代次数;

步骤4-2,将内容图像输入至风格化生成对抗网络的内容编码器,并将内容编码器输出的特征输入至风格化生成网络,计算损失函数,并利用梯度下降法更新内容编码器的参数;

步骤4-3,将风格图像输入至去风格化生成网络,生成假的内容图像;

步骤4-4,分别将真实的内容图像和假的内容图像输入至去风格化判别网络,计算损失函数并利用梯度下降法更新去风格化判别网络的参数;

步骤4-5,将假的内容图像输入至去风格化判别网络,计算损失函数,并利用梯度下降法更新去风格化生成网络的网络参数;

步骤4-6,将内容图像和风格图像输入至风格化生成网络,生成假的风格图像;

步骤4-7,分别将真实的风格图像和假的风格图像输入至风格化判别网络,计算损失函数并利用梯度下降法更新风格化判别网络的参数;

步骤4-8,将假的风格图像输入至风格化判别网络,计算损失函数,并利用梯度下降法更新风格化生成网络的网络参数;

步骤4-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤4-2~步骤4-8;否则结束双向生成对抗网络的训练。

进一步地,步骤5所述将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像,具体包括:

步骤5-1,将内容图像和风格图像输入至训练好的风格化生成网络,生成刻蚀字符图像;

步骤5-2,对生成的刻蚀字符图像进行筛选,删除不符合预设要求的图像。

本发明与现有技术相比,其显著优点为:1)通过生成对抗网络生成大量刻蚀字符图像,在样本规模小的情况下依旧可以获得充足的训练样本;2)通过生成网络生成大量刻蚀字符图像相比较于人工采集样本更加快速高效;3)使用双向生成对抗网络可以生成逼真的字符图像,提高了利用深度学习方法识别刻蚀字符的精度。

下面结合附图对本发明作进一步详细描述。

附图说明

图1为一个实施例中刻蚀字符识别网络训练样本增广方法的流程图。

图2为一个实施例中内容图像示意图。

图3为一个实施例中刻蚀风格图像示意图。

图4为一个实施例中双向生成对抗网络示意图。

图5为一个实施例中双向生成对抗网络训练流程图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

在一个实施例中,结合图1,提供了一种刻蚀字符识别网络训练样本增广方法,该方法包括以下步骤:

步骤1,采集场景中的刻蚀字符图像;

步骤2,根据刻蚀字符图像生成内容图像和风格图像;

步骤3,构建双向生成对抗网络;

步骤4,训练双向生成对抗网络;

步骤5,将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像。

进一步地,在其中一个实施例中,上述步骤2中根据刻蚀字符图像生成内容图像,具体包括:

步骤2-1,标注刻蚀字符图像的文本信息;

步骤2-2,根据标注的刻蚀字符图像的真实标签统计字符信息;

步骤2-3,根据字符信息生成多种字体的内容图像如图2所示。

这里,多种字体包括宋体、楷体、合体、仿宋体等。

这里,作为一种具体示例,内容图像的文字颜色为黑色,背景颜色为白色。

进一步地,在其中一个实施例中,上述步骤2中根据刻蚀字符图像生成风格图像,具体为:根据刻蚀字符图像特征生成风格图像。

进一步地,在其中一个实施例中,上述步骤2中根据刻蚀字符图像生成风格图像,具体包括:

从采集的刻蚀字符图像中选取分辨率符合第一预设条件和或清晰度符合第二预设条件和或特征显著度符合第三预设条件的图像,作为风格图像如图3所示。

这里,上述生成的内容图像和风格图像尺寸规格相同。

进一步地,在其中一个实施例中,步骤3中构建双向生成对抗网络如图4所示,具体过程包括:

步骤3-1,构建风格化生成对抗网络;

步骤3-2,构建去风格化生成对抗网络;

步骤3-3,构建损失函数。

进一步地,在其中一个实施例中,步骤3-1中风格化生成对抗网络包括:风格化生成网络和风格化判别网络。

其中,风格化生成网络的输入为内容图像和风格图像,输出为风格化字符图像。

这里,输入图像和输出图像为大小相同的三通道图像。

风格化生成网络包括:内容编码器ex1,风格编码器ex2和生成器gx。

内容编码器ex1的输入为内容图像,输出为内容特征向量。内容编码器先使用卷积层提取内容图像的特征。然后使用反卷积层上采样将输出特征和之前网络层输出的特征融合。卷积层和反卷积层前会设置激活层,卷积层和反卷积层后会设置批归一化层。

风格编码器ex2的输入为风格图像,输出为风格特征向量。风格编码器先使用卷积层提取风格图像的特征。然后使用反卷积层上采样将输出特征和之前网络层输出的特征融合。卷积层和反卷积层前会设置激活层,卷积层和反卷积层后会设置批归一化层。

生成器gx的输入为上述内容特征向量和风格特征向量,输出为风格化字符图像。内容特征向量和风格特征向量的尺寸相同。生成器先拼接内容特征向量和风格特征向量,然后使用多个反卷积层上采样生成风格化字符图像。反卷积层前会设置激活层,反卷积层后会设置批归一化层。

其中,风格化判别网络的输入为风格化字符图像或真实的刻蚀字符图像,输出为一个0到1之间的数,用于表示输入的图像为真实图像的概率。该风格化判别网络包括卷积层,卷积层前会设置激活层,卷积层后会设置批归一化层。

进一步地,在其中一个实施例中,步骤3-2中去风格化生成对抗网络包括:去风格化生成网络和去风格化判别网络。

其中,去风格化生成网络的输入为风格化字符图像,输出为去风格化字符图像。

去风格化生成网络包括:第一编码器ey和第二生成器gy。

第一编码器ey的输入为风格化字符图像,输出为特征向量。编码器先使用卷积层提取内容图像的特征。然后使用反卷积层上采样将输出特征和之前网络层输出的特征融合。卷积层和反卷积层前会设置激活层,卷积层和反卷积层后会设置批归一化层。

第二生成器gy的输入为第一编码器ey输出的特征向量,输出为去风格化字符图像。生成器使用多个反卷积层上采样生成风格化字符图像。反卷积层前会设置激活层,反卷积层后会设置批归一化层。

其中,去风格化判别网络的输入为去风格化字符图像或者真实的内容图像,输出为一个0到1之间的数,用于表示输入的图像是真实图像的概率。该去风格化判别网络包括卷积层,卷积层前会设置激活层,卷积层后会设置批归一化层。

进一步地,在其中一个实施例中,步骤3-3中损失函数l包括:内容图像重构损失l1、风格化生成对抗网络损失l2和去风格化生成对抗网络损失l3,公式为:

l=l1 l2 l3

内容图像重构损失l1,用于保证内容编码器ex1能提取内容图像的核心信息(包括字符结构、笔划信息等),公式为:

式中,x表示输入的内容图像,λx表示内容图像重构损失的权重,λx的取值范围为0到1;

风格化生成对抗网络损失l2,包括第一像素损失lspix和第一对抗损失lsadv,公式为:

l2=λx1lspix λx2lsadv

式中,lspix表示第一像素损失,lsadv表示第一对抗损失,λx1、λx2分别表示lspix、lsadv的权重,λx1、λx2的取值范围为0到1;

其中,第一像素损失lspix的计算公式如下:

式中,x、y分别表示输入的内容图像和风格图像,y'表示风格化生成网络生成的图像;

第一对抗损失lsadv的计算公式如下:

式中,定义为在风格图像y和风格化生成网络生成的图像y'之间沿直线均匀采样的向量,λsadv为取值范围为0到1的权重参数,dx代表风格化判别网络;

去风格化生成对抗网络损失l3,包括第二像素损失ldpix、第二对抗损失ldfeat和内容特征损失ldadv,公式为:

l3=λy1ldpix λy2ldadv λy3ldfeat

式中,λy1、λy2、λy3分别为ldpix、ldadv、ldfeat的权重,且取值范围均为0到1;

其中,第二像素损失ldpix的计算公式如下:

第二对抗损失ldfeat的计算公式如下:

内容损失ldadv的计算公式如下:

进一步地,在其中一个实施例中,上述步骤4中训练双向生成对抗网络的目标是利用梯度下降法最小化上述损失函数l的值。梯度下降法是利用凸函数的特点,将凸函数的参数沿着梯度相反的方向移动一个步长就能实现函数值的下降。通过不断地迭代重复,最终找到凸函数的局部最小值。在此过程中参数θ的更新公式是:

式中,θ代表参数,η代表迭代步长,j(θ)代表损失函数。

结合图5,训练双向生成对抗网络的具体过程包括:

步骤4-1,初始化双向生成对抗网络的参数和迭代次数;

步骤4-2,将内容图像输入至风格化生成对抗网络的内容编码器,并将内容编码器输出的特征输入至风格化生成网络,计算损失函数,并利用梯度下降法更新内容编码器的参数;

步骤4-3,将风格图像输入至去风格化生成网络,生成假的内容图像;

步骤4-4,分别将真实的内容图像和假的内容图像输入至去风格化判别网络,计算损失函数并利用梯度下降法更新去风格化判别网络的参数;

步骤4-5,将假的内容图像输入至去风格化判别网络,计算损失函数,并利用梯度下降法更新去风格化生成网络的网络参数;

步骤4-6,将内容图像和风格图像输入至风格化生成网络,生成假的风格图像;

步骤4-7,分别将真实的风格图像和假的风格图像输入至风格化判别网络,计算损失函数并利用梯度下降法更新风格化判别网络的参数;

步骤4-8,将假的风格图像输入至风格化判别网络,计算损失函数,并利用梯度下降法更新风格化生成网络的网络参数;

步骤4-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤4-2~步骤4-8;否则结束双向生成对抗网络的训练。

进一步地,在其中一个实施例中,上述步骤5将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像,具体包括:

步骤5-1,将内容图像和风格图像输入至训练好的风格化生成网络,生成刻蚀字符图像;

步骤5-2,对生成的刻蚀字符图像进行筛选,删除不符合预设要求的图像。

综上,本发明通过生成对抗网络生成大量刻蚀字符图像,在样本规模小的情况下依旧可以获得充足的训练样本,相比较于人工采集样本更加快速高效,且生成的刻蚀字符图像更逼真,提高了利用深度学习方法识别刻蚀字符的精度。


技术特征:

1.一种刻蚀字符识别网络训练样本增广方法,其特征在于,所述方法包括以下步骤:

步骤1,采集场景中的刻蚀字符图像;

步骤2,根据刻蚀字符图像生成内容图像和风格图像;

步骤3,构建双向生成对抗网络;

步骤4,训练所述双向生成对抗网络;

步骤5,将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像。

2.根据权利要求1所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤2所述根据刻蚀字符图像生成内容图像,具体包括:

步骤2-1,标注刻蚀字符图像的文本信息;

步骤2-2,根据标注的刻蚀字符图像的真实标签统计字符信息;

步骤2-3,根据字符信息生成多种字体的内容图像。

3.根据权利要求1或2所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤2所述根据刻蚀字符图像生成风格图像,具体为:根据刻蚀字符图像特征生成风格图像。

4.根据权利要求3所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤2所述根据刻蚀字符图像生成风格图像,具体包括:

从采集的刻蚀字符图像中选取分辨率符合第一预设条件和或清晰度符合第二预设条件和或特征显著度符合第三预设条件的图像,作为风格图像。

5.根据权利要求4所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤3中所述构建双向生成对抗网络,具体包括:

步骤3-1,构建风格化生成对抗网络;

步骤3-2,构建去风格化生成对抗网络;

步骤3-3,构建损失函数。

6.根据权利要求5所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤3-1中所述风格化生成对抗网络包括:风格化生成网络和风格化判别网络;

所述风格化生成网络,其输入为内容图像和风格图像,输出为风格化字符图像;风格化生成网络包括:内容编码器ex1,其输入为内容图像,输出为内容特征向量;风格编码器ex2,其输入为风格图像,输出为风格特征向量;生成器gx,其输入为所述内容特征向量和风格特征向量,输出为风格化字符图像;

所述风格化判别网络,其输入为所述风格化字符图像或真实的刻蚀字符图像,输出为一个0到1之间的数,用于表示输入的图像为真实图像的概率。

7.根据权利要求6所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤3-2中所述去风格化生成对抗网络包括:去风格化生成网络和去风格化判别网络;

所述去风格化生成网络,其输入为所述风格化字符图像,输出为去风格化字符图像;该去风格化生成网络包括:第一编码器ey,其输入为风格化字符图像,输出为特征向量;第二生成器gy,其输入为第一编码器ey输出的特征向量,输出为去风格化字符图像;

所述去风格化判别网络,其输入为所述去风格化字符图像或者真实的内容图像,输出为一个0到1之间的数,用于表示输入的图像是真实图像的概率。

8.根据权利要求7所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤3-3中所述损失函数l包括:内容图像重构损失l1、风格化生成对抗网络损失l2和去风格化生成对抗网络损失l3,公式为:

l=l1 l2 l3

所述内容图像重构损失l1,用于保证所述内容编码器ex1能提取内容图像的核心信息,公式为:

式中,x表示输入的内容图像,λx表示内容图像重构损失的权重,λx的取值范围为0到1;

所述风格化生成对抗网络损失l2,包括第一像素损失lspix和第一对抗损失lsadv,公式为:

l2=λx1lspix λx2lsadv

式中,lspix表示第一像素损失,lsadv表示第一对抗损失,λx1、λx2分别表示lspix、lsadv的权重,λx1、λx2的取值范围为0到1;

其中,第一像素损失lspix的计算公式如下:

式中,x、y分别表示输入的内容图像和风格图像,y'表示风格化生成网络生成的图像;

第一对抗损失lsadv的计算公式如下:

式中,定义为在风格图像y和风格化生成网络生成的图像y'之间沿直线均匀采样的向量,λsadv为取值范围为0到1的权重参数,dx代表风格化判别网络;

所述去风格化生成对抗网络损失l3,包括第二像素损失ldpix、第二对抗损失ldfeat和内容特征损失ldadv,公式为:

l3=λy1ldpix λy2ldadv λy3ldfeat

式中,λy1、λy2、λy3分别为ldpix、ldadv、ldfeat的权重,且取值范围均为0到1;

其中,第二像素损失ldpix的计算公式如下:

第二对抗损失ldfeat的计算公式如下:

内容损失ldadv的计算公式如下:

9.根据权利要求8所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤4中训练所述双向生成对抗网络,具体过程包括:

步骤4-1,初始化双向生成对抗网络的参数和迭代次数;

步骤4-2,将内容图像输入至风格化生成对抗网络的内容编码器,并将内容编码器输出的特征输入至风格化生成网络,计算损失函数,并利用梯度下降法更新内容编码器的参数;

步骤4-3,将风格图像输入至去风格化生成网络,生成假的内容图像;

步骤4-4,分别将真实的内容图像和假的内容图像输入至去风格化判别网络,计算损失函数并利用梯度下降法更新去风格化判别网络的参数;

步骤4-5,将假的内容图像输入至去风格化判别网络,计算损失函数,并利用梯度下降法更新去风格化生成网络的网络参数;

步骤4-6,将内容图像和风格图像输入至风格化生成网络,生成假的风格图像;

步骤4-7,分别将真实的风格图像和假的风格图像输入至风格化判别网络,计算损失函数并利用梯度下降法更新风格化判别网络的参数;

步骤4-8,将假的风格图像输入至风格化判别网络,计算损失函数,并利用梯度下降法更新风格化生成网络的网络参数;

步骤4-9,判断当前迭代次数是否小于设定阈值,若是,重复步骤4-2~步骤4-8;否则结束双向生成对抗网络的训练。

10.根据权利要求9所述的刻蚀字符识别网络训练样本增广方法,其特征在于,步骤5所述将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像,具体包括:

步骤5-1,将内容图像和风格图像输入至训练好的风格化生成网络,生成刻蚀字符图像;

步骤5-2,对生成的刻蚀字符图像进行筛选,删除不符合预设要求的图像。

技术总结
本发明公开了一种刻蚀字符识别网络训练样本增广方法,属于图像处理技术及深度学习领域。该方法包括以下步骤:采集场景中的刻蚀字符图像;根据刻蚀字符图像生成内容图像和风格图像;构建双向生成对抗网络;训练双向生成对抗网络;将内容图像和风格图像输入至训练好的双向生成对抗网络,生成刻蚀字符图像。本发明通过生成对抗网络生成大量刻蚀字符图像,在样本规模小的情况下依旧可以获得充足的训练样本,相比较于人工采集样本更加快速高效,且生成的刻蚀字符图像更逼真,提高了利用深度学习方法识别刻蚀字符的精度。

技术研发人员:茅耀斌;曹倩倩;韩翊;刁洁;卓一;张浩;项文波;沈庆强
受保护的技术使用者:南京理工大学
技术研发日:2020.02.17
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-52857.html

最新回复(0)