本发明涉及一种文字识别方法,尤其涉及一种基于卷积神经网络的电力操作票文字识别方法。
背景技术:
传统基于卷积神经网络的文字识别方法直接使用cnn方法训练手写汉字图片样本集,进而得到文字分类模型。此类方法仅使用cnn方法学习图像空间特征信息,训练高效、设计简单。但是,cnn方法在训练的过程中样本有限,无法学习所有可能存在的手写字体特征,其网络结构简单,图像表示能力有限,训练易过拟合。此类方法的识别性能有待进一步提高。
为进一步提高文字识别的准确度,目前也出现了基于改进卷积神经网络的文字识别方法,使用图像变形网络gtn、仿射变形ad、弹性变形ed等文字变形方法丰富手写字体样本集,克服样本局限性;使用分数池化方法fmp、训练方法dropsample、松弛卷积神经网络r-cnn等方法优化卷积神经网络性能,克服训练过拟合、空间特征表达简单等问题。此类方法仅考虑样本集扩增、网络结构优化等方面,忽略了手写字体更深层次、细粒度的笔迹特征,如笔迹方向变化等,使得电力操作票图像文字识别的准确度低。
技术实现要素:
本发明要解决的技术问题和提出的技术任务是对现有技术方案进行完善与改进,提供一种基于卷积神经网络的电力操作票文字识别方法,以提高文字识别准确度目的。为此,本发明采取以下技术方案。
一种基于卷积神经网络的电力操作票文字识别方法,其特征在于包括以下步骤:
1)获取样本图像,得到训练集;
2)构建仅具有3层卷积层,无池化层,无全连接层的卷积神经网络模型c0;
3)定义c0的损失函数,
4)训练得到非线性映射函数fλ(p),遍历训练集c中所有样本图像,训练输出图像增强计算函数,即非线性映射函数fλ(p);
5)基于非线性映射函数fλ(p),计算输出图像p的高峰值信噪比图像;
6)使用笔迹特征计算方法,计算高峰值信噪比图像的假想笔画特征、路径签名特征与8方向特征;
7)构建具有6层卷积层、5层池化层和1层全连接层的集成卷积神经网络模型c1;
8)遍历训练集中所有样本图像,结合假想笔画特征、路径签名特征与8个方向特征,训练得到电力操作票文字识别模型;
9)获取需要识别的电力操作票,通过电力操作票文字识别模型进行文字识别。
作为优选技术手段:在步骤1)中,针对样本图像pi(pi∈c,1≤i≤n)得到训练集,其中n是训练集c包含的样本图像总数,获取pi的m×m数值矩阵ai,及其对应的清晰图像数值矩阵bi。
作为优选技术手段:在步骤2)中构建三层卷积神经网络模型c0,仅含卷积层,选择激活函数relu,步长设置为1,不对卷积运算填充0,网络结构为:
作为优选技术手段:在步骤3)中定义损失函数,损失函数目的是获得最小f范数,计算公式如下:
其中λ={wj,bj};其中
作为优选技术手段:在步骤5)中使用非线性映射函数fλ(p),计算训练集c中每一个样本图像pi对应的增强图像pi,得到新训练集c(pi∈c,1≤i≤n)。
作为优选技术手段:步骤6)包括步骤:
a)假想笔画特征提取笔迹方向变化程度,针对每一相邻像素点,计算公式如下:
其中,θ为不同笔画之间相连构成的夹角度数(180≤θ≤180),l为笔画长度,
b)路径签名特征提取笔迹曲率值,给定笔迹起止区间为[s,t],其曲率特征定义如下:
若k=0,则0重积分特征计算结果为1,表示笔迹的二值图像特征;若k=1,则1重积分特征表示笔迹的位移特征;若k=2,则2重积分特征表示笔迹的曲率特征;k值可取任意值,正常情况下不宜取值太大,否则会导致计算复杂度指数级增加,却不能获取更多有效笔迹特征;针对每一相邻像素点,计算得到pi的路径签名矩阵;
c)8方向特征能够出色地拟合汉字的横竖撇捺等笔画,可用于提取笔迹方向信息;假设给定一个二维坐标,8方向特征分别从0°,45°,90°,135°,180°225°,270°,315°计算笔迹梯度大小;给定一段笔迹的起止坐标(x1,y1)与(x2,y2),梯度计算公式如下:
其中dx=|x2-x1|,dy=|y2-y1|,
作为优选技术手段:在步骤7)中,集成卷积神经网络模型c1的第1层卷积网络的卷积核大小设置为3×3,卷积核个数为80,且依次递增80;第2~6层卷积网络的卷积核大小设置为2×2;选择激活函数relu,选择补0卷积运算,步长取1;池化层矩阵大小均为2×2;集成卷积神经网络模型c1结构为:
表2集成卷积神经网络模型c1结构
其中n表示笔迹特征维度个数。
有益效果:
1)使用自定义三层卷积神经网络训练得到非线性映射函数,输出高峰值信噪比值图像,解决输入图像低清晰度问题,有利于后续文字的准确识别;
2)基于笔迹特征方法,分别计算手写字体的假想笔画特征、路径签名特征与8方向特征,解决卷积神经网络图像空间特征学习的局限性,准确地表达了手写字体笔迹信息;
3)通过融合笔迹特征,使用集成卷积神经网络模型训练得到电力操作票文字识别模型,有效地提升了文字识别的准确度。
附图说明
图1是本发明的流程图。
具体实施方式
以下结合说明书附图对本发明的技术方案做进一步的详细说明。
如图1所示,本发明包括步骤:
1)获取样本图像,得到训练集;
2)构建仅具有3层卷积层,无池化层,无全连接层的卷积神经网络模型c0;
3)定义c0的损失函数,
4)训练得到非线性映射函数fλ(p),遍历训练集c中所有样本图像,训练输出图像增强计算函数,即非线性映射函数fλ(p);
5)基于非线性映射函数fλ(p),计算输出图像p的高峰值信噪比图像;
6)使用笔迹特征计算方法,计算高峰值信噪比图像的假想笔画特征、路径签名特征与8方向特征;
7)构建具有6层卷积层、5层池化层和1层全连接层的集成卷积神经网络模型c1;
8)遍历训练集中所有样本图像,结合假想笔画特征、路径签名特征与8个方向特征,训练得到电力操作票文字识别模型;
9)获取需要识别的电力操作票,通过电力操作票文字识别模型进行文字识别。
以上步骤分为图像增强处理、文字识别处理两个阶段。
以下就各阶段进行具体的说明:
图像增强处理阶段
图像增强处理的步骤如下:
步骤1,针对样本图像pi(pi∈c,1≤i≤n),其中n是训练集c包含的样本图像总数,获取pi的m×m数值矩阵ai,及其对应的清晰图像数值矩阵bi。
步骤2,构建三层卷积神经网络模型c0,仅含卷积层,选择激活函数relu,步长设置为1,不对卷积运算填充0,网络结构如表1所示:
表1自定义卷积神经网络模型c0结构
步骤3,定义损失函数,与bi相比较,损失函数目的是获得最小f范数,计算公式如下:
其中λ={wj,bj}。其中
步骤4,遍历训练集c中所有样本图像,训练输出图像增强计算函数,即非线性映射函数fλ(p)。
文字识别处理阶段
文字识别处理的步骤如下:
步骤1,使用非线性映射函数fλ(p),计算训练集c中每一个样本图像pi对应的增强图像pi,得到新训练集c(pi∈c,1≤i≤n)。
步骤2,基于笔迹特征计算方法,分别计算pi的假想笔画特征、路径签名特征与8方向特征。具体计算方法如下:
d)假想笔画特征提取笔迹方向变化程度,针对每一相邻像素点,计算公式如下:
其中,θ为不同笔画之间相连构成的夹角度数(180≤θ≤180),l为笔画长度,
e)路径签名特征提取笔迹曲率值,给定笔迹起止区间为[s,t],其曲率特征定义如下:
若k=0,则0重积分特征计算结果为1,表示笔迹的二值图像特征;若k=1,则1重积分特征表示笔迹的位移特征;若k=2,则2重积分特征表示笔迹的曲率特征。k值可取任意值,正常情况下不宜取值太大,否则会导致计算复杂度指数级增加,却不能获取更多有效笔迹特征。针对每一相邻像素点,计算得到pi的路径签名矩阵。
f)8方向特征能够出色地拟合汉字的横竖撇捺等笔画,可用于提取笔迹方向信息。假设给定一个二维坐标,8方向特征分别从0°,45°,90°,135°,180°225°,270°,315°计算笔迹梯度大小。给定一段笔迹的起止坐标(x1,y1)与(x2,y2),梯度计算公式如下:
其中dx=|x2-x1|,dy=|y2-y1|,
步骤3,构建集成卷积网络模型c1,该模型包含6层卷积网络,前5层卷积网络下一层均配置池化层,第6层卷积网络的下一层配置全连接层。第1层卷积网络的卷积核大小设置为3×3,卷积核个数为80,且依次递增80;第2~6层卷积网络的卷积核大小设置为2×2;选择激活函数relu,选择补0卷积运算,步长取1。池化层矩阵大小均为2×2。模型结构如表2所示,其中n表示笔迹特征维度个数。
表2集成卷积神经网络模型c1结构
步骤4,遍历训练集c中所有样本图像,结合假想笔画特征、路径签名特征与8方向特征,训练输出文字识别模型。
以上图1所示的一种基于卷积神经网络的电力操作票文字识别方法是本发明的具体实施例,已经体现出本发明实质性特点和进步,可根据实际的使用需要,在本发明的启示下,对其进行形状、结构等方面的等同修改,均在本方案的保护范围之列。
1.一种基于卷积神经网络的电力操作票文字识别方法,其特征在于包括以下步骤:
1)获取样本图像,得到训练集;
2)构建仅具有3层卷积层,无池化层,无全连接层的卷积神经网络模型c0;
3)定义c0的损失函数;
4)训练得到非线性映射函数fλ(p),遍历训练集c中所有样本图像,训练输出图像增强计算函数,即非线性映射函数fλ(p);
5)基于非线性映射函数fλ(p),计算输出图像p的高峰值信噪比图像;
6)使用笔迹特征计算方法,计算高峰值信噪比图像的假想笔画特征、路径签名特征与8方向特征;
7)构建具有6层卷积层、5层池化层和1层全连接层的集成卷积神经网络模型c1;
8)遍历训练集中所有样本图像,结合假想笔画特征、路径签名特征与8个方向特征,训练得到电力操作票文字识别模型;
9)获取需要识别的电力操作票,通过电力操作票文字识别模型进行文字识别。
2.根据权利要求1所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:在步骤1)中,针对样本图像pi(pi∈c,1≤i≤n)得到训练集,其中n是训练集c包含的样本图像总数,获取pi的m×m数值矩阵ai,及其对应的清晰图像数值矩阵bi。
3.根据权利要求2所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:在步骤2)中构建三层卷积神经网络模型c0,仅含卷积层,选择激活函数relu,步长设置为1,不对卷积运算填充0,网络结构为:
4.根据权利要求3所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:在步骤3)中定义损失函数,损失函数目的是获得最小f范数,计算公式如下:
其中λ={wj,bj};其中
5.根据权利要求4所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:在步骤5)中使用非线性映射函数fλ(p),计算训练集c中每一个样本图像pi对应的增强图像pi,得到新训练集c(pi∈c,1≤i≤n)。
6.根据权利要求5所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:步骤6)包括步骤:
a)假想笔画特征提取笔迹方向变化程度,针对每一相邻像素点,计算公式如下:
其中,θ为不同笔画之间相连构成的夹角度数(180≤θ≤180),l为笔画长度,
b)路径签名特征提取笔迹曲率值,给定笔迹起止区间为[s,t],其曲率特征定义如下:
若k=0,则0重积分特征计算结果为1,表示笔迹的二值图像特征;若k=1,则1重积分特征表示笔迹的位移特征;若k=2,则2重积分特征表示笔迹的曲率特征;k值可取任意值,正常情况下不宜取值太大,否则会导致计算复杂度指数级增加,却不能获取更多有效笔迹特征;针对每一相邻像素点,计算得到pi的路径签名矩阵;
c)8方向特征能够出色地拟合汉字的横竖撇捺等笔画,可用于提取笔迹方向信息;假设给定一个二维坐标,8方向特征分别从0°,45°,90°,135°,180°225°,270°,315°计算笔迹梯度大小;给定一段笔迹的起止坐标(x1,y1)与(x2,y2),梯度计算公式如下:
其中dx=|x2-x1|,dy=|y2-y1|,
7.根据权利要求6所述的一种基于卷积神经网络的电力操作票文字识别方法,其特征在于:在步骤7)中,集成卷积神经网络模型c1的第1层卷积网络的卷积核大小设置为3×3,卷积核个数为80,且依次递增80;第2~6层卷积网络的卷积核大小设置为2×2;选择激活函数relu,选择补0卷积运算,步长取1;池化层矩阵大小均为2×2;集成卷积神经网络模型c1结构为:
表2集成卷积神经网络模型c1结构
其中n表示笔迹特征维度个数。
技术总结