本发明涉及计算机技术领域,尤其是涉及到图像文本识别方法、装置、计算机设备及计算机存储介质。
背景技术:
随着科技的发展,图像在信息传播方面起到极大的作用。为了更好地起到宣传作用,越来越多的图像中被加入文本,例如,在涉及医疗交易平台,医疗机构需要用户上传发票图像,从而基于上传发票图像中的文本内容对发票进行核对。因此,由于图像中的文本通常包含着比较丰富的信息,对图像中的文本进行提取和识别,对于图像内容的分析、理解和信息检索等方面具有重要的意义。
现有的图像文本识别方法,一般首先检测图像中的文本信息框,然后对检测到的文本信息框进行识别,最后返回识别得到的结果,达到自动化识别,节省人力录入成本。
然而,在实际应用场景的图像中,存在复杂多样的图像内容,发票类图像或很多自然图像中的文本,通常受到不规则图像背景内容的影响,使得采用现有的图像文本识别方法存在很多漏检、误检的情况,识别准确率较低,从而导致最终的文本识别结果不全,识别得到的字段与所需字段无法对应的问题,严重影响后续的文本使用。
技术实现要素:
有鉴于此,本发明提供了一种图像文本识别方法、装置、计算机设备及计算机存储介质,主要目的在于解决目前针对场景复杂的图像文本识别准确率较低的问题。
依据本发明一个方面,提供了一种图像文本识别方法,该方法包括:
获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像;
基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息;
将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息;
对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
进一步地,所述对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段,具体包括:
从所述文本区域中的文本信息中选取预设字段作为关键字段,获取所述关键字段对应文本区域的位置信息;
根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域;
检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域,具体包括:
将所述关键字段对应文本区域沿水平和垂直方向移动预设距离,根据所述关键字段对应的文本区域的位置信息,获取移动后文本区域的位置信息;
基于所述移动后文本区域的位置信息,对所述移动预设距离后文本区域进行放大处理,确定与所述关键字段具有映射关系的模糊区域。
进一步地,所述检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息,具体包括:
检测位于所述模糊区域内所有文本区域的位置信息,并提取模糊区域内所有文本区域的文本信息;
采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息,具体包括:
通过获取适用于关键字段的模式字符,构造与关键字段相匹配的正则表达式;
根据所述与关键字段相匹配的正则表达式,对模糊区域内每个文本区域的文本信息进行校验,确认与所述关键字段具有映射关系的文本信息。
进一步地,在所述基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息之前,所述方法还包括:
将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型;
所述网络模型中包括多层结构,所述将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型,具体包括:
通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征;
通过所述网络模型的解码层根据图像样本数据对应的图像区域特征,生成水平的文本序列特征;
通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线。
进一步地,所述网络模型的预测层包括分类部分和回归部分,所述通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线,具体包括:
通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类,确定所述图像样本数据中的文本区域;
通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理,得到候选文本线。
依据本发明另一个方面,提供了一种图像文本识别装置,所述装置包括:
获取单元,用于获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像;
确定单元,用于基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息;
识别单元,用于将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息;
处理单元,用于对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
进一步地,所述处理单元包括:
选取模块,用于从所述文本区域中的文本信息中选取预设字段作为关键字段,获取所述关键字段对应文本区域的位置信息;
确定模块,用于根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域;
检测模块,用于检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述确定模块包括:
获取子模块,用于将所述关键字段对应文本区域沿水平和垂直方向移动预设距离,根据所述关键字段对应的文本区域的位置信息,获取移动后文本区域的位置信息;
确定子模块,用于基于所述移动后文本区域的位置信息,对所述移动预设距离后文本区域进行放大处理,确定与所述关键字段具有映射关系的模糊区域。
进一步地,所述检测模块包括:
提取子模块,用于检测位于所述模糊区域内所有文本区域的位置信息,并提取模糊区域内所有文本区域的文本信息;
确认子模块,用于采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述确认子模块,具体用于通过获取适用于关键字段的模式字符,构造与关键字段相匹配的正则表达式;
所述确认子模块,具体还用于根据所述与关键字段相匹配的正则表达式,对模糊区域内每个文本区域的文本信息进行校验,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述装置还包括:
训练单元,用于在所述基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息之前,将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型;
所述网络模型中包括多层结构,所述训练单元包括:
提取模块,用于通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征;
生成模块,用于通过所述网络模型的解码层根据图像样本数据对应的图像区域特征,生成水平的文本序列特征;
预测模块,用于通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线。
进一步地,所述网络模型的预测层包括分类部分和回归部分,所述预测模块包括:
分类子模块,用于通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类,确定所述图像样本数据中的文本区域;
处理子模块,用于通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理,得到候选文本线。
依据本发明又一个方面,提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现图像文本识别方法的步骤。
依据本发明再一个方面,提供了一种计算机存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现图像文本识别方法的步骤。
借由上述技术方案,本发明提供一种图像文本识别方法及装置,通过获取待识别图像,对待识别图像进行预处理,得到目标识别图像,并基于预先训练的文本区域检测模型,确定目标识别图像中文本区域的位置信息,在将目标识别图像以及目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型后,识别得到文本区域中的文本信息,将文本区域的文本信息结构化处理为具有映射关系的文本字段。与现有技术中图像文本识别方法相比,本申请通过对识别后的文本信息进行结构化处理,能够有效去除图像中的干扰信息,精确保留图像的文本信息,使得在文本区域检测以及文本信息识别的图像不受背景干扰,从而输出实现不同字段的对应关系,提高图像文本识别的准确率。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种图像文本识别方法的流程示意图;
图2示出了本发明实施例提供的另一种图像文本识别方法的流程示意图;
图3示出了本发明实施例提供的一种图像文本识别装置的结构示意图;
图4示出了本发明实施例提供的另一种图像文本识别装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本发明实施例提供了一种图像文本识别方法,能够对服务调用方进行安全认证,保证服务调用的安全性,如图1所示,该方法包括:
101、获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像。
其中,待识别图像可以是发票图像、广告图像、商品图像等。这里对待识别图像进行预处理过程可以包括但不局限于对图像旋转校正、对图像去除背景干扰。
可以理解的是,用户在上传待识别图像的时候可能并未考虑图像的方向以及拍摄角度等问题,例如,有的用户习惯使用横向拍摄,有的用户习惯使用竖向拍摄。为了便于后续对图像进行处理,需要对图像进行角度规整,这里可以基于神经网络,用resnet152网络预先训练一个4分类模型,分类模型在输入待识别图像后,可以给出预测角度:0度、90度、180度和270度,根据分类模型输出的预测角度,对待识别图像进行旋转矫正。
具体分类模型的训练过程实现过程可以如下:首选准备4个类别图像作为训练数据,分别是0度、90度、180度和270度的图像以及对应角度标签;然后将训练数据输入至resnet152网络中,网络提取每一张图像的特征,并预测对应的角度,基于预测值与角度标签的实际值之间的偏差作为损失,进行反向传播,更新网络中的参数,在分类模型训练完成后,保留前向传播,对待识别图像进行角度预测,得到预测角度,并将待识别图像对应预测角度不为0度的都旋转矫正为0度,以使得待识别图像对应的预测角度统一为0度,从而得到同一角度的待识别图像。
可以理解的是,用户上传的待识别图像通常包含复杂的背景信息,有的背景纹理和文本纹理非常相似,有的甚至包含文本,这些背景对识别和检测造成极大干扰,需要去除图像背景干扰,这里可以基于deeplab-v3构建的网络模型结合图像分割技术对待识别图像进行图像的背景和前景分割,计算前景的最小外界矩形,沿着最小外接矩阵切除背景。
具体基于deeplab-v3构建的网络模型结合图像分割技术对待识别图像进行图像的背景和前景分割的实现过程可以如下:首先准备训练数据,图像数据集与对应的标签,每张图像的标签对应像素大小与原图大小一致,标签对应的像素值为0表示图像背景,标签对应的像素值为255表示图像前景,搭建deeplab-v3网络,并输入训练数据,对每个像素进行二分类预测,并计算预测值与标签的实像素值之间的损失,然后反向传播,更新网络中的参数,直至网络模型的准确率评价指标mean-iou达到预设值。基于构建的网络模型对待识别图像中的像素进行识别,得到图像中前景与背景的标记,即识别为像素值为0的标记为图像背景,识别出像素值为255的标记为图像的前景,基于背景的标记对待识别图像进行分割,去除待识别图像的背景。
在经过预处理后的待识别图像能够更好的表达图像特征,从而作为目标图像进一步去识别图像中的文本。
102、基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息。
其中,预先训练的文本框检测模型可以使用开源detectingtextinnaturalimagewithconnectionisttextproposalnetwork(ctpn)框架,每张目标识别图像经过文本区域检测模型会有对应的输出文件,该输出文件存储所有文本区域检测所得的位置信息,通过该输出文件可以确定目标识别图像中文本区域的位置信息。
具体训练文本区域检测模型的过程可以如下:首先准备训练数据,即图像以及图像对应的标签文件,标签文件中存储图像中文本区域的坐标信息,为了便于后续对图像中文本区域进行检测,每个训练数据输入至ctpn网络之前,需要对文本区域所标注的坐标信息转换为宽为8的小anchor,ctpn网络结构采用cnn blstm rpn的形式,cnn用来提取图像中感受野的空间特征,感受野就是输出featuremap(通过卷积核卷积出来的)某个节点的响应对应的输入图像的区域,blstm能够基于感受野的空间特征生成水平的文本序列特征,rpn包括两部分,anchor分类和boundingboxregressing回归,经过上述anchor分类能够对确定各个区域是否为文本区域,经过boundingboxregressing回归处理后,会获得一组竖直条状的候选文本线。
需要说明的是,经过预先训练的文本区域检测模型输出的并不直接是目标识别图像中的文本区域,而是组成目标识别图像中文本区域的一组竖直条状的候选文本线,可以使用文本线构造算法,将一组一组竖直条状的候选文本线连接成文本区域,从而确定目标识别图像中的文本区域以及文本区域的位置信息。
103、将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息。
其中,文本识别模型可以采用anend-to-endtrainableneuralnetworkforimaged-basedsequencerecognitionanditsapplicationtoscenetextrecognition(crnn)的算法训练识别模型,目标识别图像以及目标识别图像中文本区域的位置信息经过文本识别模型后,输出每一个文本区域对应的文本识别结果。
具体训练crnn模型的过程可以如下:首先训练数据采用图像及图像中文本区域的文本信息的标签方式进行存储,crnn网络结构采用cnn rnn ctc的形式,cnn用来提取图像中感受野的空间特征,rnn能够基于感受野的空间特征预测图像中每一帧的标签分布,ctc能够将每一帧的标签分布进行整合等操作变为最终的标签序列。例如,输入图片resize到w*32的大小,经过文本识别模型输出的预测值表示目标识别图像中文本区域对应的文本信息。
104、对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
由于识别模型得到文本区域中的文本信息中包含的可能有各种类型,例如。文本类型、数字类型、特殊字符类型等,并且它们之间可能存在映射关系,例如,与“支付金额”文本区域对应的有“37.5元整”文本区域,与“性别”文本框对应的有“女”文本区域,通过对文本信息进行结构化输出,可以清晰看出文本信息之间映射关关系。
具体地,可以将图像中特定文本区域识别的文本信息作为关键字段,基于关键字段去定位与其具有映射关系的文本字段对应的模糊区域,进而将与关键字段具有映射关系的字段锁定在一个区域范围,进而对区域范围内的文本信息进行校验,从而确认与关键字段具有映射关系的文本信息,同理,对于图像中其他字段可以使用同样的方式,进而得到具有映射关系的文本字段。
本发明实施例提供的一种图像文本识别方法,通过获取待识别图像,对待识别图像进行预处理,得到目标识别图像,并基于预先训练的文本区域检测模型,确定目标识别图像中文本区域的位置信息,在将目标识别图像以及目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型后,识别得到文本区域中的文本信息,将文本区域的文本信息结构化处理为具有映射关系的文本字段。与现有技术中图像文本识别方法相比,本申请通过对识别后的文本信息进行结构化处理,能够有效去除图像中的干扰信息,精确保留图像的文本信息,使得在文本区域检测以及文本信息识别的图像不受背景干扰,从而输出实现不同字段的对应关系,提高图像文本识别的准确率。
本发明实施例提供了另一种图像文本识别方法,能够对服务调用方进行安全认证,保证服务调用的安全性,如图2所示,所述方法包括:
201、获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像。
对于本发明实施例,具体获取待识别图像,对待识别图像进行预处理,得到目标识别图像的过程可以参照步骤101中所描述的内容,在此不进行赘述。
202、将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型。
其中,图像样本数据可以为从不同场景搜集的图像,能够反映不同场景下的图像特征,例如,医学领域的图像特征较为简单或者渐变,工业现场的图像背景场景较为复杂且文本区域相对较小,自然场景的图像背景受到自然因素影响较高,背景复杂程度难以预测。
可以理解的是,无论哪一种场景下的图像,在通用目标检测中,每个目标都有一个明确的封闭边界,而在图像中由于文本行或者单词是由许多单独的字符或笔画组成的,可能不存在这样一个明确定义的边界,需要先检测图像中的文本区域,具体可以通过对图像样本数据中每个图像包含的文本区域进行标注,训练标注后的图像样本数据,构建文本区域检测模型,利用文本区域检测模型将图像中的文本区域检测出来,从而对图像中的文本进行识别。
对于本发明实施例,网络模型可以采用ctpn网络框架,包括3层结构组成,第一层为卷积结构,也就是cnn结构,通过卷积层提取图像样本数据对应的图像区域特征,能够学习感受野的空间信息;第二层为解码层,也就是blstm结构,通过解码层根据图像样本数据对应的图像区域特征,生成水平的文本序列特征,能够较好地应对水平文本这种序列特征;第三层为预测层,也就是rpn结构,通过预测层根据水平的文本序列特征确定图像样本数据中的文本区域,并将文本区域处理得到候选文本线。
具体的,网络模型的预测层包括分类部分和回归部分,在通过网络模型的预测层根据水平的文本序列特征确定图像样本数据中的文本区域,并将文本区域处理得到候选文本线的过程中,可以通过网络模型的预测层的分类部分根据水平的文本序列特征对图像样本数据中的各个区域进行分类,确定图像样本数据中的文本区域;通过网络模型的预测层的回归部分对图像文本数据中的文本区域进行边框回归处理,得到候选文本线。
在具体实施的过程中,在卷积层部分,ctpn可以选取vgg模型中conv5的featuremaps作为图像最后的特征,此时featuremaps的尺寸为h×w×c;接着由于文本之间的序列关系,在解码层可以采用3×3的滑动窗口提取featuremaps上每个点周围3×3的区域作为该点的特征向量表示,此时,图像的尺寸变为h×w×9c,然后将每一行作为序列的长度,高度作为batch_size,传入一个128维的bi-lstm,得到解码层的输出为w×h×256;最后将解码层输出接入预测层,预测层包括两个部分,anchor分类和boundingboxregressing,经过anchor分类能够确定图像中各个区域是否为文本区域,经过boundingboxregressing处理后,会获得一组竖直条状的候选文本线,并携带该候选文本线是否为文本区域的标签。
进一步地,为了保证训练得到的文本区域检测模型预测的准确度,预先设置的损失函数能够基于文本区域检测模型输出的结果与真实的文本区域所标注的数据之间的偏差对文本区域检测模型中多层结构进行参数调整。对于本发明实施例,预先训练的损失函数包括3部分,第一部分为用于检测anchor是否为文本区域的损失函数;第二部分为用于检测anchor的y坐标offset回归的损失函数;第三部分为用于检测anchor的x坐标offset回归的损失函数。
203、基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息。
可以理解的是,每张图像经过文本区域检测模型会有对应的输出文件,该输出文件存储图像中所有候选文本线的位置信息以及该候选文本线是否为文本区域的标签,这里的候选文本线相当于文本区域拆分出的竖直条状的线,通过见候选文本线连接,可以确定目标图像中文本区域的位置信息。
204、将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息。
可以理解的是,经过训练的文本识别模型具有识别文本区域中文本信息的能力,由于训练文本识别模型的过程中,使用样本图像以及样本图像中文本区域的位置信息标签,通过前向传播以及反向偏差纠正,不断调整文本识别模型的参数,使得通过文本识别模型的图像能够准确识别出文本区域中的文本信息。
205、从所述文本区域中的文本信息中选取预设字段作为关键字段,获取所述关键字段对应文本区域的位置信息。
由于关键字段通常为图像中比较有参考价值的字段,对于发票类的图像,通常可以选取发票编号、合计金额、医保类型、数量、日期时间等字段为预设字段,作为关键字段,这里可以通过文本区域检测模型得到关键字段对应的坐标信息。
206、根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域。
对于本发明实施例,为了能够准确定位与关键字段相映射的文本信息,由于与关键字段具有映射关系的文本信息通常会位于关键字段的一侧,这里可以通过确定与关键字段具有映射关系的模糊区域,将与关键字段相映射的文本信息定位在一个模糊区域内的范围,例如,关键字段对应文本区域的坐标信息可以为[(xmin,ymin),(xmax,ymax)],其中,(xmin,ymin)为左上角的坐标,(xmax,ymax)为右下角的坐标,那么,与关键字段具有映射关系的模糊区域的坐标信息可以为[(xmin,ymin 2/3(ymax-ymin)),(xmin 1/2(xmax-xmin),ymax)],其中,(xmin,ymin 2/3(ymax-ymin))为左上角的坐标,(xmin 1/2(xmax-xmin),ymax)为右下角坐标。
具体可以通过将关键字段对应文本区域沿水平和垂直方向移动预设距离,根据关键字段对应的文本区域的位置信息,获取移动后文本区域的位置信息,例如,沿着水平方向移动1/2(xmax-xmin)的距离,沿着垂直方向移动2/3(ymax-ymin)的距离,由于移动后文本区域可能并未将与关键字段具有映射关系的文本信息所涵盖,基于移动后文本区域的位置信息,对移动预设距离后文本区域进行放大处理,确定与所述关键字段具有映射关系的模糊区域。
207、检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息。
具体可以通过检测位于模糊区域内所有文本区域的位置信息,并提取模糊区域内所有文本区域的文本信息,由于模糊区域内所有文本区域的文本信息并非都是与关键字段具有映射关系的文本信息,进一步采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息。
对于本发明实施例,在采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息的过程中,具体可以通过获取适用于关键字段的模式字符,构造与关键字段相匹配的正则表达式,例如,对于合计金额作为关键字段的情况,适用于合计金额的模式字符可以包括整零、壹、贰、叁、肆、伍、陆、柒、捌、玖、万、佰、元、圆等,构造的正则表达式可以但不为“([整零壹贰叁肆伍陆柒捌玖]{1,2}万){0,1}([整零壹贰叁肆伍陆柒捌玖]{1,2}仟){0,1}([整零壹贰叁肆伍陆柒捌玖]{1,2}佰){0,1}([整零壹贰叁肆伍陆柒捌玖]{1,2}拾){0,1}零{0,1}([整零壹贰叁肆伍陆柒捌玖]{0,2}[元圆]){0,1}([整零壹贰叁肆伍陆柒捌玖]{1,2}角){0,1}([整零壹贰叁肆伍陆柒捌玖]{1,2}分){0,1}整{0,1}”。根据与关键字段相匹配的正则表达式,对模糊区域内每个文本区域的文本信息进行校验,确认与关键字段具有映射关系的文本信息,从而满足正则表达式的文本信息即为与关键字段具有映射关系的文本信息。
需要说明的是,由于不同文本信息中的字段格式以及类型有所不同,对于有些字段适用于正则匹配的方式来进行结构化确认,其他字段的结构化确认可以采用坐标计算的方式,具体可以以关键字段的左下角坐标为基础,以关键字段文本区域的高度作为点移动的计算单位,计算离这个点最近的文本区域作为下一个关键字段的文本区域,基于下一个关键字段的文本区域进一步确认与该关键字段具有映射关系的文本字段。
进一步地,作为图1所述方法的具体实现,本发明实施例提供了一种图像文本识别装置,如图3所示,所述装置包括:获取单元31、确定单元32、识别单元33、处理单元34。
获取单元31,可以用于获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像;
确定单元32,可以用于基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息;
识别单元33,可以用于将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息;
处理单元34,可以用于对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
本发明实施例提供的一种图像文本识别装置,通过获取待识别图像,对待识别图像进行预处理,得到目标识别图像,并基于预先训练的文本区域检测模型,确定目标识别图像中文本区域的位置信息,在将目标识别图像以及目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型后,识别得到文本区域中的文本信息,将文本区域的文本信息结构化处理为具有映射关系的文本字段。与现有技术中图像文本识别方法相比,本申请通过对识别后的文本信息进行结构化处理,能够有效去除图像中的干扰信息,精确保留图像的文本信息,使得在文本区域检测以及文本信息识别的图像不受背景干扰,从而输出实现不同字段的对应关系,提高图像文本识别的准确率。
作为图3中所示图像文本识别装置的进一步说明,图4是根据本发明实施例另一种图像文本识别装置的结构示意图,如图4所示,所述处理单元34包括:
选取模块341,可以用于从所述文本区域中的文本信息中选取预设字段作为关键字段,获取所述关键字段对应文本区域的位置信息;
确定模块342,可以用于根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域;
检测模块343,可以用于检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述确定模块342包括:
获取子模块3421,可以用于将所述关键字段对应文本区域沿水平和垂直方向移动预设距离,根据所述关键字段对应的文本区域的位置信息,获取移动后文本区域的位置信息;
确定子模块3422,可以用于基于所述移动后文本区域的位置信息,对所述移动预设距离后文本区域进行放大处理,确定与所述关键字段具有映射关系的模糊区域。
进一步地,所述检测模块343包括:
提取子模块3431,可以用于检测位于所述模糊区域内所有文本区域的位置信息,并提取模糊区域内所有文本区域的文本信息;
确认子模块3432,可以用于采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述确认子模块3432,具体可以用于通过获取适用于关键字段的模式字符,构造与关键字段相匹配的正则表达式;
所述确认子模块3432,具体还可以用于根据所述与关键字段相匹配的正则表达式,对模糊区域内每个文本区域的文本信息进行校验,确认与所述关键字段具有映射关系的文本信息。
进一步地,所述装置还包括:
训练单元35,可以用于在所述基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息之前,将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型;
所述网络模型中包括多层结构,所述训练单元35包括:
提取模块351,可以用于通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征;
生成模块352,可以用于通过所述网络模型的解码层根据图像样本数据对应的图像区域特征,生成水平的文本序列特征;
预测模块353,可以用于通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线。
进一步地,所述网络模型的预测层包括分类部分和回归部分,所述预测模块353包括:
分类子模块3531,可以用于通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类,确定所述图像样本数据中的文本区域;
处理子模块3532,可以用于通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理,得到候选文本线。
需要说明的是,本实施例提供的一种图像文本识别装置所涉及各功能单元的其他相应描述,可以参考图1、图2中的对应描述,在此不再赘述。
基于上述如图1、图2所示方法,相应的,本实施例还提供了一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述如图1、图2所示的图像文本识别方法。
基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是cd-rom,u盘,移动硬盘等)中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施场景所述的方法。
基于上述如图1、图2所示的方法,以及图3、图4所示的虚拟装置实施例,为了实现上述目的,本申请实施例还提供了一种计算机设备,具体可以为个人计算机、服务器、网络设备等,该实体设备包括存储介质和处理器;存储介质,用于存储计算机程序;处理器,用于执行计算机程序以实现上述如图1、图2所示的图像文本识别方法。
可选地,该计算机设备还可以包括用户接口、网络接口、摄像头、射频(radiofrequency,rf)电路,传感器、音频电路、wi-fi模块等等。用户接口可以包括显示屏(display)、输入单元比如键盘(keyboard)等,可选用户接口还可以包括usb接口、读卡器接口等。网络接口可选的可以包括标准的有线接口、无线接口(如蓝牙接口、wi-fi接口)等。
本领域技术人员可以理解,本实施例提供的图像文本识别装置的实体设备结构并不构成对该实体设备的限定,可以包括更多或更少的部件,或者组合某些部件,或者不同的部件布置。
存储介质中还可以包括操作系统、网络通信模块。操作系统是管理上述计算机设备硬件和软件资源的程序,支持信息处理程序以及其它软件和/或程序的运行。网络通信模块用于实现存储介质内部各组件之间的通信,以及与该实体设备中其它硬件和软件之间通信。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本申请可以借助软件加必要的通用硬件平台的方式来实现,也可以通过硬件实现。通过应用本申请的技术方案,与目前现有技术相比,本申请通过对识别后的文本信息进行结构化处理,能够有效去除图像中的干扰信息,精确保留图像的文本信息,使得在文本区域检测以及文本信息识别的图像不受背景干扰,从而输出实现不同字段的对应关系,提高图像文本识别的准确率。
本领域技术人员可以理解附图只是一个优选实施场景的示意图,附图中的模块或流程并不一定是实施本申请所必须的。本领域技术人员可以理解实施场景中的装置中的模块可以按照实施场景描述进行分布于实施场景的装置中,也可以进行相应变化位于不同于本实施场景的一个或多个装置中。上述实施场景的模块可以合并为一个模块,也可以进一步拆分成多个子模块。
上述本申请序号仅仅为了描述,不代表实施场景的优劣。以上公开的仅为本申请的几个具体实施场景,但是,本申请并非局限于此,任何本领域的技术人员能思之的变化都应落入本申请的保护范围。
1.一种图像文本识别方法,其特征在于,所述方法包括:
获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像;
基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息;
将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息;
对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
2.根据权利要求1所述的方法,其特征在于,所述对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段,具体包括:
从所述文本区域中的文本信息中选取预设字段作为关键字段,获取所述关键字段对应文本区域的位置信息;
根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域;
检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息。
3.根据权利要求2所述的方法,其特征在于,所述根据所述关键字段对应文本区域的位置信息,确定与所述关键字段具有映射关系的模糊区域,具体包括:
将所述关键字段对应文本区域沿水平和垂直方向移动预设距离,根据所述关键字段对应的文本区域的位置信息,获取移动后文本区域的位置信息;
基于所述移动后文本区域的位置信息,对所述移动预设距离后文本区域进行放大处理,确定与所述关键字段具有映射关系的模糊区域。
4.根据权利要求2所述的方法,其特征在于,所述检测并查询所述模糊区域内所识别得到的文本信息,确认与所述关键字段具有映射关系的文本信息,具体包括:
检测位于所述模糊区域内所有文本区域的位置信息,并提取模糊区域内所有文本区域的文本信息;
采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息。
5.根据权利要求4所述的方法,其特征在于,所述采用正则匹配的方式遍历模糊区域内每个文本区域的文本信息,确认与所述关键字段具有映射关系的文本信息,具体包括:
通过获取适用于关键字段的模式字符,构造与关键字段相匹配的正则表达式;
根据所述与关键字段相匹配的正则表达式,对模糊区域内每个文本区域的文本信息进行校验,确认与所述关键字段具有映射关系的文本信息。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在所述基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息之前,所述方法还包括:
将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型;
所述网络模型中包括多层结构,所述将收集的图像样本数据进行文本区域标注后输入至网络模型中进行训练,得到文本区域检测模型,具体包括:
通过所述网络模型的卷积层提取图像样本数据对应的图像区域特征;
通过所述网络模型的解码层根据图像样本数据对应的图像区域特征,生成水平的文本序列特征;
通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线。
7.根据权利要求6所述的方法,其特征在于,所述网络模型的预测层包括分类部分和回归部分,所述通过所述网络模型的预测层根据所述水平的文本序列特征确定所述图像样本数据中的文本区域,并将所述文本区域处理得到候选文本线,具体包括:
通过所述网络模型的预测层的分类部分根据所述水平的文本序列特征对所述图像样本数据中的各个区域进行分类,确定所述图像样本数据中的文本区域;
通过所述网络模型的预测层的回归部分对所述图像文本数据中的文本区域进行边框回归处理,得到候选文本线。
8.一种图像文本识别装置,其特征在于,所述装置包括:
获取单元,用于获取待识别图像,对所述待识别图像进行预处理,得到目标识别图像;
确定单元,用于基于预先训练的文本区域检测模型,确定所述目标识别图像中文本区域的位置信息;
识别单元,用于将所述目标识别图像以及所述目标识别图像中文本区域的位置信息输入至预先训练的文本识别模型中,得到文本区域中的文本信息;
处理单元,用于对所述文本区域中的文本信息进行结构化处理,得到具有映射关系的文本字段。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
技术总结