一种基于双向解码的不规则文本行识别方法及系统与流程

专利2022-06-29  104


本发明属于图像识别技术领域,涉及一种基于双向解码的不规则文本行识别方法及系统。



背景技术:

目前网络资源丰富,图像成为人们日常信息的主要来源,而文字内容也大多以图像的形式存在。而文字存储了大量的语义信息,文本内容的识别,非常有助于人们对于图像场景的理解。图像中的文字可能以各种形态出现,包括印刷体、手写体、艺术体等,并且由于拍摄角度、字体排版等原因会出现各种几何形变的情况如透视形变文本、弯曲文本等,如图1所示。不规则文本受到大量背景信息的影响,导致识别率降低。尤其是弯曲文本(如图1(c))不是严格意义的从左到右空间分布的,而文字识别的传统方法均是以文字水平分布为前提,在一维空间进行从左到右的序列识别,如基于一维attention和ctc的解码算法。传统的端到端文本识别方法,编码器为cnn rnn(循环神经网络),利用rnn将二维特征图转化为一维特征序列,进行水平方向解码。而rnn网络速度较慢,且识别网络只能在一维特征空间进行,丢失了文本的空间信息。

目前不规则文本识别的最通用的算法是华中科技大学白翔教授发表在pami上的《aster:anattentionalscenetextrecognizerwithflexiblerectification》,针对不规则场景图像文本行进行几何校正后识别文本内容。其中采用的神经网络框架包括两个部分:几何校正子网络和序列文本识别子网络,其中几何校正子网络是学习tps(样条薄板差值)变换参数,利用预测的参数对不规则文本进行几何校正,后基于attention(注意力机制)进行基于字符序列的文本内容识别。不足之处,tps变换是一种较复杂的三维空间变换算法,在遇到形变较大的文本时,校正效果不佳。

其他基于aster上研发的不规则文本识别方法,多分为两种:一种是检测单个字符并分类识别,再组合为字符序列(即文本行);另一种类似aster,先对整个文本行进行几何校正,再基于ctc(connectionisttemporalclassification)或attention进行序列文本的识别。不足:第一种方法需要进行单字符的检测定位,而实际场景中字符分割是很难的,因为受光照、角度、天气、拍摄条件等影响,会出现字符粘连的现象,影响字符分割。第二种方法对整个文本行进行整体的几何校正,针对复杂文本尤其是弯曲文本较难实现很好的矫正,会出现裁切掉部分文字信息的情况。



技术实现要素:

有鉴于此,本发明的目的在于提供一种双向解码不规则文本识别方法及系统,沿着二维空间的两个方向分别进行解码,解决了不规则文本在二维空间的形变问题。无需进行字符检测和几何矫正,实现端到端的文本行识别。

为达到上述目的,本发明提供如下技术方案:

一方面,本发明提供一种基于双向解码的不规则文本行识别方法,包括以下步骤:

s1:读入图像并归一化;

s2:利用编码器提取二维特征图;

s3:将二维特征图输入双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测,即实现在二维空间上进行端到端的文本行识别。

进一步,步骤s2中,所述编码器为卷积神经网络cnn。

进一步,步骤s3中,所述双向解码网络为基于attention和ctc相结合的解码网络。

进一步,步骤s3中,具体包括以下步骤:

s31:沿图像的水平方向对二维cnn特征图的网格依次进行解码,后一格像素依赖于前一格像素的解码结果;类似沿时间轴依次进行,故水平方向上的像素序列称为时间帧序列;

s32:针对每一个时间帧序列,在竖直方向上有多个特征像素,每一个特征像素对应于原图中的一个感受野,基于一维attention机制,计算出每一个特征像素内容与预测结果的相关性,即位置权重;

s33:选择权重最大的特征像素,记录其坐标位置和相关性信息;该选中的像素解码出的字符即为该时间帧所对应的预测字符;

s34:采用ctc算法按时间帧依次进行水平方向上的下一字符的预测。

另一方面,本发明提供一种基于双向解码的不规则文本行识别系统,包括

图像输入模块,用于读入图像;

预处理模块,用于将图像尺寸归一化;

编码器模块,用于对归一化后的图像进行二维特征图提取;

解码器模块,用于对二维特征图进行解码,识别文本字符序列;

输出模块,用于输出字符序列。

进一步,所述编码器模块内搭载有积神经网络cnn。

进一步,所述解码器模块内包含有双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测。

本发明的有益效果在于:本发明不仅仅在水平方向上进行解码,而是结合水平和竖直两个方向,分别进行一维attention和ctc解码。本方法在预测出字符序列的同时,还可大概估计出字符的空间排列情况。本发明无需进行单个字符的检测,也不需要进行几何图像矫正,直接在二维空间实现端到端(即直接识别整个字符序列)的文本行识别。本发明通过水平方向的ctc解码和竖直方向的一维attention解码相结合,实现二维空间上的不规则文本识别。本发明避免了由于字符分割或几何矫正造成的文本信息丢失,充分利用文本图像的所有信息,实现二维空间上的端到端文字识别。另外,通过竖直方向上采用attention机制,可以实现字符的定位。

本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书来实现和获得。

附图说明

为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作优选的详细描述,其中:

图1为不规则文本示例,(a)常规文本;(b)倾斜和透视形变文本;(c)弯曲文本;

图2为本发明所述基于双向解码的不规则文本行识别方法流程示意图;

图3为双向序列解码示意图;

图4为双向解码网络具体工作流程图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。

其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本发明的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。

本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若有术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本发明的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。

本发明的目标是提出一种双向解码不规则文本识别方法,沿着二维空间的两个方向分别进行解码,解决了不规则文本在二维空间的形变问题。无需进行字符检测和几何矫正,实现端到端的文本行识别。

如图2所示,本系统的算法流程为:1)读入图像并归一化;2)提取二维cnn(卷积神经网络)特征图;3)将二维特征图输入双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测,即实现在二维空间上进行端到端的文本行识别。

双向解码文本识别模型采用经典的encoder-decoder(编码器-解码器)结构,编码器为传统的卷积神经特征提取网络,解码器为本发明提出的双向解码网络。传统的端到端文本识别方法,编码器为cnn rnn(循环神经网络),利用rnn将二维特征图转化为一维特征序列,进行水平方向解码。而rnn网络速度较慢,且识别网络只能在一维特征空间进行,丢失了文本的空间信息。本发明无需rnn网络进行一维特征转化,直接在二维cnn特征图上进行空间解码。解码器采用基于attention和ctc的双向解码网络。

卷积神经网络(编码器)

本发明采用经典的cnn网络作为文本图像的特征提取网络,通过卷积层、池化层等,最后输出二维特征图。无需利用rnn将特征图转化为一维特征序列,直接将二维cnn特征图输入到解码器,进行字符序列解码。

双向解码网络(解码器)

目前已有相关研究人员提出二维attention机制或二维ctc算法,对不规则文本行进行空间解码。但本发明采用一维attention和传统ctc算法相结合,实现二维空间解码。

如图3所示,网格代表二维cnn特征图。文字序列解码类似语音序列解码,故沿图像的水平方向依次进行解码,后一格像素需依赖前一格像素的解码结果,类似沿时间轴依次进行,故水平方向上的像素序列也称为时间帧序列(文字识别领域常识)。针对每一个时间帧序列,在竖直方向上有多个特征像素,每一个特征像素对应于原图中的一个感受野(某个区域),基于一维attention机制,可计算出每一个特征像素内容与预测结果的相关性(即权重),选择权重最大的那个特征像素(图中蓝色方格),记录其坐标位置和相关性信息。该选中的像素解码出的字符即为该时间帧所对应的预测字符,并采用ctc算法按时间帧依次进行下一字符的预测。通过图3可看出,该方法在预测出字符序列的同时,还可大概估计出字符的空间排列情况。解码器的网络流程如图4所示。

另一方面,本发明提供一种基于双向解码的不规则文本行识别系统,包括

图像输入模块,用于读入图像;

预处理模块,用于将图像尺寸归一化;

编码器模块,用于对归一化后的图像进行二维特征图提取;

解码器模块,用于对二维特征图进行解码,识别文本字符序列;

输出模块,用于输出字符序列。

其中,编码器模块内搭载有积神经网络cnn。解码器模块内包含有双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测。

最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。


技术特征:

1.一种基于双向解码的不规则文本行识别方法,其特征在于:包括以下步骤:

s1:读入图像并归一化;

s2:利用编码器提取二维特征图;

s3:将二维特征图输入双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测,即实现在二维空间上进行端到端的文本行识别。

2.根据权利要求1所述的基于双向解码的不规则文本行识别方法,其特征在于:步骤s2中,所述编码器为卷积神经网络cnn。

3.根据权利要求1所述的基于双向解码的不规则文本行识别方法,其特征在于:步骤s3中,所述双向解码网络为基于attention和ctc相结合的解码网络。

4.根据权利要求3所述的基于双向解码的不规则文本行识别方法,其特征在于:步骤s3中,具体包括以下步骤:

s31:沿图像的水平方向对二维cnn特征图的网格依次进行解码,后一格像素依赖于前一格像素的解码结果;类似沿时间轴依次进行,故水平方向上的像素序列称为时间帧序列;

s32:针对每一个时间帧序列,在竖直方向上有多个特征像素,每一个特征像素对应于原图中的一个感受野,基于一维attention机制,计算出每一个特征像素内容与预测结果的相关性,即位置权重;

s33:选择权重最大的特征像素,记录其坐标位置和相关性信息;该选中的像素解码出的字符即为该时间帧所对应的预测字符;

s34:采用ctc算法按时间帧依次进行水平方向上的下一字符的预测。

5.一种基于双向解码的不规则文本行识别系统,其特征在于:包括

图像输入模块,用于读入图像;

预处理模块,用于将图像尺寸归一化;

编码器模块,用于对归一化后的图像进行二维特征图提取;

解码器模块,用于对二维特征图进行解码,识别文本字符序列;

输出模块,用于输出字符序列。

6.根据权利要求5所述的基于双向解码的不规则文本行识别系统,其特征在于:所述编码器模块内搭载有积神经网络cnn。

7.根据权利要求5所述的基于双向解码的不规则文本行识别系统,其特征在于:所述解码器模块内包含有双向解码网络,以水平方向为时间帧序列进行ctc解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测。

技术总结
本发明涉及一种基于双向解码的不规则文本行识别方法,属于图像识别技术领域,包括步骤:S1:读入图像并归一化;S2:利用编码器提取二维特征图;S3:将二维特征图输入双向解码网络,以水平方向为时间帧序列进行CTC解码,每一个时间帧在竖直方向上基于attention进行位置的相关性预测,即实现在二维空间上进行端到端的文本行识别。本发明通过水平方向的CTC解码和竖直方向的一维attention解码相结合,实现二维空间上的不规则文本识别,避免由于字符分割或几何矫正造成的文本信息丢失,充分利用文本图像的所有信息,实现二维空间上的端到端文字识别。通过竖直方向上采用attention机制,可以实现字符的定位。

技术研发人员:徐卉;周祥东;石宇;程俊;罗代建
受保护的技术使用者:中国科学院重庆绿色智能技术研究院;中国科学院大学
技术研发日:2020.01.13
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-18503.html

最新回复(0)