本申请涉及文本检测领域,尤其涉及一种文本检测方法、装置、电子设备及存储装置。
背景技术:
场景文本检测是指从自然场景图像中定位出其中包含的所有文本,是文本识别的前提步骤,在图像检索,场景理解,自动驾驶和文本翻译等领域有很多应用。主流的文本检测方法可以大致分为基于回归和基于分割两类方法。这些方法存在两个主要的问题:1、由于缺乏多尺度感受野,它们对于多尺度文本的检测效果不好;2、由于相邻文本的边界框可能存在重叠,因此经常会错误地将靠得近的几个文本检测为一个。
技术实现要素:
本申请的主要目的在于提供一种文本检测方法、装置、电子设备及存储装置,可提升文本检测效果。
为实现上述目的,本申请实施例第一方面提供一种文本检测方法,包括:
提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;
采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建得到所述待检测图像中的精确的文本框。
可选的,所述文本区域中的文本置信度为[0,1]之间的实数。
可选的,所述提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图包括:
采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。
可选的,所述多种不同尺度包括1×1、3×3、5×5、7×7。
可选的,所述将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图之前,包括:
将所述多种尺度的文本特征图分别经过上采样到1/4所述待检测图像的大小。
可选的,所述根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域包括:
使用1×1卷积将所述级联文本特征图的通道数变成2,得到相同大小的两个所述级联文本特征图;
将相同大小的两个所述级联文本特征图分别上采样到所述待检测图像的大小后,在相同大小的两个所述级联文本特征图中分别提取文本区域和文本中心区域。
本申请实施例第二方面提供一种文本检测装置,包括:
提取模块,用于提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
级联模块,用于将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
预测模块,用于根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;
重建模块,用于采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建得到所述待检测图像中的精确的文本框。
可选的,所述文本区域中的文本置信度为[0,1]之间的实数。
本公开实施例第三方面提供了一种电子设备,包括:处理器;存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行本公开实施例第一方面所述的文本检测方法。
本公开实施例第四方面提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本公开实施例第一方面所述的文本检测方法。
从上述本申请实施例可知,本公开提供的文本检测方法、装置、电子设备及存储装置,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图,将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图,根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域,采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框,可从场景图像中检测出任意形状的文本,提升文本检测效果。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一实施例提供的文本检测方法的流程示意图;
图2为本申请一实施例提供的文本检测装置的结构示意图;
图3示出了一种电子设备的硬件结构框图。
具体实施方式
为使得本申请的申请目的、特征、优点能够更加的明显和易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而非全部实施例。基于本申请中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
请参阅图1,图1为本申请一实施例提供的文本检测方法的流程示意图,该方法主要包括以下步骤:
s101、提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
s102、将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
s103、根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域;
s104、采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框。
在本申请其中一个实施例中,该文本区域中的文本置信度为[0,1]之间的实数。因此,与传统的基于分割的文本检测方法将文本框内的每个点的文本置信度都统一地视为1不同,我们将文本区域的文本置信度视为是[0,1]之间的实数值,越靠近文本框的中心点的地方则文本置信度越趋向于1,即说明这个位置越可能是文本,而背景以及文本边框的得分为0,因此,可以通过特定的阈值来有效地将靠得近的几个文本框分隔开。
在本申请其中一个实施例中,步骤s101包括:采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。
其中,在文本特征提取的过程中,使用的主干网络是resnet50,并且在resnet50的stage2,stage3,stage4之后采用多种不同尺度的池化操作,目的是获取多尺度感受野,提取多尺度的文本特征,从而增强网络检测尺度变化大的文本的能力。
在本申请其中一个实施例中,该多种不同尺度包括1×1、3×3、5×5、7×7。
在本申请其中一个实施例中,步骤s102之前,包括:
将该多种尺度的文本特征图分别经过上采样到1/4该待检测图像的大小。
在本申请其中一个实施例中,该步骤s103包括:
使用1×1卷积将该级联文本特征图的通道数变成2,得到相同大小的两个该级联文本特征图;
将相同大小的两个该级联文本特征图分别上采样到该待检测图像的大小后,在相同大小的两个该级联文本特征图中分别提取文本区域和文本中心区域。
在本申请实施例中,与现有方法相比,该方法通过提取多尺度特征,使得网络能检测尺度变化大的多尺度文本,从而增强网络对于极小文本以及大文本的检测能力;其次,与现有的基于分割的文本检测方法将文本区域的所有像素的文本置信度统一视为1不同,我们创造性地将文本区域的文本置信度当作是[0,1]之间的实数,越靠近文本框中心的位置的置信度越趋向于1(表明这些地方是文本的可能性越大)。这种标签隐式地包含了文本区域的形状信息,因此网络能学习到文本的形状、大小、位置这些信息,只需要一个简单的阈值处理即可将相邻文本分隔开,而现有的基于分割的方法往往需要复杂的后处理来达到这个目的。
请参阅图2,图2为本申请一实施例提供的文本检测装置的结构示意图,该结构主要包括:
提取模块201,用于提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
级联模块202,用于将该多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
预测模块203,用于根据该级联文本特征图,预测该待检测图像中的文本区域和文本中心区域;
重建模块204,用于采用形状感知的聚类算法,根据该文本区域和文本中心区域,重建得到该待检测图像中的精确的文本框。
在本申请其中一个实施例中,该文本区域中的文本置信度为[0,1]之间的实数。因此,与传统的基于分割的文本检测方法将文本框内的每个点的文本置信度都统一地视为1不同,我们将文本区域的文本置信度视为是[0,1]之间的实数值,越靠近文本框的中心点的地方则文本置信度越趋向于1,即说明这个位置越可能是文本,而背景以及文本边框的得分为0,因此,可以通过特定的阈值来有效地将靠得近的几个文本框分隔开。
在本申请其中一个实施例中,提取模块201具体用于采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。
其中,在文本特征提取的过程中,使用的主干网络是resnet50,并且在resnet50的stage2,stage3,stage4之后采用多种不同尺度的池化操作,目的是获取多尺度感受野,提取多尺度的文本特征,从而增强网络检测尺度变化大的文本的能力。
在本申请其中一个实施例中,该多种不同尺度包括1×1、3×3、5×5、7×7。
在本申请其中一个实施例中,级联模块202之前还包括:
上采样模块,用于将该多种尺度的文本特征图分别经过上采样到1/4该待检测图像的大小。
在本申请其中一个实施例中,预测模块203具体用于使用1×1卷积将该级联文本特征图的通道数变成2,得到相同大小的两个该级联文本特征图;将相同的两个该级联文本特征图分别上采样到该待检测图像的大小后,在相同大小的两个该级联文本特征图中分别提取文本区域和文本中心区域。
参阅图3,图3示出了一种电子设备的硬件结构图。
本实施例中所描述的电子设备,包括:
存储器41、处理器42及存储在存储器41上并可在处理器上运行的计算机程序,处理器执行该程序时实现前述图1所示实施例中描述的文本检测方法。
进一步地,该电子设备还包括:
至少一个输入设备43;至少一个输出设备44。
上述存储器41、处理器42输入设备43和输出设备44通过总线45连接。
其中,输入设备43具体可为摄像头、触控面板、物理按键或者鼠标等等。输出设备44具体可为显示屏。
存储器41可以是高速随机存取记忆体(ram,randomaccessmemory)存储器,也可为非不稳定的存储器(non-volatilememory),例如磁盘存储器。存储器41用于存储一组可执行程序代码,处理器42与存储器41耦合。
进一步地,本公开实施例还提供了一种计算机可读存储介质,该计算机可读存储介质可以是设置于上述各实施例中的终端中,该计算机可读存储介质可以是前述图3所示实施例中的存储器。该计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现前述图1所示实施例中描述的文本检测方法。进一步地,该计算机可存储介质还可以是u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本申请所提供的多个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个模块或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信链接可以是通过一些接口,模块的间接耦合或通信链接,可以是电性,机械或其它的形式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能模块可以集成在一个处理模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本公开并不受所描述的动作顺序的限制,因为依据本公开,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本公开所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上为对本申请所提供的文本检测方法、装置、电子设备及存储装置的描述,对于本领域的技术人员,依据本申请实施例的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本申请的限制。
1.一种文本检测方法,其特征在于,包括:
提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;
采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建所述待检测图像中的精确的文本框。
2.根据权利要求1所述的文本检测方法,其特征在于,所述文本区域中的文本置信度为[0,1]之间的实数。
3.根据权利要求1或2所述的文本检测方法,其特征在于,所述提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图包括:
采用多种不同尺度的池化操作,提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图。
4.根据权利要求3所述的文本检测方法,其特征在于,所述多种不同尺度包括1×1、3×3、5×5、7×7。
5.根据权利要求1或2所述的文本检测方法,其特征在于,所述将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图之前,包括:
将所述多种尺度的文本特征图分别经过上采样到1/4所述待检测图像的大小。
6.根据权利要求1或2所述的文本检测方法,其特征在于,所述根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域包括:
使用1×1卷积将所述级联文本特征图的通道数变成2,得到相同大小的两个所述级联文本特征图;
将相同大小的两个所述级联文本特征图分别上采样到所述待检测图像的大小后,在相同大小的两个所述级联文本特征图中分别预测文本区域和文本中心区域。
7.一种文本检测装置,其特征在于,包括:
提取模块,用于提取待检测图像的多种尺度的文本特征,得到多种尺度的文本特征图;
级联模块,用于将所述多种尺度的文本特征图进行级联,得到包含多种尺度信息的级联文本特征图;
预测模块,用于根据所述级联文本特征图,预测所述待检测图像中的文本区域和文本中心区域;
重建模块,用于采用形状感知的聚类算法,根据所述文本区域和文本中心区域,重建得到所述待检测图像中的精确的文本框。
8.根据权利要求7所述的文本检测装置,其特征在于,所述文本区域中的文本置信度为[0,1]之间的实数。
9.一种电子设备,其特征在于,包括:
处理器;
存储器,其存储有计算机可执行程序,所述程序在被所述处理器执行时,使得所述处理器执行如权利要求1-6中任一项所述的文本检测方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-6中任一项所述的文本检测方法。
技术总结