一种用于端到端的文字检测与识别的方法和装置与流程

专利2022-06-29  58


本申请涉及计算机技术领域,尤其涉及一种用于端到端的文字检测与识别的技术方案。



背景技术:

自动文本的检测与识别算法要求模型能够在自然图像中同时进行文本的定位和文字的识别,这项任务在许多实际应用中起着至关重要的作用,例如在自动驾驶、图像检索、工业自动化等领域的很多场景下,均需要文本的检测与识别。现有技术中,相关领域的学者提出了很多方法来解决这个任务,它们可以分为两类:端到端和两阶段(two-stage)。然而,传统方案中,普遍将文本的检测与识别当作两个独立的任务分开运行,具体的步骤如下:检测模型首先在图像中定位文本实例,之后识别模型对检测到的文本区域进行解码。

图1示出了传统two-stage的文字识别系统流程,具体如下:输入图片(image),先经过第一个featureencoder(特征提取器)进行第一次特征抽取,然后进行文本检测(textdetection)获得检测结果(detectionresults),之后经过第二个featureencoder进行第二次特征抽取,再之后进行文本识别(textrecognition)。虽然two-stage的方案普及了一段时间,但该方案存在如下缺点:1)非端到端系统会导致错误从检测网络传播到识别网络上去,导致所使用的系统不稳定;2)分两步运行的操作需要使用两个独立的特征抽取模型来提取特征(也即两次特征抽取是独立的),大大增加了计算负担;3)分别优化两个系统会使得最后的文本识别算法存在局部优化问题。因此,为了满足在现实应用中快速执行和高性能的相关要求,业界开始关注端到端文本识别与检测,并且取得了一定的提升。图2示出了现有的端到端的文字识别系统流程,由图2可见,相比图1所示的two-stage的方案,端到端的文字识别系统仅仅共享检测与识别两个系统的特征抽取分支。尽管端到端的文字检测与识别能一定程度上提升模型的能力,但该方案仍然存在着一些问题,例如,无法很好的处理不规则形状的文本的问题、由于缺少字符位置信息导致现有注意力网络在解决文本识别问题的时候存在着预测的感兴趣区域与实际区域无法对准的问题等。



技术实现要素:

本申请的目的是提供一种用于端到端的文字检测与识别的技术方案。

根据本申请的一个实施例,提供一种用于端到端的文字检测与识别的方法,其中,所述方法包括:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

根据本申请的另一个实施例,还提供了一种用于端到端的文字检测与识别的装置,其中,所述装置包括:

用于将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息的装置;

用于将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果的装置,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果的装置;

用于根据所述字符检测结果和所述文字识别结果生成最终识别结果的装置。

根据本申请的另一个实施例,还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如下操作:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

根据本申请的另一个实施例,还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如下操作:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

根据本申请的另一个实施例,还提供了一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行如下操作:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

与现有技术相比,本申请具有以下优点:1)从字符的角度来进行文字检测,能够更好的应对文字的形变以及不定长问题;2)通过将文字检测网络中预测的字符级别的字符检测结果提供给文字识别网络,能够使得文字识别网络中的注意力网络利用字符检测结果来进行预测,从而解决现有注意力网络可能存在的预测区域与实际区域未对准的问题;3)能够基于文字识别网络在文字识别过程中所产生的中间结果信息,来改善文字检测网络的预测结果,从而能够实现更准确的文字识别,且能够更好的将文字检测系统与文字识别系统相融合。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:

图1示出了传统two-stage的文字识别系统流程;

图2示出了现有的端到端的文字识别系统流程;

图3示出了本申请一个实施例的用于端到端的文字检测与识别的方法的流程示意图;

图4示出了本申请一个示例的用于改善字符检测结果的流程示意图;

图5示出了本申请一个示例的用于端到端的文字检测与识别的系统的架构示意图;

图6示出了本申请一个示例的用于端到端的文字检测与识别的装置的结构示意图。

图7示出了可被用于实施本申请中所述的各个实施例的示例性系统。

附图中相同或相似的附图标记代表相同或相似的部件。

具体实施方式

在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

在上下文中所称“设备”,是指可以通过运行预定程序或指令来执行数值计算和/或逻辑计算等预定处理过程的智能电子设备,其可以包括处理器与存储器,由处理器执行在存储器中预存的程序指令来执行预定处理过程,或是由专用集成电路(asic)、现场可编程门阵列(fpga)、数字信号处理器(dsp)等硬件执行预定处理过程,或是由上述二者组合来实现。

本申请的技术方案主要由计算机设备来实现。其中,所述计算机设备包括网络设备和用户设备。所述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算(cloudcomputing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。所述用户设备包括但不限于pc机、平板电脑、智能手机、iptv、pda、可穿戴设备等。其中,所述计算机设备可单独运行来实现本申请,也可接入网络并通过与网络中的其他计算机设备的交互操作来实现本申请。其中,所述计算机设备所处的网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。

需要说明的是,上述计算机设备仅为举例,其他现有的或今后可能出现的计算机设备如可适用于本申请,也应包含在本申请保护范围以内,并以引用方式包含于此。

本文后面所讨论的方法(其中一些通过流程图示出)可以通过硬件、软件、固件、中间件、微代码、硬件描述语言或者其任意组合来实施。当用软件、固件、中间件或微代码来实施时,用以实施必要任务的程序代码或代码段可以被存储在机器或计算机可读介质(比如存储介质)中。(一个或多个)处理器可以实施必要的任务。

这里所公开的具体结构和功能细节仅仅是代表性的,并且是用于描述本申请的示例性实施例的目的。但是本申请可以通过许多替换形式来具体实现,并且不应当被解释成仅仅受限于这里所阐述的实施例。

应当理解的是,虽然在这里可能使用了术语“第一”、“第二”等等来描述各个单元,但是这些单元不应当受这些术语限制。使用这些术语仅仅是为了将一个单元与另一个单元进行区分。举例来说,在不背离示例性实施例的范围的情况下,第一单元可以被称为第二单元,并且类似地第二单元可以被称为第一单元。这里所使用的术语“和/或”包括其中一个或更多所列出的相关联项目的任意和所有组合。

这里所使用的术语仅仅是为了描述具体实施例而不意图限制示例性实施例。除非上下文明确地另有所指,否则这里所使用的单数形式“一个”、“一项”还意图包括复数。还应当理解的是,这里所使用的术语“包括”和/或“包含”规定所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或更多其他特征、整数、步骤、操作、单元、组件和/或其组合。

还应当提到的是,在一些替换实现方式中,所提到的功能/动作可以按照不同于附图中标示的顺序发生。举例来说,取决于所涉及的功能/动作,相继示出的两幅图实际上可以基本上同时执行或者有时可以按照相反的顺序来执行。

下面结合附图对本申请作进一步详细描述。

图3为本申请一个实施例的用于端到端的文字检测与识别的方法的流程示意图。根据本实施例的方法包括步骤s11、步骤s12、步骤s13和步骤s14。在步骤s11中,计算机设备将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;在步骤s12中,计算机设备将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;在步骤s13中,计算机设备将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;在步骤s14中,计算机设备根据所述字符检测结果和所述文字识别结果生成最终识别结果。可选地,本实施例的方法是基于anchor-free(不需要锚节点)目标检测实现的。

在步骤s11中,计算机设备将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息。所述目标图片也即待识别的图片,所述目标图片中包含文字内容;在一些实施例中,所述计算机设备可采用任何可行实现方式来获得所述目标图片,例如通过拍摄获得目标图片、从本地获得目标图片、接收其他设备发送的目标图片等。所述特征提取网络可为任何用于从图片中提取特征的网络模型,如所述特征提取网络的主干网络采用的vgg(visualgeometrygroup,视觉几何组)以及batchnormalization(批标准化);在一些实施例中,采集数据集,并使用深度学习神经网络对数据集进行训练,得到所述特征提取网络。在一些实施例中,所述共享特征信息包括任何与能够用于文字检测网络和文字识别网络的共享特征相关的信息。需要说明的是,本申请对所述特征提取网络和所述共享特征信息并不作具体限定,任何用于进行特征提取的网络模型均应包含在本申请所述的特征提取网络的范围内,任何与能够用于文字检测网络和文字识别网络的共享特征相关的信息均应包含在本申请所述的共享特征信息的范围内。

在步骤s12中,计算机设备将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果。需要说明的是,上下文中,所述文字检测网络所在的分支也可称为“文字检测分支”,该分支也可称为“文字检测系统”,该分支用于进行文字检测。在一些实施例中,所述文字检测网络包括任何能够进行字符级别文字区域检测的网络模型。在一些实施例中,所述文字检测网络使用分割模型来实现字符级别文字区域检测;在一些实施例中,使用vgg网络加全卷积网络作为所述分割模型,以通过所述分割模型输出字符区域检测结果和字符连接区域检测结果。所述字符区域检测结果用于指示针对所述目标图片检测得到的字符区域相关的检测结果,如检测得到的各个字符区域、单字符中心区域的概率等;所述字符连接区域检测结果用于指示针对所述目标图片检测得到的字符连接区域相关的检测结果,如检测得到的各个字符连接区域、字符连接区域中心的概率,其中,一个字符连接区域用于表征相邻两个字符之间的连接区域。在一些实施例中,所述文字检测网络采用高斯热度图来生成所述字符区域检测结果和所述字符连接区域检测结果,也即,所述字符区域检测结果以高斯热度图来表征字符中心区域的概率,所述字符连接区域检测结果以高斯热度图来表征相邻字符连接区域中心的概率;在一些实施例中,所述字符区域检测结果包括字符区域高斯图,可选地还包括字符区域边框;所述字符连接区域检测结果包括字符连接区域高斯图,可选地还包括字符连接区域边框;需要说明的是,采用高斯热度图的好处在于能够很好地处理没有严格包围的边界区域。需要说明的是,所述字符区域检测结果和所述字符连接区域检测结果也可能表现为其他形式,本申请对此不作限制,例如,任何能够用于表征字符中心区域的概率的方式均可作为所述字符区域检测结果的可行表现方式,任何能够用于表征相邻字符区域中心的概率的方式均可作为所述字符连接区域检测结果的可行表现方式。

在步骤s13中,计算机设备将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果。需要说明的是,上下文中,所述文字识别网络所在的分支也可称为“文字识别分支”,该分支也可称为“文字识别系统”,该分支用于进行文字识别。在一些实施例中,所述字符区域检测结果用于引导所述文字识别网络中的注意力网络预测字符区域(也即用于指导注意力网络需要在哪些区域的预测),所述字符连接区域检测结果用于所述文字识别网络将识别得到的各个字符内容确定为相应的文本内容(例如,根据字符连接区域检测结果来判断哪些字符是连续的文本,从而识别得到至少一个连续文本)。在一些实施例中,所述方法还包括在所述步骤s11之前训练获得所述文字识别网络。在一些实施例中,所述文字识别网络先使用双向长短时记忆网络(bi-longshorttermmemorynetwork,bilstm)来抓取文字时序信息,然后使用注意力机制根据来自文字检测网络的字符区域检测结果来预测字符区域及字符内容。

在步骤s14中,计算机设备根据所述字符检测结果和所述文字识别结果生成最终识别结果。在一些实施例中,所述最终识别结果中包括至少一个文本框以及每个文本框中的文本内容,每个文本框中包括识别到的一串连续字符。在一些实施例中,计算机设备根据所述字符检测结果定位各个文本框的位置,并结合所述文字识别结果确定每个文本框中的文本内容。

在一些实施例中,所述方法还包括在所述步骤s11之前:计算机设备根据已标注字符位置的多项样本数据以及每项样本数据对应的标签信息,训练文字检测网络,其中,每项样本数据对应的标签信息包括该项样本数据对应的字符区域检测结果以及字符连接区域检测结果。所述标签信息表示针对样本数据中的标注数据生成的标签,在一些实施例中,一个已标注字符位置的样本数据对应的标签信息包括针对该样本数据得到的字符区域高斯图、字符连接区域高斯图,也即,将标注的原始边界框转换成高斯图。在一些实施例中,计算机设备获得已标记字符位置的多项样本数据以及每项样本数据对应的标签信息(如包括每项样本数据对应的字符中心区域概率以及字符连接区域中心概率),并使用深度学习神经网络对所述多项样本数据以及每项样本数据对应的所述标签信息进行训练,获得所述文字检测网络;在一些实施例中,每项样本数据中标记有每个字符对应的字符区域,也即每个字符的边界框;在一些实施例中,每项样本数据中标记有文本区域以及该文本区域中每个字符对应的字符区域。通过训练所述文字识别网络,针对没有标注数据目标图片,可输出该目标图片对应的字符区域检测结果和字符连接区域检测结果。在一些实施例中,计算机设备采集已标注字符位置的多项样本数据,并生成每项样本数据对应的标签信息。作为一个示例,采集已标注字符位置(也即各个字符的边界框)的多项样本数据,对于每项样本数据执行如下操作:针对每个字符,该字符的四个顶点构成一个四边形,以该四边形为边框且以该字符的中心点为基础构建该字符对应的一个从里向外的热力图,也即得到字符区域高斯图,而关于每个连接相邻字符的字符连接区域,首先定位到两个相邻字符中间的中心点,并寻找到对应的顶点和底部的点,构成一个新的四边形,以该新的四边形为边框且以该两个字符中间的中心点为基础构建一个从里向外的热力图,也即得到该两个相邻字符对应的字符连接区域高斯图。

在一些实施例中,所述步骤s13进一步包括:将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。由此,所述文字检测网络中所获得的字符检测结果能够指导文字识别分支中的注意力网络从哪些字符区域去预测字符内容,也即利用所述字符检测结果提供的字符区域检测结果来给注意力网络提供潜在的预测范围,从而能够有效解决现有文本识别系统中注意力网络可能存在的预测区域与实际区域未对准的问题。

在一些实施例中,所述方法还包括:在所述文字识别网络中,判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络;其中,所述根据所述字符检测结果和所述文字识别结果生成最终识别结果,包括:在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。在一些实施例中,所述中间结果信息包括任何与在所述文字识别网络中获得文字识别结果之前所产生的中间结果相关的任何信息;在一些实施例中,所述中间结果信息包括双向长短时记忆网络输出的第一数据信息以及所述注意力网络输出的第二数据信息。在一些实施例中,所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,也即表示所述字符检测结果提供的潜在的预测范围是否具备可靠性,若具备可靠性,则表明所述字符检测结果是准确的,若不具备可靠性,则表明所述字符检测结果可能具有误差。通过在所述文字检测网络中根据来自所述文字识别网络的中间结果信息调整所述字符检测结果,能够优化改善所述文字检测网络最初输出的字符检测结果,从而获得更为准确的新的字符检测结果,进而使得最终识别结果更加准确。

在一些实施例中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。在一些实施例中,若所述字符区域检测结果所指示的至少一个字符区域具备可靠性,则无需执行任何操作,也即无需对所述文字检测网络中输出的字符检测结果进行改善和优化。在一些实施例中,若所述字符区域检测结果所指示的至少一个字符区域具备可靠性,表示所述字符检测结果是准确的,因此,可根据所述目标图片和所述字符检测结果来优化所述文字检测网络。

在一些实施例中,所述在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果,包括:在所述文字检测网络中根据所述中间结果信息以及所述共享特征信息调整所述字符检测结果,获得新的字符检测结果。图4示出了本申请一个示例的用于改善字符检测结果的流程示意图,具体流程包括:首先目标图片经过featureextractor(也即特征提取模型)提取出共享特征信息,以将获得的共享特征信息分别输入文字检测网络和文字识别网络;所述文字检测网络用于进行字符定位(localization),以获得粗糙的字符检测结果(coarseresult),之后将该粗糙的字符检测结果输入到所述文字识别网络中作为指导(guidance),以使用该粗糙的字符检测结果来指导在哪些区域进行预测;所述文字识别网络用于进行文字识别(recognition),首先使用bilstm来抓取文字时序信息,之后使用注意力机制进行注意力预测(attentionprediction),也即根据该粗糙的字符检测结果所指示的至少一个字符区域来依次预测每个字符区域中的字符内容,并判断该粗糙的字符检测结果所指示的至少一个字符区域是否准确;之后,可根据所述共享特征信息、文字检测网络中产生的该粗糙的字符检测结果、以及文字识别网络中由bilstm和注意力预测机制所产生的中间结果信息,来进行定位改善(localizationrefinement),从而获得改善后的新的字符检测结果。

在一些实施例中,所述方法还包括:根据所述字符检测结果、所述文字识别结果和所述最终识别结果优化所述文字检测网络和/或所述文字识别网络。基于此,能够进一步地优化所述文字检测网络和/或所述文字识别网络,以便在后续进行文字检测和识别时能够获得更准确的识别结果。

图5示出了本申请一个示例的用于端到端的文字检测与识别的系统的架构示意图。基于该系统,目标图片(也即图5所示inputimage)被输入至系统后,先经过featureextractor(也即特征提取模型)提取出共享特征信息,该共享特征信息被输入至文字检测分支来用于检测(detection),且被输入至文字识别分支来用于识别(recognition);在文字检测分支,通过检测获得目标图片对应的字符检测结果(characterdetectionresult),如所述目标图片对应的字符区域高斯图和字符连接区域高斯图,该字符检测结果被输入至文字识别分支中以用于指导(guide)注意力预测机制(attentionprediction)在哪些区域进行预测来获得文字识别结果,所述文字识别网络中可基于预测结果来判断所述字符检测结果是否准确,并将所述文字识别网络中的中间结果信息反馈(feedback)至所述文字检测网络,以改善(refine)所述字符检测结果获得新的字符检测结果(newcharacterdetectionresult),最后基于该新的字符检测结果和文字识别结果来获得最终识别结果(即图5所示的textspottingresults)。

图6示出了本申请一个示例的用于端到端的文字检测与识别的装置的结构示意图。该用于端到端的文字检测与识别的装置(以下简称为“端到端识别装置1”)包括特征提取装置11、文字检测装置12、文字识别装置13和生成装置14。特征提取装置11用于将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;文字检测装置12用于将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;文字识别装置13用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;生成装置14用于根据所述字符检测结果和所述文字识别结果生成最终识别结果。

特征提取装置11用于将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息。所述目标图片也即待识别的图片,所述目标图片中包含文字内容;在一些实施例中,所述计算机设备可采用任何可行实现方式来获得所述目标图片,例如通过拍摄获得目标图片、从本地获得目标图片、接收其他设备发送的目标图片等。所述特征提取网络可为任何用于从图片中提取特征的网络模型,如所述特征提取网络的主干网络采用的vgg(visualgeometrygroup,视觉几何组)以及batchnormalization(批标准化);在一些实施例中,采集数据集,并使用深度学习神经网络对数据集进行训练,得到所述特征提取网络。在一些实施例中,所述共享特征信息包括任何与能够用于文字检测网络和文字识别网络的共享特征相关的信息。需要说明的是,本申请对所述特征提取网络和所述共享特征信息并不作具体限定,任何用于进行特征提取的网络模型均应包含在本申请所述的特征提取网络的范围内,任何与能够用于文字检测网络和文字识别网络的共享特征相关的信息均应包含在本申请所述的共享特征信息的范围内。

文字检测装置12用于将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果。需要说明的是,上下文中,所述文字检测网络所在的分支也可称为“文字检测分支”,该分支也可称为“文字检测系统”,该分支用于进行文字检测。在一些实施例中,所述文字检测网络包括任何能够进行字符级别文字区域检测的网络模型。在一些实施例中,所述文字检测网络使用分割模型来实现字符级别文字区域检测;在一些实施例中,使用vgg网络加全卷积网络作为所述分割模型,以通过所述分割模型输出字符区域检测结果和字符连接区域检测结果。所述字符区域检测结果用于指示针对所述目标图片检测得到的字符区域相关的检测结果,如检测得到的各个字符区域、单字符中心区域的概率等;所述字符连接区域检测结果用于指示针对所述目标图片检测得到的字符连接区域相关的检测结果,如检测得到的各个字符连接区域、字符连接区域中心的概率,其中,一个字符连接区域用于表征相邻两个字符之间的连接区域。在一些实施例中,所述文字检测网络采用高斯热度图来生成所述字符区域检测结果和所述字符连接区域检测结果,也即,所述字符区域检测结果以高斯热度图来表征字符中心区域的概率,所述字符连接区域检测结果以高斯热度图来表征相邻字符区域中心的概率;在一些实施例中,所述字符区域检测结果包括字符区域高斯图,可选地还包括字符区域边框;所述字符连接区域检测结果包括字符连接区域高斯图,可选地还包括字符连接区域边框;需要说明的是,采用高斯热度图的好处在于能够很好地处理没有严格包围的边界区域。需要说明的是,所述字符区域检测结果和所述字符连接区域检测结果也可能表现为其他形式,本申请对此不作限制,例如,任何能够用于表征字符中心区域的概率的方式均可作为所述字符区域检测结果的可行表现方式,任何能够用于表征相邻字符区域中心的概率的方式均可作为所述字符连接区域检测结果的可行表现方式。

文字识别装置13用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果。需要说明的是,上下文中,所述文字识别网络所在的分支也可称为“文字识别分支”,该分支也可称为“文字识别系统”,该分支用于进行文字识别。在一些实施例中,所述字符区域检测结果用于引导所述文字识别网络中的注意力网络预测字符区域(也即用于指导注意力网络需要在哪些区域的预测),所述字符连接区域检测结果用于所述文字识别网络将识别得到的各个字符内容确定为相应的文本内容(例如,根据字符连接区域检测结果来判断哪些字符是连续的文本,从而识别得到至少一个连续文本)。在一些实施例中,端到端识别装置1还包括用于训练获得所述文字识别网络的装置。在一些实施例中,所述文字识别网络先使用双向长短时记忆网络(bi-longshorttermmemorynetwork,bilstm)来抓取文字时序信息,然后使用注意力机制根据来自文字检测网络的字符区域检测结果来预测字符区域及字符内容。

生成装置14用于根据所述字符检测结果和所述文字识别结果生成最终识别结果。在一些实施例中,所述最终识别结果中包括至少一个文本框以及每个文本框中的文本内容,每个文本框中包括识别到的一串连续字符。在一些实施例中,生成装置14根据所述字符检测结果定位各个文本框的位置,并结合所述文字识别结果确定每个文本框中的文本内容。

在一些实施例中,所述端到端识别装置1还包括用于根据已标注字符位置的多项样本数据以及每项样本数据对应的标签信息,训练文字检测网络的装置(以下简称为“训练装置”,图未示),其中,每项样本数据对应的标签信息包括该项样本数据对应的字符区域检测结果以及字符连接区域检测结果。所述标签信息表示针对样本数据中的标注数据生成的标签,在一些实施例中,一个已标注字符位置的样本数据对应的标签信息包括针对该样本数据得到的字符区域高斯图、字符连接区域高斯图,也即,将标注的原始边界框转换成高斯图。在一些实施例中,训练装置获得已标记字符位置的多项样本数据以及每项样本数据对应的标签信息(如包括每项样本数据对应的字符中心区域概率以及字符连接区域中心概率),并使用深度学习神经网络对所述多项样本数据以及每项样本数据对应的所述标签信息进行训练,获得所述文字检测网络;在一些实施例中,每项样本数据中标记有每个字符对应的字符区域,也即每个字符的边界框;在一些实施例中,每项样本数据中标记有文本区域以及该文本区域中每个字符对应的字符区域。通过训练所述文字识别网络,针对没有标注数据目标图片,可输出该目标图片对应的字符区域检测结果和字符连接区域检测结果。在一些实施例中,训练装置采集已标注字符位置的多项样本数据,并生成每项样本数据对应的标签信息。作为一个示例,采集已标注字符位置(也即各个字符的边界框)的多项样本数据,对于每项样本数据执行如下操作:针对每个字符,该字符的四个顶点构成一个四边形,以该四边形为边框且以该字符的中心点为基础构建该字符对应的一个从里向外的热力图,也即得到字符区域高斯图,而关于每个连接相邻字符的字符连接区域,首先定位到两个相邻字符中间的中心点,并寻找到对应的顶点和底部的点,构成一个新的四边形,以该新的四边形为边框且以该两个字符中间的中心点为基础构建一个从里向外的热力图,也即得到该两个相邻字符对应的字符连接区域高斯图。

在一些实施例中,所述文字识别装置13用于:将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。由此,所述文字检测网络中所获得的字符检测结果能够指导文字识别分支中的注意力网络从哪些字符区域去预测字符内容,也即利用所述字符检测结果提供的字符区域检测结果来给注意力网络提供潜在的预测范围,从而能够有效解决现有文本识别系统中注意力网络可能存在的预测区域与实际区域未对准的问题。

在一些实施例中,所述端到端识别装置1还包括判断装置(图未示),判断装置用于在所述文字识别网络中判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络;其中,生成装置14用于:在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。在一些实施例中,所述中间结果信息包括任何与在所述文字识别网络中获得文字识别结果之前所产生的中间结果相关的任何信息;在一些实施例中,所述中间结果信息包括双向长短时记忆网络输出的第一数据信息以及所述注意力网络输出的第二数据信息。在一些实施例中,所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,也即表示所述字符检测结果提供的潜在的预测范围是否具备可靠性,若具备可靠性,则表明所述字符检测结果是准确的,若不具备可靠性,则表明所述字符检测结果可能具有误差。通过在所述文字检测网络中根据来自所述文字识别网络的中间结果信息调整所述字符检测结果,能够优化改善所述文字检测网络最初输出的字符检测结果,从而获得更为准确的新的字符检测结果,进而使得最终识别结果更加准确。

在一些实施例中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。在一些实施例中,若所述字符区域检测结果所指示的至少一个字符区域具备可靠性,则无需执行任何操作,也即无需对所述文字检测网络中输出的字符检测结果进行改善和优化。在一些实施例中,若所述字符区域检测结果所指示的至少一个字符区域具备可靠性,表示所述字符检测结果是准确的,因此,可根据所述目标图片和所述字符检测结果来优化所述文字检测网络。

在一些实施例中,所述在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果,包括:在所述文字检测网络中根据所述中间结果信息以及所述共享特征信息调整所述字符检测结果,获得新的字符检测结果。图4示出了本申请一个示例的用于改善字符检测结果的流程示意图,具体流程包括:首先目标图片经过featureextractor(也即特征提取模型)提取出共享特征信息,以将获得的共享特征信息分别输入文字检测网络和文字识别网络;所述文字检测网络用于进行字符定位(localization),以获得粗糙的字符检测结果(coarseresult),之后将该粗糙的字符检测结果输入到所述文字识别网络中作为指导(guidance),以使用该粗糙的字符检测结果来指导在哪些区域进行预测;所述文字识别网络用于进行文字识别(recognition),首先使用bilstm来抓取文字时序信息,之后使用注意力机制进行注意力预测(attentionprediction),也即根据该粗糙的字符检测结果所指示的至少一个字符区域来依次预测每个字符区域中的字符内容,并判断该粗糙的字符检测结果所指示的至少一个字符区域是否准确;之后,可根据所述共享特征信息、文字检测网络中产生的该粗糙的字符检测结果、以及文字识别网络中由bilstm和注意力预测机制所产生的中间结果信息,来进行定位改善(localizationrefinement),从而获得改善后的新的字符检测结果。

在一些实施例中,所述端到端识别装置1还包括优化装置(图未示),该优化装置用于根据所述字符检测结果、所述文字识别结果和所述最终识别结果优化所述文字检测网络和/或所述文字识别网络。基于此,能够进一步地优化所述文字检测网络和/或所述文字识别网络,以便在后续进行文字检测和识别时能够获得更准确的识别结果。

根据本申请的方案,具有以下优点:从字符的角度来进行文字检测,能够更好的应对文字的形变以及不定长问题;通过将文字检测网络中预测的字符级别的字符检测结果提供给文字识别网络,能够使得文字识别网络中的注意力网络利用字符检测结果来进行预测,从而解决现有注意力网络可能存在的预测区域与实际区域未对准的问题;能够基于文字识别网络在文字识别过程中所产生的中间结果信息,来改善文字检测网络的预测结果,从而能够实现更准确的文字识别,且能够更好的将文字检测系统与文字识别系统相融合。

本申请还提供了一种计算机设备,其中,所述计算机设备包括:存储器,用于存储一个或多个程序;一个或多个处理器,与所述存储器相连,当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行本申请所述的用于端到端的文字检测与识别的方法。

本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行本申请所述的用于端到端的文字检测与识别的方法。

本申请还提供了一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行本申请所述的用于端到端的文字检测与识别的方法。

图7示出了可被用于实施本申请中所述的各个实施例的示例性系统。

在一些实施例中,系统1000能够作为本申请实施例中的任意一个处理设备。在一些实施例中,系统1000可包括具有指令的一个或多个计算机可读介质(例如,系统存储器或nvm/存储设备1020)以及与该一个或多个计算机可读介质耦合并被配置为执行指令以实现模块从而执行本申请中所述的动作的一个或多个处理器(例如,(一个或多个)处理器1005)。

对于一个实施例,系统控制模块1010可包括任意适当的接口控制器,以向(一个或多个)处理器1005中的至少一个和/或与系统控制模块1010通信的任意适当的设备或组件提供任意适当的接口。

系统控制模块1010可包括存储器控制器模块1030,以向系统存储器1015提供接口。存储器控制器模块1030可以是硬件模块、软件模块和/或固件模块。

系统存储器1015可被用于例如为系统1000加载和存储数据和/或指令。对于一个实施例,系统存储器1015可包括任意适当的易失性存储器,例如,适当的dram。在一些实施例中,系统存储器1015可包括双倍数据速率类型四同步动态随机存取存储器(ddr4sdram)。

对于一个实施例,系统控制模块1010可包括一个或多个输入/输出(i/o)控制器,以向nvm/存储设备1020及(一个或多个)通信接口1025提供接口。

例如,nvm/存储设备1020可被用于存储数据和/或指令。nvm/存储设备1020可包括任意适当的非易失性存储器(例如,闪存)和/或可包括任意适当的(一个或多个)非易失性存储设备(例如,一个或多个硬盘驱动器(hdd)、一个或多个光盘(cd)驱动器和/或一个或多个数字通用光盘(dvd)驱动器)。

nvm/存储设备1020可包括在物理上作为系统1000被安装在其上的设备的一部分的存储资源,或者其可被该设备访问而不必作为该设备的一部分。例如,nvm/存储设备1020可通过网络经由(一个或多个)通信接口1025进行访问。

(一个或多个)通信接口1025可为系统1000提供接口以通过一个或多个网络和/或与任意其他适当的设备通信。系统1000可根据一个或多个无线网络标准和/或协议中的任意标准和/或协议来与无线网络的一个或多个组件进行无线通信。

对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器(例如,存储器控制器模块1030)的逻辑封装在一起。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑封装在一起以形成系统级封装(sip)。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上。对于一个实施例,(一个或多个)处理器1005中的至少一个可与系统控制模块1010的一个或多个控制器的逻辑集成在同一模具上以形成片上系统(soc)。

在各个实施例中,系统1000可以但不限于是:服务器、工作站、台式计算设备或移动计算设备(例如,膝上型计算设备、手持计算设备、平板电脑、上网本等)。在各个实施例中,系统1000可具有更多或更少的组件和/或不同的架构。例如,在一些实施例中,系统1000包括一个或多个摄像机、键盘、液晶显示器(lcd)屏幕(包括触屏显示器)、非易失性存储器端口、多个天线、图形芯片、专用集成电路(asic)和扬声器。

对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

虽然前面特别示出并且描述了示例性实施例,但是本领域技术人员将会理解的是,在不背离权利要求书的精神和范围的情况下,在其形式和细节方面可以有所变化。这里所寻求的保护在所附权利要求书中做了阐述。在下列编号条款中规定了各个实施例的这些和其他方面:

1.一种用于端到端的文字检测与识别的方法,其中,所述方法包括:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

2.根据条款1所述的方法,其中,所述方法还包括:

根据已标注字符位置的多项样本数据以及每项样本数据对应的标签信息,训练所述文字检测网络,其中,每项样本数据对应的标签信息包括该项样本数据对应的字符区域检测结果以及字符连接区域检测结果。

3.根据条款1所述的方法,其中,文字检测网络采用高斯热度图来生成所述字符区域检测结果和所述字符连接区域检测结果。

4.根据条款1所述的方法,其中,将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果:

将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;

将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。

5.根据条款4所述的方法,其中,所述方法还包括:

判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络;

其中,所述根据所述字符检测结果和所述文字识别结果生成最终识别结果,包括:

在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;

根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。

6.根据条款5所述的方法,其中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:

判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。

7.根据条款5所述的方法,其中,所述中间结果信息包括双向长短时记忆网络输出的第一数据信息以及所述注意力网络输出的第二数据信息。

8.根据条款5所述的方法,其中,所述在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果,包括:

在所述文字检测网络中根据所述中间结果信息以及所述共享特征信息调整所述字符检测结果,获得新的字符检测结果。

9.根据条款1所述的方法,其中,所述方法还包括:

根据所述字符检测结果、所述文字识别结果和所述最终识别结果优化所述文字检测网络和/或所述文字识别网络。

10.一种用于端到端的文字检测与识别的装置,其中,所述装置包括:

用于将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息的装置;

用于将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果的装置,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果的装置;

用于根据所述字符检测结果和所述文字识别结果生成最终识别结果的装置。

11.根据条款10所述的装置,其中,所述装置还包括:

用于根据已标注字符位置的多项样本数据以及每项样本数据对应的标签信息,训练所述文字检测网络的装置,其中,每项样本数据对应的标签信息包括该项样本数据对应的字符区域检测结果以及字符连接区域检测结果。

12.根据条款10所述的装置,其中,文字检测网络采用高斯热度图来生成所述字符区域检测结果和所述字符连接区域检测结果。

13.根据条款10所述的装置,其中,所述用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果的装置,用于:

将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;

将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。

14.根据条款13所述的装置,其中,所述装置还包括:

用于判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络的装置;

其中,所述用于根据所述字符检测结果和所述文字识别结果生成最终识别结果的装置,用于:

在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;

根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。

15.根据条款14所述的装置,其中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:

判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。

16.根据条款14所述的装置,其中,所述中间结果信息包括双向长短时记忆网络输出的第一数据信息以及所述注意力网络输出的第二数据信息。

17.根据条款14所述的装置,其中,所述在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果,包括:

在所述文字检测网络中根据所述中间结果信息以及所述共享特征信息调整所述字符检测结果,获得新的字符检测结果。

18.根据条款10所述的装置,其中,所述装置还包括:

用于根据所述字符检测结果、所述文字识别结果和所述最终识别结果优化所述文字检测网络和/或所述文字识别网络的装置。

19.一种计算机设备,其中,所述计算机设备包括:

存储器,用于存储一个或多个程序;

一个或多个处理器,与所述存储器相连,

当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如条款1至9中任一项所述的方法。

20.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如条款1至9中任一项所述的方法。

21.一种计算机程序产品,当所述计算机程序产品被设备执行时,使得所述设备执行如条款1至9中任一项所述的方法。


技术特征:

1.一种用于端到端的文字检测与识别的方法,其中,所述方法包括:

将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;

将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;

根据所述字符检测结果和所述文字识别结果生成最终识别结果。

2.根据权利要求1所述的方法,其中,所述方法还包括:

根据已标注字符位置的多项样本数据以及每项样本数据对应的标签信息,训练所述文字检测网络,其中,每项样本数据对应的标签信息包括该项样本数据对应的字符区域检测结果以及字符连接区域检测结果。

3.根据权利要求1所述的方法,其中,文字检测网络采用高斯热度图来生成所述字符区域检测结果和所述字符连接区域检测结果。

4.根据权利要求1所述的方法,其中,将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果:

将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;

将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。

5.根据权利要求4所述的方法,其中,所述方法还包括:

判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络;

其中,所述根据所述字符检测结果和所述文字识别结果生成最终识别结果,包括:

在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;

根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。

6.根据权利要求5所述的方法,其中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:

判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。

7.根据权利要求5所述的方法,其中,所述中间结果信息包括双向长短时记忆网络输出的第一数据信息以及所述注意力网络输出的第二数据信息。

8.根据权利要求5所述的方法,其中,所述在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果,包括:

在所述文字检测网络中根据所述中间结果信息以及所述共享特征信息调整所述字符检测结果,获得新的字符检测结果。

9.根据权利要求1所述的方法,其中,所述方法还包括:

根据所述字符检测结果、所述文字识别结果和所述最终识别结果优化所述文字检测网络和/或所述文字识别网络。

10.一种用于端到端的文字检测与识别的装置,其中,所述装置包括:

用于将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息的装置;

用于将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果的装置,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;

用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果的装置;

用于根据所述字符检测结果和所述文字识别结果生成最终识别结果的装置。

11.根据权利要求10所述的装置,其中,所述用于将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果的装置,用于:

将所述共享特征信息输入至所述文字识别网络中的双向长短时记忆网络,获得所述目标图片对应的文字时序信息;

将所述文字时序信息与所述字符检测结果输入至所述文字识别网络中的注意力网络,以使所述注意力网络根据所述字符区域检测结果所指示的至少一个字符区域来预测每个字符区域中的字符内容,并根据所述目标图片对应的字符连接区域检测结果以及所述每个字符区域中的字符内容生成文字识别结果。

12.根据权利要求11所述的装置,其中,所述装置还包括:

用于判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,若否,将所述文字识别网络中的与所述目标图像对应的中间结果信息发送至所述文字检测网络的装置;

其中,所述用于根据所述字符检测结果和所述文字识别结果生成最终识别结果的装置,用于:

在所述文字检测网络中根据所述中间结果信息调整所述字符检测结果,获得新的字符检测结果;

根据所述新的字符检测结果以及所述文字识别结果生成最终识别结果。

13.根据权利要求12所述的装置,其中,所述判断所述字符区域检测结果所指示的至少一个字符区域是否具备可靠性,包括:

判断所述至少一个字符区域是否准确,若否,确定所述至少一个字符区域不具备可靠性;若是,判断是否能够依次识别出所述至少一个字符区域中的字符内容,若是,确定所述至少一个字符区域具备可靠性,否则,确定所述至少一个字符区域不具备可靠性。

14.一种计算机设备,其中,所述计算机设备包括:

存储器,用于存储一个或多个程序;

一个或多个处理器,与所述存储器相连,

当所述一个或多个程序被所述一个或者多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至9中任一项所述的方法。

15.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可被处理器执行如权利要求1至9中任一项所述的方法。

技术总结
本申请提供了一种用于端到端的文字检测与识别的方法和装置,所述方法包括:将目标图片输入至特征提取网络,获得所述目标图片对应的共享特征信息;将所述共享特征信息输入至文字检测网络,并获得所述文字检测网络输出的字符检测结果,其中,所述字符检测结果包括字符区域检测结果和字符连接区域检测结果;将所述共享特征信息和所述字符检测结果输入至文字识别网络,获得所述文字识别网络输出的文字识别结果;根据所述字符检测结果和所述文字识别结果生成最终识别结果。根据本申请的方案,能够解决现有注意力网络可能存在的预测区域与实际区域未对准的问题,且能够更好的将文字检测系统与文字识别系统相融合。

技术研发人员:连庆;宋彦;王咏刚
受保护的技术使用者:创新工场(广州)人工智能研究有限公司
技术研发日:2020.01.03
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-53380.html

最新回复(0)