相关申请的交叉引用和优先权本专利申请要求2018年11月30日提交的印度专利申请201821045427的优先权。本文的实施方式总体上涉及从图像中提取数据的领域。更具体地,但不是特别地,本发明提供了一种用于使用对话界面和数据库查询从文档图像中提取相关信息的端到端系统和方法。
背景技术:
::近期在具有目前最先进的神经网络的计算机视觉领域中的进步促进了光学字符识别(ocr)的准确性。然而,仅仅提取字符/文本经常是不够的,因为文档也具有ocr未捕捉的视觉结构。从表格、图表、脚注、框、标题中提取信息和检索文档的对应结构化表示仍然是一项挑战,并在大量实际用例中得到应用。虽然由于深度学习的改进,ocr的准确性已显著提高,但仅仅这些还不足以有效地从扫描的文档中提取信息。大多数文档具有表格、文本框、块、图表和图形的形式的丰富的视觉结构。在图像中存在的不同实体之间的视觉关系对于在提取之前理解和推理存在的信息至关重要。此外,领域知识或业务规则的通常一体化经常可以提升提取性能并能够验证和纠正已提取的数据。几十年来,从图像中提取文本一直是一个研究的活跃领域。由于这些进步,用比较简单的文本布局和高质量的扫描来解释文档在现在是相当简单的了。然而,当处理遵循具有多样视觉布局的几个不同模板的文档时,检索语义准确的信息可能会是非常具有挑战性的。为解决这个问题,已经做了大量的工作。研究组已开发了一种信息提取系统,其中,将一文档实例与一组预先存储的定义文档类别的模型相匹配。将已提取的文档文本与预先编译的关键字列表及其拼写变体进行比较。将结果与词模型及其逻辑关系数据库中的每个文档相匹配。另一种方法需要用户建立文档的概念模型,然后将其用来匹配、解释和提取文档中的内容。这项工作更强调文档的分类和组织,而不是关键字段的提取。这些现有技术构建了基于属性关系图的文档的表示,以捕捉图像中的实体之间的关系,然而其系统依赖于来自用户的相当多的专业知识来创建合适的模板文档模型。用于信息提取的当前方法需要在像素坐标级别进行编程,并且对于新手用户的快速部署来说不够抽象。此外,大部分的现有方法使用基于手工创建的规则的方法从nl生成sql查询。如果要处理任何新的英语句子,则需要手动干预,例如,索引新数据和更新字典、元数据等。技术实现要素:以下给出了本公开的一些实施方式的简化概述,以便提供对实施方式的基本理解。该概述不是实施方式的广泛概述。不旨在识别实施方式的关键/决定性的元素或描绘实施方式的范围。其唯一目的是以简化的形式呈现一些实施方式,作为下面呈现的更详细描述的序言。鉴于前述内容,本文的实施方式提供了一种用于从图像中提取相关信息的系统。该系统包括输入模块、存储器和处理器。输入模块提供图像,作为输入图像。处理器进一步包括噪声去除模块、文档标识符、光学字符识别引擎、模式设计模块、存储模块、对话界面、转换模块和数据库查询模块。噪声去除模块对输入图像执行去噪方法以从输入图像中去除噪声。文档标识符识别文档的类型,其中,该类型是印刷文本或手写文本。ocr引擎根据所识别的文档的类型对图像执行光学字符识别(ocr),以检测一组文本实体。模式设计模块设计一模式来建立该组文本实体之间的关系。存储模块将检测到的该组文本实体和该模式存储在关系数据库中。对话界面通过用户提供自然语言查询以提取相关信息。转换模块将自然语言查询转换为sql查询。数据库查询模块向关系数据库提供sql查询,以从关系数据库中提取相关信息。在另一方面,本文的实施方式提供了一种用于从图像中提取相关信息的方法。最初,获得作为输入图像的图像。在下一步骤中,对输入图像执行去噪方法以从输入图像中去除噪声。进一步,运行文档标识符来识别文档的类型,其中,该类型是印刷文本或手写文本。在下一步骤中,根据所识别的文档的类型对图像执行光学字符识别(ocr),以检测一组文本实体。然后设计一模式来建立该组文本实体之间的关系。然后,将检测到的该组文本实体和该模式存储在关系数据库中。在下一步骤中,由使用对话界面的用户提供自然语言查询以提取相关信息。然后,自然语言查询被转换成sql查询。并且最后,将sql查询提供给关系数据库以从关系数据库中提取相关信息。本领域技术人员应该理解,本文的任何框图都表示体现本主题原理的说明性系统的概念图。类似地,将理解,任何流程图表、流程图、状态转换图、伪代码等表示可以基本上在计算机可读介质中表示并由计算装置或处理器执行的各种处理,无论是否明确示出这种计算装置或处理器。在又一实施方式中,提供了包括一条或多条指令的一种或多种非暂时性机器可读信息存储介质,该指令在被一个或多个硬件处理器执行时,使一个或多个硬件处理器执行用于设计一个或多个用于构建数字产品和数字服务的统一架构模型的方法,该方法包括处理器实现的步骤:获得作为输入图像的图像,对输入图像执行去噪方法以从输入图像中去除噪声,运行文档标识符以识别文档的类型,其中,该类型是印刷文本或手写文本,根据所识别的文档的类型对图像执行光学字符识别(ocr)以检测一组文本实体,设计一模式以建立该组文本实体之间的关系,将检测到的该组文本实体和该模式存储在关系数据库中,由用户使用对话界面提供自然语言查询以提取相关信息,并且将自然语言查询转换成sql查询,以及将该sql查询提供给关系数据库以从关系数据库中提取相关信息。应当理解,前面的一般描述和下面的详细描述仅仅是示例性和解释性的,而不是对所要求保护的本发明的限制。附图说明并入本公开并构成其一部分的附图示出了示例性实施方式,并且与说明书一起用于解释所公开的原理。图1示出了根据本公开的实施方式的用于使用对话界面和数据库查询从图像中提取相关信息的系统的框图;图2示出了根据本公开的实施方式的用于为查询编写规则的系统的工作流程;图3示出了根据本公开的实施方式的用于去噪图像的cgan的架构;图4示出了根据本公开的实施方式的具有递归编码器解码器模型的卷积神经网络;图5a至图5b是示出根据本公开的实施方式的使用对话界面和数据库查询从图像中提取相关信息所涉及的步骤的流程图;图6示出了根据本公开的实施方式的深度阅读器模式的实例;以及图7示出了根据本公开的实施方式的用于信息提取的样本库文档的实例。具体实施方式参考附图描述了示例性实施方式。在图中,附图标记的最左边的数字识别了附图标记首次出现的图。在任何方便的位置,在所有附图中使用相同的附图标记来表示相同或相似的部件。虽然本文描述了所公开的原理的实例和特征,但是在不脱离所公开的实施方式的精神和范围的情况下,修改、变更和其他实现方式是可能的。意图是接下来的详细描述仅被认为是示例性的,而真正的范围和精神由所附权利要求来指示。现在参考附图,并且更具体地参考图1至图7,其中,贯穿附图,相似的参考字符始终表示对应的特征,示出了优选的实施方式,并且在接下来的示例性系统和/或方法的内容中描述了这些实施方式。根据本公开的实施方式,在图1的框图中示出了用于使用对话界面和数据库查询从图像中提取相关信息的系统100。系统100利用图像中存在的不同视觉实体之间的空间关系,将该空间关系转化为可以经由sql或自然语言查询来查询的关系表。它通过利用用于视觉实体提取的最新深度学习模型,并利用深度学习在nlp和程序综合方面近期已取得的进展来实现这一点。系统100使用也可以称为“深度阅读器框架”的的框架。深度阅读器框架的工作流程如图2所示。该框架经由从文档中识别基于图案的实体并保持文档图像中的跨不同实体的元关系模型,来促进从文档图像中的信息提取。模型模式使由深度视觉模型检测到的实体的抽象以及其间的关系容易理解。系统100在视觉算法上运行,该算法应用于识别手写文本和印刷文本的组合、消除噪声影响、识别文档的类型以及检测图的对象/行/框。系统100进一步将已提取的实体映射到丰富的关系模式中,以便捕捉在文档中检测到的实体(词、文本框、行等)之间的所有相关关系。然后,通过在关系表的顶部编写sql查询,可以从文档中提取相关信息和字段。基于自然语言的界面也被添加在关系模式的顶部,使得以自然语言指定查询的非技术用户可以轻松地获取信息。根据本公开的实施方式,系统100进一步包括输入模块102、存储器104和处理器106,如图1的框图所示。处理器106与存储器104通信。处理器106还包括多个模块。多个模块访问存储在存储器104中的该组算法来执行特定功能。处理器106还包括噪声去除模块108、文档标识符110、光学字符识别(ocr)引擎112、模式设计模块114、存储模块116、对话界面118、转换模块120和数据库查询模块122。根据本公开的实施方式,输入模块102被配置为将图像作为输入图像提供给系统100。可以从文档或任何其他来源捕捉图像。输入模块102可以包括多种软件和硬件界面,例如,网络界面、图形用户界面等,并且可以促进各种各样的网络n/w和协议类型内的多种通信,包括有线网络(例如,lan、电缆等)和无线网络(例如,wlan、蜂窝或卫星)。如图2的工作流程所示,系统100分几个阶段处理文档。根据本公开的实施方式,系统100包括噪声去除模块108。噪声去除模块108被配置为对输入图像执行去噪方法以从输入图像中去除噪声。通常,可能模糊、有噪声或褪色的原始文档图像作为输入提供给系统100。噪声去除模块108被用于在数据提取之前清洁图像。图像质量的下降可能由于各种原因而发生,例如,相机抖动、聚焦不当、成像噪声、咖啡渍(coffeestain)、褶皱、低分辨率、不良照明或反射。这些类的问题极大地影响了如文本检测、ocr和定位的许多计算机视觉算法的性能。本文的目标是直接从有噪声的输入中重建高质量的图像并且还保留图像中高度结构化的数据。文本文档图像与自然场景图像明显地不同,因为文本文档包含更详细的信息,并且因此对噪声更敏感。通过利用生成对抗网络(gan)来执行去噪方法。系统100使用条件生成对抗网络(cgan),其中,生成器和鉴别器都以额外的信息y为条件。在本公开中,由类别标签(即清洁的图像)来表示变量y。通过将y作为额外的输入层馈送,只有鉴别器被进行了条件处理。使用以下最小-最大目标函数训练cgan网络:其中,pr是数据分布,并且pg是由z=p(z)以及z定义的模型分布,样本之一来自有噪图像数据集。图3示出了用于图像去噪的cgan的架构。该图示出了生成器模型和鉴别器模型。生成器网络由卷积层和去卷积层的组合组成(在图中不可区分)。每个块之后是批量归一化,并且卷积层中使用的激活是prelu,而对于去卷积层,使用relu激活。对于所有层,步幅设置为1。为了保持每个特征图谱的维度与输入的维度相同,在适当的地方使用零填充。为了高效的网络训练和更好的收敛性能,使用对称跳跃连接,如生成器网络所示。根据本公开的实施方式,处理器106进一步包括文档标识符110。文档标识符110被配置为识别输入图像的类型。输入图像的类型可以是印刷文本或手写文本。深层孪生网络用于文档识别。孪生网络的基础包括传统的卷积神经网络(cnn)。根据文档标识符110的标识,如果输出是手写文本,则需要进一步处理用于数字化手写的扫描文档。在本实施方式中,系统100使用手写文本识别(htr)引擎124,该引擎使用卷积特征提取器,随后是递归编码器-解码器模型,该模型用于将视觉特征映射到图像中存在的一组字符。图4提供了该模型的总体概述。该模型包括两个步骤,即视觉特征提取和序列学习。该模型使用7层完全卷积网络,该网络从文本序列、词或行的图像中提取密集的特征图谱。然后,这些特征图谱由专门设计的map2seq层处理以生成特征向量的序列,每个特征向量对各个字符的局部属性进行编码,而完整序列捕捉其相互依赖关系,并从而提供图像中存在的文本的完整视觉表示。然后将视觉特征序列馈送给生成表示视觉特征序列的要点的背景向量的编码器rnn。编码器rnn由用于捕捉沿向前和向后方向的相关性的双向lstm单元组成。第二解码器lstm使用这个背景向量来输出字符序列,其中每个字符以背景向量和先前的输出为条件。引入了层的归一化来稳定rnn激活,并添加了缺失(dropout)来使模型正则化。编码器-解码器模型还使用注意机制来进一步增加长序列情况下的解码能力。该模型使用焦点损失进行训练,焦点损失是对标准分类交叉熵损失的改进,因为它解决了文本识别固有的类别不平衡问题。在推理过程中,采用束搜索算法,该算法通过最大化序列的所有元素上的联合分布来在一组假设上搜索最佳可能的输出序列。将预先训练的模型应用于标准文档的扫描图像。评估指标是词错误率(wer)和字符错误率(cer)。该模型达到了14.2%的wer和8.7%的cer。根据本公开的实施方式,处理器106还包括光学字符识别(ocr)引擎112。ocr引擎112被配置为根据所识别的文档的类型对输入图像执行光学字符识别(ocr)以检测一组文本实体。文档具有许多实体,例如,词、行、文本块和文本框、复选框、箭头、omr圆、徽标、表格、图形。感兴趣的信息可能涉及这些实体中的一项或几项,这使得必须检测文档中存在的所有实体。ocr引擎112根据文本的类型提取信息。对于页面行,基于连接的组分聚类之间的欧几里德距离来执行水平聚类。然后页面行被局部化,通过标准ocr引擎(例如,tesseract、googlevision或abbyfinereader)发送每个页面行补丁,以得到对应于该行的文本。注意,发送较小的补丁会导致来自ocr引擎的更高的准确性。类似地,文本块是一组以大致相同的x坐标开始的行,并且其间的垂直距离不超过该行的高度的两倍。位于特定文本块或框内的行也被分别标识为块或框行。对于框,首先侵蚀图像,然后阈值化和反转该图像。之后,将每个连接的组分的面积与其边界框的面积比较。如果连接组分的面积在边界框面积的百分比内,则连接组分被视为框。根据本公开的实施方式,处理器106进一步包括模式设计模块114和存储模块116。模式设计模块114被配置为设计模式,以建立该组文本实体之间的关系。设计的模式是用于所有文档的通用模式。数据库的模式不会改变。模式可以用于任何类型的文档。此外,使用存储模块116将检测到的该组文本实体和模式存储在关系数据库126中。该模式被设计为促进信息提取。该组文本实体与实体的空间坐标相关联,并且该信息传达相邻文本实体的位置。然后,该信息用来推断不同的逻辑和空间的关系。一旦用文档中的数据填充了关系模式,现在就可以像使用sql的常规数据库模式一样查询。根据本公开的实施方式,处理器106包括数据库查询模块122。数据库查询模块122被配置为向关系数据库126提供sql查询,以从关系数据库126中提取相关信息。根据本公开的实施方式,系统100也可以被不精通sql语言的用户访问。处理器106还包括对话界面118和转换模块120。对话界面118被配置为由用户提供自然语言查询来提取相关信息。任何用户可以提供自然语言查询,不管他对sql的了解如何。转换模块120被配置为将自然语言查询转换成一个sql查询。使用序列到序列模型使自然语言查询变成sql。深度阅读器建立在这项工作的基础上,向用户提供将自然语言语句内部地映射到sql查询中的对话界面118,并且提取相关信息。虽然有时简单的sql查询就足以从关系数据库中获取所需的信息。但是很多时候,复杂的查询或一系列简单的查询必须要在流水线中执行才能获得正确的信息。这些复杂的查询可以被分解成多个简单的查询,存储中间结果并建立在中间结果的基础之上。中间结果用可视方式显示,以便用户可以进一步解释和编写更好的查询。为了实现这一点,中间结果被保存并作为数据表馈送到后续查询中。这样,一系列查询将被执行,并导致一个工作流,该工作流可以在一次操作(oneshot)中保存并应用于其他类似的文档以获得所需的信息。这将在本公开的后面部分借助于实例进行更详细的解释。根据本公开的实施方式,系统100还包括意图标识符128。意图标识符128被配置为通过对自然语言查询进行分类来识别意图。当用户通过自然语言与系统100交互时,用户可以要求各种不同的信息。意图标识符128对于分类nl查询和得知意图是必要的。给定的nl语句被分为3类。它们是简单的提取查询、创建或保存工作流以及簿记。一旦知道了意图,将nl查询传递到其相应的用于进一步处理的模型。根据本公开的实施方式,系统100还被配置为创建工作流。简单的查询将只获取容易从关系数据库126获得的信息。通常需要执行复杂的查询来从图像中提取相关信息。设计针对每个可能的使用情况的复杂查询,将会扩大sql模板空间并抑制查询重用。然而,复杂的查询可以被分解成多个简单的查询,允许存储中间结果和建立在中间结果的基础之上。依次执行的简单查询的不同组合将获取复杂实体。默认情况下,将中间结果的输出存储在可以被进一步查询的临时表中。根据本公开的实施方式,系统100还可以保持簿记。一系列有意义的nl查询将获取所需的信息。该工作流可以应用于具有相似模板的新文档。因此,存储工作流以检索特定的实体具有很大的价值。已建立了使用队列的简单框架,以便依次存储最近的命令集。一旦用户获取到有意义的信息,工作流就会被保存。如“清除工作流”、“保存工作流”、“将工作流应用于该文档”的简单的nl-查询被用于簿记。在操作中,在图5a至图5b中示出了用于从图像中提取相关信息的方法的流程图200。最初在步骤202,获得作为输入图像的图像。可以从任何扫描的文档中获得输入图像。在下一步骤204中,对输入图像执行去噪以从输入图像中去除噪声。可能存在各种原因使图像变得有噪声。在下一步骤206中,运行文档标识符110以识别文档的类型,其中,类型是印刷文本或手写文本。如果是手写文本,则使用htr引擎124进一步处理输入图像。在下一步骤208中,根据所识别的文档的类型对图像执行光学字符识别(ocr),以检测该组文本实体。该组文本实体可以包括词、行、文本块或文本框、复选框、箭头、omr圆、徽标、表格、图等中的一项或多项。在下一步骤210中,设计模式以建立该组文本实体之间的关系。该模式被设计用于促进信息提取。该组文本实体与实体的空间坐标相关联,并且该信息传达相邻文本实体的位置。然后,该信息被用来推断不同的逻辑和空间的关系。此外,在步骤212,将检测到的该组文本实体和模式存储在关系数据库126中。在下一步骤214中,使用对话界面118由用户提供自然语言查询以提取相关信息。在步骤216中,自然语言查询被转换成一个sql查询。最后,在步骤218中,将sql查询提供给关系数据库126以从关系数据库126中提取相关信息。应当理解,在另一个实施方式中,可以直接向关系数据库提供该sql查询。根据本公开的实施方式,系统100也可以利用辅助实例来解释。图6示出了在从原始图像中提取相关的关系之后在关系数据库中填充的模式的实例。模式的主要实体包括词、行、文本块、框和表格。实体间和实体内的关系由箭头的方向示出。随时间的推移,模式可以变得更加丰富,该图突出显示了当前对扫描文档图像有用的实体。从视觉组件识别的行实体包括关于行文本、行中的各个词以及行和词坐标的信息。使用词的坐标位置,深度阅读器提取其他词的左边/右边/上面/下面的词,并将该词保持在模式中。类似地,深度阅读器使用原始视觉数据将模式中出现的词和行作为分开的表格进行保持。如图7所示,词“斯里布尔”以及相关联的坐标将被视觉组件检测到。左边的词是“吉拉夏拉”,右边的词是“空(null)”,上面的词是“综合”,并且下面的词是“孟加拉国”。以这种方式,深度阅读器保持每个词/行/块等的相对空间位置。所识别的文本块实体以类似方式包括属性。文本块中的每个词和行的行id、词id、词文本、行文本、以及每个词和行的坐标、以及在块中识别的各个行的文本都被填充在数据库中。还保持例如在文本块中行在词下面/上面等的额外关系。例如,可以使用行在词下面的关系从文档中提取“受票人”。文本块中的在词“受票人”下面的行是“abcd私人有限”。据观察,在现实世界中的诸如银行收据、发票等的大多数文件具有某些通用模式,并且这些模式可用于提取。例如,冒号分隔的值定义键值对。该背景知识已用于直接提取键值对关系。如图7所示,“swift:xabclus33”是键值对的实例。使用键swift,可以通过查询该关系表直接获取该键的值。意图标识符可以借助下述实例进行分类。一旦意图标识符将给定的nl查询分类为简单查询,就将nl查询发送到用于进一步处理的该模型。典型的sql查询的结构如下:select$selectcolfrom$tablewhere$condcol$op$condval因此,要将nl语句映射到sql查询,执行以下步骤:实体识别:如上所示,$cond_val是特定于文档的实体,并且它必须从nl句子中提取。这与命名实体识别(ner)问题相对应,并且此处利用条件随机场(crf)来解决这个问题提取。nl查询中的每个词都被标记为实体或非实体,并且在这种编码上训练crf。一旦获得了$condval,就使用crf,将$condval替换为字典中的标准词。例如,在句子“请给我switf右侧的词”中,“swift”将被crf识别为实体,并且将被替换为“请给我<condval>右侧的词”。这将有助于流水线中的后续模型处理nl查询。模板映射:采用基于模板的方法来生成sql查询,并将其公式化为插槽填充问题。所有简单的nl查询都将被映射到模板池中的一个模板。此外,这被公式化为分类问题,修改后的nl查询通过深度序列模型进行分类。下面是使用的几个sql模板样本:select*fromtablewhereid=(selectidfromtablewherestring="value")select*fromtablewhereprimarystr="value"selectsubstr(line,pos(value),)fromtempselectsubstr(line,pos(value1),pos(value2)-pos(value1))fromtemp表映射:一旦识别出正确的模板,就需要填充table和value的插槽。很容易从实体识别模型中获得value。nl查询具有许多可以映射到相关表的语言变体词。例如,句子“给我switf右侧的词”以及“立刻给我switf旁边的词”这两个句子将映射到同一个表“rightof。使用训练的lstm模型对这些变型进行分类,来完成这种映射。书面描述描述了本文的主题,以使本领域技术人员能够作出和使用实施方式。主题实施方式的范围由权利要求定义,并且可以包括本领域技术人员想到的其他修改。如果这些其他修改包括与权利要求的字面语言没有实质不同的等同元素,则这些其他修改旨在在权利要求的范围内。本文公开的实施方式解决了非技术用户高效地利用系统从图像中有效提地取数据的困难。本公开提供了一种使用对话界面和数据库查询从图像中提取相关信息的方法和系统。应当理解,除了其中具有消息的计算机可读装置之外,保护的范围扩展到这种程序;当程序在服务器或移动装置或任何合适的可编程装置上运行时,这种计算机可读存储装置包含用于实现该方法的一个或多个步骤的程序代码装置。硬件装置可以是任何类型的可编程的装置,包括例如任何类型的计算机,如服务器或个人计算机等、或其任意组合。该装置还可以包括这样的装置,该装置可以是例如硬件装置(例如,专用集成电路(asic))、现场可编程逻辑门阵列(fpga)或者硬件和软件装置的组合(例如,asic和fpga),或者至少一个微处理器和软件模块位于其中的至少一个存储器。因此,该装置可以包括硬件装置和软件装置。本文描述的方法实施方式可以在硬件和软件中实现。该装置还可以包括软件装置。可替换地,可以在不同的硬件装置上(例如,使用多个cpu)实现实施方式。本文的实施方式可以包括硬件和软件元件。用软件实现的实施方式包括但不限于固件、常驻软件、微码等。本文描述的各种模块进行的功能可以在其他模块或其他模块的组合中实现。出于本说明书的目的,计算机可用或计算机可读介质可以是任何设备,所述设备包括可以包含、存储、通信、传播或传输由指令执行系统、设备或装置使用或与其结合使用的程序的任何设备。阐述了所示出的步骤以便解释所示的示例性实施方式,并且应该预期正在进行的技术发展将改变执行特定功能的方式。本文呈现的这些实例是为了说明的目的,而不是限制。此外,为了描述的方便,本文已经任意定义了功能构建块的边界。只要适当地执行指定的功能及其关系,就可以定义替代边界。基于本文包含的教导,对于相关领域的技术人员来说替代方案(包括本文描述的等同物、扩展、变化、偏差等)将是显而易见的。这些替代方案落在所公开的实施方式的范围和精神内。此外,词语“包括”、“具有”、“包含”和“含有”以及其他类似形式在含义上是等同的,并且是开放式的,因为这些词语中的任一个后面的一个或多个项并不意味着是该项或该多个项的穷尽列表,或者意味着只限于所列出的一个或多个项。还必须注意,除非内容另外明确指示,否则如本文和所附权利要求中所使用的单数形式“一”、“一个”和“该”也包括复数引用。此外,一个或多个计算机可读存储介质可以用于实现与本公开一致的实施方式。计算机可读存储介质是指处理器可读的信息或数据可以存储在其上的任何类型的物理存储器。因此,计算机可读存储介质可以存储用于由一个或多个处理器执行的指令,该指令包括用于使处理器执行与本文描述的实施方式一致的步骤或阶段的指令。术语“计算机可读介质”应该理解为包括有形项,并且不包括载波和瞬态信号,即,是非暂时性的。实例包括随机存取存储器(ram)、只读存储器(rom)、易失性存储器、非易失性存储器、硬盘驱动器、cdrom、dvd、闪存驱动器、磁盘和任何其他已知的物理存储介质。本公开和实例仅被认为是示例性的,所公开的实施方式的真实范围和精神由所附权利要求指示。当前第1页1 2 3 当前第1页1 2 3 
技术特征:1.一种用于从图像中提取相关信息的方法(200),所述方法包括处理器实现的步骤:
获得作为输入图像的图像(202);
对所述输入图像执行去噪方法以从所述输入图像中去除噪声(204);
运行文档标识符以识别文档的类型,其中,所述类型是印刷文本或者手写文本(206);
根据所识别的文档的类型对所述图像执行光学字符识别(ocr),以检测一组文本实体(208);
设计一模式以在所述一组文本实体之间建立关系(210);
将检测到的所述一组文本实体和所述模式存储在关系数据库中(212);
使用对话界面,由用户提供自然语言查询,以提取相关信息(214);
将所述自然语言查询转换成sql查询(216);并且
向所述关系数据库提供所述sql查询,以从所述关系数据库中提取所述相关信息(218)。
2.根据权利要求1所述的方法,进一步包括在将检测到的所述一组文本实体和所述模式存储在所述关系数据库中之后,直接向所述关系数据库提供所述sql查询的步骤。
3.根据权利要求1所述的方法,进一步包括使用递归编码器-解码器模型处理手写文本以用于将视觉特征映射到所述输入图像中存在的一组字符的步骤。
4.根据权利要求1所述的方法,进一步包括对自然语言查询及其意图进行分类的步骤。
5.根据权利要求1所述的方法,进一步包括存储用于提取所述相关信息的一组sql查询的工作流的步骤。
6.根据权利要求1所述的方法,其中,通过利用生成对抗网络(gan)来执行所述去噪方法。
7.根据权利要求1的方法,其中,所述一组文本实体与文本实体的空间坐标相关联,并且所述信息传达相邻文本实体的位置。
8.根据权利要求1所述的方法,其中,使用由卷积神经网络(cnn)组成的孪生网络来运行所述文档标识符。
9.根据权利要求1所述的方法,其中,所述一组文本实体是词、行、文本块、复选框、箭头、omr圆、徽标、表格、图形以及文本框中的一项或多项。
10.根据权利要求1所述的方法,其中,在执行ocr之前,运行所述文档标识符以确定正确的模板。
11.根据权利要求1所述的方法,其中,所述输入图像中的噪声是由于相机抖动、聚焦不当、成像噪声、咖啡渍、褶皱、低分辨率、不良照明以及反射中的一项或多项引起的。
12.根据权利要求1所述的方法,进一步包括将初始的sql查询分解成与初始的查询相比更简单的一个以上查询的步骤。
13.一种用于从图像中提取相关信息的系统(100),所述系统包括:
输入模块(102),用于提供所述图像作为输入图像;
存储器(104);以及
处理器(106),与所述存储器通信,所述处理器进一步包括:
噪声去除模块(108),用于对所述输入图像执行去噪方法,以从所述输入图像中去除噪声;
文档标识符(110),用于识别文档的类型,其中,所述类型是印刷文本或手写文本;
ocr引擎(112),用于根据所识别的文档的类型对所述图像执行光学字符识别(ocr),以检测一组文本实体;
模式设计模块(114),用于设计一模式以在所述一组文本实体之间建立关系;
存储模块(116),用于将检测到的所述一组文本实体和所述模式存储在关系数据库中;
对话界面(118),用于由用户提供自然语言查询,以提取相关信息;
转换模块(120),用于将所述自然语言查询转换成sql查询;以及
数据库查询模块(122),用于向所述关系数据库提供所述sql查询以从所述关系数据库中提取所述相关信息。
14.一种计算机程序产品,包括非暂时性计算机可读介质,在所述非暂时性计算机可读介质中包含计算机可读程序,其中,当在计算装置上执行时,所述计算机可读程序使所述计算装置:
获得作为输入图像的图像(202);
对所述输入图像执行去噪方法,以从所述输入图像中去除噪声(204);
运行文档标识符以识别文档的类型,其中,所述类型是印刷文本或手写文本(206);
根据所识别的文档的类型对所述图像执行光学字符识别(ocr),以检测一组文本实体(208);
设计一模式,以在所述一组文本实体之间建立关系(210);
将检测到的所述一组文本实体和所述模式存储在关系数据库中(212);
使用对话界面,由用户提供自然语言查询以提取相关信息(214);
将所述自然语言查询转换成sql查询(216);并且
向所述关系数据库提供所述sql查询,以从所述关系数据库中提取所述相关信息(218)。
15.根据权利要求14所述的计算机程序产品,进一步包括将检测到的所述一组文本实体和所述模式存储在所述关系数据库中之后,直接向所述关系数据库提供所述sql查询的步骤。
技术总结本发明涉及从图像中提取相关信息的方法和系统及计算机程序产品。各种方法都使用基于SQL的数据提取来从图像中提取相关信息。这些是从NL生成SQL查询的基于规则的方法,如果要处理任何新的英语句子,则需要人工干预。对于非技术用户来说这变得更加困难。提供了用于使用对话界面和数据库查询从图像中提取相关信息的系统和方法。该系统消除了噪声影响,识别文档的类型,并检测图表的各种实体。此外,设计了一种模式,该模式让由深度视觉模型检测到的实体的抽象以及实体间的关系容易被理解。然后,通过在关系表的顶部编写SQL查询,可以从文档中提取相关信息和字段。添加了基于自然语言的界面,使得用自然语言指定查询的非技术用户可以轻松地获取信息。
技术研发人员:洛夫克什·维格;高塔姆·什拉夫;阿林达姆·乔杜里;罗希特·拉胡尔;贡年·塞加尔;维什瓦纳特·多雷斯瓦米;莫妮卡·夏尔马;阿什维·斯里尼瓦桑
受保护的技术使用者:塔塔顾问服务有限公司
技术研发日:2019.11.27
技术公布日:2020.06.09