本发明涉及票据处理信息技术领域,特别是一种票据信息提取方法及系统。
背景技术:
在许多业务场景中,如跨境贸易业务中,很多重要信息是记录在纸质票据(如合同、商业发票、装箱单单据等)上,这些信息在业务处理中十分重要,比如在业务审核、纠纷处理等等中,都会用到这些信息。这些信息存在于不同类型的票据之中,不同类型的票据对应的格式不同,同一类型的票据不同单位之间也存在不同的格式。
目前,票据信息的提取多采用现有的票据模板和票据进行匹配比对,通过匹配成功的票据模板将相应位置中的票据信息提取出来。但这种方式受现有票据格式的限制,不能适应现在多样化的票据信息提取的要求。
技术实现要素:
本发明主要解决的技术问题是提供一种票据信息提取方法及系统,满足不同格式的票据中的票据信息提取需求,提高票据信息提取的效率。
为了实现上述目的,本发明采用的第一个技术方案是:采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构;选取票据要素并在数据结构中搜索票据要素对应文本,然后确定票据要素对应文本的准确位置;选择含有票据要素的票据信息提取模板;根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框;确定与票据对应的候选框;以及提取票据信息。
本发明采用的第二个技术方案是:一种票据信息提取系统,其特征在于,包括:超文本标记语言模块,其采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构;票据要素对应文本搜索模块,其根据选取的票据要素在二维网格数据结构中搜索票据要素对应文本并确定其准确位置;票据信息提取模板选择模块,其选择含有票据要素的票据信息提取模板并根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框;票据信息提取模块,其确定与票据对应的候选框并提取票据信息。
本发明的有益效果:
本发明通过票据要素及其相关的票据信息提取模板、票据信息提取候选框,从建立的超文本标记语言二维网格数据结构中搜索与票据要素对应的二维网格,并从此二维网格中提取出含有票据要素的票据信息。本发明应用不限于某一具体格式的票据,因而能适应不同格式的票据信息的提取,提高了繁杂票据信息处理的效率和智能化水平。
附图说明
图1是本发明一种票据信息提取方法的流程图;
图2是本发明中的票据信息提取模板示意图;
图3是本发明一种票据信息提取系统结构示意图。
具体实施方式
下面结合附图对本发明的较佳实施例进行详细阐述,以使本发明的优点和特征能更易于被本领域技术人员理解,从而对本发明的保护范围做出更为清楚明确的界定。
本发明的原理是利用选择性搜索(selectivesearch)的思想,将不同格式的纸质票据整理成影像,然后将这些影像中的票据信息利用超文本标记语言整理成含有票据信息超文本的二维网格结构,然后通过选择的票据要素对应的超文本标记语言文本进行定位。采用含有票据要素的票据信息提取模板去票据信息二维网格结构中进行搜索、匹配。匹配完成后根据票据信息提取模板和二维网格的结构生成票据信息提取的候选框,通过票据要素、空白、经验值等因素确定候选框的边界。采用候选框评分器筛选出最适合的候选框,并根据此候选框的结构将相应的票据信息从繁杂的二维网格结构中提取出来。
图1示出了本发明的一个具体实施方式,在本发明一种票据信息提取方法中,票据信息的提取过程包括如下步骤:
步骤s101为建立超文本标记语言二维网格数据结构步骤。将不同格式、不同类型的纸质票据采用影像生成电子设备,例如扫描仪或数码相机、智能手机等,处理成含有票据所有信息的图片。此种处理有利于票据信息的保存和使用计算机批量处理,与人的手工处理相比提高效率,降低手工工作强度。然后利用光学字符识别(ocr)软件将图片中的文字信息转换成文本格式的信息以便于利用文字处理软件进一步编辑加工。
通过超文本标记语言(html)将ocr处理生成的文本信息整理成html格式的文本,同时生成含有此文本的html二维网格。根据此二维网格中得到文本的位置计算机可以快速搜索到此文本所在的文字块。在此二维网格中,该html格式的文本中的文字大小及位置与票据影像中的文字大小及位置相对应。例如:一个票据的影像是600*800像素的高和宽,那html就初始化一个600*800的数组a;如果一个文字块的坐标为(100,120),对应的二维数组的下标为a[100][120],从而在html二维网格中可以快速的搜索该文字块的位置,并从该文字块中获取相关的信息。
将上述与纸质票据对应的html二维网格整理可得到超文本标记语言二维网格数据结构。
步骤s102为搜索并定位票据要素对应的文本步骤。从大量票据中选取待提取票据信息的票据,从票据信息中选定一个票据要素,例如从名称、填制日期、单位名称、业务内容(含数量、单价、金额等)、填制单位签章、有关人员签章、凭证附件等票据要素中选取“单位名称”作为搜索用的票据要素。根据“单位名称”这个票据要素在html二维网格中搜索相对应的文本“单位名称”,从而在html二维网格中快速确定含有“单位名称”这个票据要素的票据范围。
步骤s103为选取票据信息提取模板步骤。选取一个与待提取信息票据含有相同票据要素(比如“单位名称”)的票据信息提取模板,将选定的票据信息提取模板放置到html二维网格中,使选定的模板中的票据要素(比如“单位名称”)与html二维网格中的票据要素文本(比如“单位名称”)相对应。根据此模板的结构布局将此模板与票据要素文本所在的html二维网格的结构进行比对,如果能匹配上,即可确定待提取信息票据的结构。如果不能匹配则选择其它结构布局的与待提取信息票据含有相同票据要素的票据信息提取模板再次与html二维网格进行比对匹配,直至匹配成功,确定待提取信息票据的结构。
上述票据信息提取模板是根据不同格式票据中的票据要素的位置与票据要素旁边空白位置和/或构成票据要素下一级内容的特征词之间的相互位置关系形成的结构布局进行统计处理得到的。图2示出了票据信息提取模板的几种基本类型。
在本发明的一个实施例中,将票据要素选为“单位名称”,会有图2中四种模板结构布局。如果在html二维网格中模板一不能匹配上,则继续选择模板二、模板三、模板四与html二维网格进行匹配,直至某一个模板匹配成功。例如,如果模板三的结构布局和待提取票据信息的票据结构布局相同,则选定模板三作为票据信息提取模板。
步骤s104为生成并选择票据信息提取候选框步骤。待提取信息票据结构确定后,在html二维网格中会自动生成一系列边界不同的票据信息提取候选框。然后通过票据要素对应文本的行高和长度、html二维网格中票据要素对应文本旁边的空白边界、票据要素对应文本旁边的二维网格线构成的表格的边界及经验值中的至少一个因素确定票据要素提取候选框的边界。
在本发明的一个实施例中,我们通过票据要素(比如“单位名称”)在在html二维网格中定位到大致位置,并选定模板三为票据信息提取模板。根据模板三的结构生成了一系列的票据信息提取候选框。然后需要确定票据要素右边的空白的边界和票据要素下边特征词的边界。html会以票据要素为起点,向右搜索,遇到空白会生成一个候选边界;html继续向右搜索,如果遇到表格线会再生成一个候选边界;html向下方搜索,遇到特征词又会生成一个候选边界。根据html中“单位名称”的行高和长度、“单位名称”右边空白的大小、特征词(例如“人民商场”)的行高和长度,可确定具体的票据要素提取候选框的边界。
步骤s105为确定候选框步骤。采用文本分类的卷积神经网络训练得到的候选框评分器对s104中确定边界后的不同候选框进行评分。在本发明的一个实施例中,具体评分过程为:将候选框中的文本输入候选框评分器,输出为是否为提取要素值得评分值。然后选取评分分值最高的候选框作为最终提取票据信息的候选框。
步骤s106提取票据信息步骤。将最终提取票据信息的候选框中的内容提取出来,得到票据的信息。
图3所示为本发明的一个具体实施方式,本发明一种票据信息提取系统包括以下部分:
超文本标记语言模块,其采用超文本标记语言建立含有票据信息对应文本且与票据结构相同的二维网格数据结构。在本发明的一个实施例中,具体建立二维网格数据结构的过程同技术方案一中的步骤s101。
票据要素对应文本搜索模块,其根据选取的票据要素在二维网格数据结构中搜索票据要素对应文本并确定其准确位置。在本发明的一个实施例中,具体搜索票据要素对应文本并确定其准确位置的过程同技术方案一中的步骤s102。
票据信息提取模板选择模块,其选择含有票据要素的票据信息提取模板并根据票据要素对应文本的位置将票据信息提取模板放置于票据要素对应文本所在的二维网格上生成票据信息提取的候选框。在本发明的一个实施例中,具体选择票据信息提取模板与生成票据信息提取候选框的过程同技术方案一中的步骤s103和步骤s104。
票据信息提取模块,其确定与票据对应的候选框并提取票据信息。在本发明的一个实施例中,具体确定候选框并提取信息的过程同技术方案一中的步骤s105。
本发明通过票据要素及其相关的票据信息提取模板、票据信息提取候选框,从建立的超文本标记语言二维网格数据结构中搜索与票据要素对应的二维网格,并从此二维网格中提取出含有票据要素的票据信息。本发明应用不限于某一具体格式的票据,因而能适应不同格式的票据信息的提取,提高了繁杂票据信息处理的效率和智能化水平。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
1.一种票据信息提取方法,其特征在于,包括以下步骤:
采用超文本标记语言建立含有所述票据信息对应文本且与所述票据结构相同的二维网格数据结构;
选取票据要素并在所述数据结构中搜索所述票据要素对应文本,然后确定所述票据要素对应文本的准确位置;
选择含有所述票据要素的票据信息提取模板;
根据所述票据要素对应文本的位置将所述票据信息提取模板放置于所述票据要素对应文本所在的二维网格上生成所述票据信息提取的候选框;
确定与所述票据对应的所述候选框;以及
提取所述票据信息。
2.如权利要求1所述的票据信息提取方法,其特征在于,所述二维网格数据结构的建立包括以下步骤:
将不同格式的纸质票据处理成包含全部票据信息的图片;
采用光学字符识别软件处理所述图片获得所述票据的影像信息;
采用超文本标记语言处理所述影像信息并生成含有所述票据信息对应文本且与所述票据结构相同的二维网格;以及
整理所述二维网格获得所述二维网格数据结构。
3.如权利要求2所述的票据信息提取方法,其特征在于,所述票据信息对应文本的文字大小与所述票据信息对应的影像信息中的文字大小相同。
4.如权利要求1所述的票据信息提取方法,其特征在于,根据所述票据信息提取模板的结构布局选择所述票据信息提取模板,所述所述票据信息提取模板的结构布局为构成所述票据信息提取模板的所述票据要素、空白和/或构成所述票据要素下一级内容的特征词之间的相互位置关系。
5.如权利要求1所述的票据信息提取方法,其特征在于,确定与所述票据对应的所述候选框包括以下步骤:
通过所述票据要素对应文本的行高和长度、所述二维网格中所述票据要素对应文本旁边的空白边界、所述票据要素对应文本旁边的所述二维网格线构成的表格的边界、经验值中的至少一个确定所述候选框的边界;以及
采用文本分类的卷积神经网络训练得到的候选框评分器对所述候选框进行评分,选择分值最高的作为所述票据对应的候选框。
6.一种票据信息提取系统,其特征在于,包括:
超文本标记语言模块,其采用超文本标记语言建立含有所述票据信息对应文本且与所述票据结构相同的二维网格数据结构;
票据要素对应文本搜索模块,其根据选取的票据要素在所述二维网格数据结构中搜索所述票据要素对应文本并确定其准确位置;
票据信息提取模板选择模块,其选择含有所述票据要素的票据信息提取模板并根据所述票据要素对应文本的位置将所述票据信息提取模板放置于所述票据要素对应文本所在的二维网格上生成所述票据信息提取的候选框;以及
票据信息提取模块,其确定与所述票据对应的所述候选框并提取所述票据信息。
7.如权利要求6所述的票据信息提取系统,其特征在于,所述二维网格数据结构的建立包括以下步骤:
将不同格式的纸质票据处理成包含全部票据信息的图片;
采用光学字符识别软件处理所述图片获得所述票据的影像信息;
采用超文本标记语言处理所述影像信息并生成含有所述票据信息对应文本且与所述票据结构相同的二维网格;以及
整理所述二维网格获得所述二维网格数据结构。
8.如权利要求7所述的票据信息提取系统,其特征在于,所述票据信息对应文本的文字大小与所述票据信息对应的影像信息中的文字大小相同。
9.如权利要求6所述的票据信息提取系统,其特征在于,根据所述票据信息提取模板的结构布局选择所述票据信息提取模板,所述所述票据信息提取模板的结构布局为构成所述票据信息提取模板的所述票据要素、空白和/或构成所述票据要素下一级内容的特征词之间的相互位置关系。
10.如权利要求6所述的票据信息提取系统,其特征在于,其特征在于,确定与所述票据对应的所述候选框包括以下步骤:
通过所述票据要素对应文本的行高和长度、所述二维网格中所述票据要素对应文本旁边的空白边界、所述票据要素对应文本旁边的所述二维网格线构成的表格的边界、经验值中的至少一个确定所述候选框的边界;以及
采用文本分类的卷积神经网络训练得到的候选框评分器对所述候选框进行评分,选择分值最高的作为所述票据对应的候选框。
技术总结