一种文本图像中表格的结构化信息的识别方法及装置与流程

专利2022-06-29  76


本发明涉及图像处理技术领域,尤其涉及一种文本图像中表格的结构化信息的识别方法及装置。



背景技术:

随着人工智能技术的发展,在工业领域得到了越来越广泛的应用。人工智能技术在深入到工业系统中后,在一些机械性、重复性的劳动过程中,可以部分替代人工,或者说辅助人工,以提高人的生产效率,降低企业的生产成本。这一技术框架被称之为机器人流程自动化(roboticprocessautomation,简称“rpa”)。

rpa的一个典型应用是企业的合同文本的自动化处理流程。一个企业在生产过程中,有大量的合同需要处理,如各类原料采购合同和设备销售合同等。由于合同涉及到多类供方或需方,且合同内容因具体业务而不同,合同内容并不标准。企业往往需要雇佣多位财务人员,每天对各类合同进行人工审核和标准化处理,人工审核成本高,且容易出错。

本发明实施例的背景是利用人工智能技术,将企业的大量纸质合同进行统一扫描或拍照,将这些合同进行电子化,得到包含表格的文本图像,然后,进行光学字符识别(opticalcharacterrecognition,简称“ocr”),将图片中的文字及其坐标提取出来。在这基础之上,为了进一步分析文本图像中表格的结构化信息,需要识别上述结构化信息。



技术实现要素:

针对现有技术存在的问题,本发明实施例提供一种文本图像中表格的结构化信息的识别方法及装置。

本发明实施例提供一种文本图像中表格的结构化信息的识别方法,包括:

在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

其中,所述文字度量信息包括文字宽度信息和文字高度信息;相应的,所述根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格,包括:

若所述文字度量信息为所述文字宽度信息,则计算竖直方向的相邻两条表格线对应的相邻横坐标之间的横坐标差值,并根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数;

若所述文字度量信息为所述文字高度信息,则计算水平方向的相邻两条表格线对应的相邻竖坐标之间的竖坐标差值,并根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数;

根据所述列数和所述行数,确定所述同一个表格内的初始单元格。

其中,所述根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数,包括:

若所述横坐标差值小于所述文字宽度信息与预设文字宽度系数的乘积,则将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;

若所述横坐标差值大于等于所述文字宽度信息与预设文字宽度系数的乘积,则不将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;

根据对竖直方向的相邻两条表格线的合并结果,确定所述同一个表格内的列数;其中,所述预设文字宽度系数的取值范围为0.4~0.6;

所述根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数,包括:

若所述竖坐标差值小于所述文字高度信息与预设文字高度系数的乘积,则将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;

若所述竖坐标差值大于等于所述文字高度信息与预设文字高度系数的乘积,则不将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;

根据对水平方向的相邻两条表格线的合并结果,确定所述同一个表格内的行数;其中,所述预设文字高度系数的取值范围为0.4~0.6。

其中,所述根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,包括:

若所述线段像素数大于等于所述预设阈值,则确定不合并相邻两个初始单元格;

若所述线段像素数小于所述预设阈值,则确定合并相邻两个初始单元格。

其中,所述多边形为矩形;相应的,所述确定相邻两个初始单元格的交线,构建包含所述交线的多边形,包括:

确定所述矩形的位置,具体包括:

确定所述交线的垂直方向为第二目标坐标轴,确定所述交线在所述第二目标坐标轴上的中心坐标点;

将所述中心坐标点作为所述矩形沿所述交线的垂直方向的位置中心;

确定所述交线的水平方向为第三目标坐标轴,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最小坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最小值:

y_min=cross_y_min l1*h

其中,y_min为所述位置最小值、cross_y_min为最大的一个最小坐标点、l1为第一预设比例,h为所述交线的长度;其中,所述第一预设比例为0.2~0.3;

确定所述相邻两个初始单元格在所述第三目标坐标轴上的最大坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最大值:

y_max=cross_y_max–l1*h

其中,y_max为所述位置最大值、cross_y_max为最小的一个最大坐标点。

其中,所述文本图像中表格的结构化信息的识别方法还包括:

确定所述矩形的面积,具体包括:

将所述位置最大值和所述位置最小值之间的长度作为所述矩形沿所述交线的水平方向的边长;

确定与所述交线的垂直方向相对应的文字宽度信息或文字高度信息,根据所述文字宽度信息与l2的乘积或所述文字高度信息与l2的乘积,确定所述矩形沿所述交线的垂直方向的边长;其中,所述l2为第二预设比例、为0.7~0.9;

根据所述矩形沿所述交线的水平方向的边长和所述矩形沿所述交线的垂直方向的边长,计算所述矩形的面积。

其中,所述文本图像中表格的结构化信息的识别方法还包括:

所述预设阈值的数值大小随所述矩形的面积大小呈现正比例变化。

本发明实施例提供一种文本图像中表格的结构化信息的识别装置,包括:

第一确定单元,用于在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

第二确定单元,用于获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

第三确定单元,用于确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

识别单元,用于遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本发明实施例提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,

所述处理器执行所述程序时实现如下方法步骤:

在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如下方法步骤:

在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本发明实施例提供的文本图像中表格的结构化信息的识别方法及装置,先确定同一个表格内的初始单元格,再构建包含相邻两个初始单元格的交线的多边形,根据多边形的包围区域内的线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,根据合并结果确定表格的结构化信息的识别结果,能够自动和准确地识别文本图像中表格的结构化信息。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明文本图像中表格的结构化信息的识别方法实施例流程图;

图2为本发明实施例确定初始单元格示意图;

图3为本发明实施例确定最终单元格示意图;

图4为本发明实施例构建多边形的示意图;

图5为本发明文本图像中表格的结构化信息的识别装置实施例结构示意图;

图6为本发明实施例提供的电子设备实体结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明文本图像中表格的结构化信息的识别方法实施例流程图,如图1所示,本发明实施例提供的一种文本图像中表格的结构化信息的识别方法,包括以下步骤:

s101:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴。

具体的,在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴。执行该方法步骤的可以是计算机设备,具体可以是服务器。本发明实施例是建立在通用ocr识别结果的基础上的。以合同文本图像为例,先通过通用ocr识别方法获取合同文本图像中的每个文字,及每个文字在合同文本图像中的坐标(x_min,x_max,y_min,y_max)。

在上述基础上,进行表格的结构化信息识别。主要步骤如下:

1.基于霍夫变换提取线段,具体实现方式为本领域成熟技术,不再赘述。

2.对提取出的线段进行聚类和过滤,将同属于一个表格的线段(即表格线)聚类到一起,将非表格中的线段进行过滤。

具体包括如下步骤:

第一,先两两找每个线段是否有交点,把有交点的线段聚类到一起,把没有交点的线段单独聚为一类。

第二,计算有交点的线段所占区域的面积

[x_min(q),x_max(q),y_min(q),y_max(q)],那些没有交点的线段

[x_min(p),x_max(p),y_min(p),y_max(p)],如果其坐标范围在这个范围之内,即:

x_min(p)>x_min(q)&&x_max(p)<x_max(q)&&y_min(p)>y_min(q)&&y_max(p)<y_max(q),则这个线段也并入到该类别中。

通过上述处理,实现了确定属于同一个表格内的表格线。

在上述步骤2的基础上,还包括:

3.对于聚类到一个表格中的线段,进行表格结构分析。表格结构分析的第一步是:将表格线的横线和竖线分别进行分类。下图以竖线聚类为例进行说明,图2为本发明实施例确定初始单元格示意图,如图2所示,对于与竖线方向相垂直的第一目标坐标轴为水平方向的x轴。

s102:获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格。

具体的,获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格。文字度量信息可以包括文字宽度信息和文字高度信息,对于竖线:共显示了l1~l5,共5条竖线。根据这5条竖线的x轴坐标进行聚类,聚类方法如下:

先计算图像中所有文字块的平均宽度mean_width(根据ocr识别结果中每个字的坐标x_min和x_max可计算每个字的高度为x_max-x_min,进而可得所有文字块的平均宽度mean_width),其中,mean_width对应文字宽度信息,即同一个表格内的所有文字的宽度平均值。与文字宽度信息相对应的相同方向为竖线方向,相应的,相同方向的相邻两条表格线可以为相邻的两条竖线l(i)和l(j)。

由于,竖线可能存在一定程度的倾斜,因此,为了精确计算,可以确定与l(i)和l(j)分别对应的相邻坐标为fx(l(i))和fx(l(j)),其中,fx(l(i))表示竖线l(i)的x轴坐标的中心点坐标、fx(l(j))表示竖线l(j)的x轴坐标的中心点坐标。

所述根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格,可以具体包括:

若所述文字度量信息为所述文字宽度信息,则计算竖直方向的相邻两条表格线对应的相邻横坐标之间的横坐标差值,并根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数;该步骤进一步包括:

若所述横坐标差值小于所述文字宽度信息与预设文字宽度系数的乘积,则将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;若所述横坐标差值大于等于所述文字宽度信息与预设文字宽度系数的乘积,则不将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;根据对竖直方向的相邻两条表格线的合并结果,确定所述同一个表格内的列数;其中,所述预设文字宽度系数的取值范围为0.4~0.6。所述预设文字宽度系数的取值范围为0.4~0.6,以0.5为例,即ifabs(fx(l(i))-fx(l(j)))<mean_width*0.5,那么将l(i)和l(j)合并为一组,否则为两组,其中,abs(m)表示取m的绝对值。

参照图2,l2和l3被划分到一组中,其他分别都是各自一组,因此,如果竖线分为m组,表示表格按最小单元格计算,则共有m-1列,图2中m=4,即该表格中共有m-1=3列。

若所述文字度量信息为所述文字高度信息,则计算水平方向的相邻两条表格线对应的相邻竖坐标之间的竖坐标差值,并根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数,可参照上述两条竖线的说明,不再赘述。参照图2中的横线,共有4根横线,进行y轴的合并后,分为4组,按上述分析,同理,该表格共有4-1=3行。

根据所述列数和所述行数,确定所述同一个表格内的初始单元格。参照图2,3行3列的表格,共有3*3=9个单元格,可以理解的是,由于还没有考虑单元格是否合并的情况,因此,这些单元格是初始单元格。

s103:确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格。

具体的,确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格。预设阈值可以根据实际情况自主设置。在上述步骤3的基础上,还包括:

4.单元格的合并。在进行完第3步后,得到初始单元格,表格共有3行3列。如图2所示,因为该表格有单元格合并,所以实际并非标准的3行3列的表格。因此,需要确定是否对单元格进行合并。可以理解的是,相邻两个初始单元格可以是沿水平方向相邻,也可以是沿竖直方向相邻,相应的,交线分别为竖直方向的交线和水平方向的交线,本发明实施例可以按照先遍历水平方向的相邻两个初始单元格,再遍历竖直方向的相邻两个初始单元格,遍历顺序不作具体限定。

图3为本发明实施例确定最终单元格示意图,如图3所示,先进行初始单元格的水平合并,再进行初始单元格的竖直合并。对于水平合并过程:

如果不进行单元格合并,那么3行3列的表格,共有3*3=9个单元格c1~c9。

依次进行分析合并。水平合并过程可以从表格最左上角开始,即第1行第1列开始,即从c1开始,先判断c1是否和c2合并。

在上一步的时候,对表格中的所有横线和竖线都进行了聚类,在此过程中,保留每根横线和竖线的坐标。因此,可以确定c1~c9每个单元格的坐标[x_min,x_max,y_min,y_max]。在判断c1和c2是否需要合并的时候,判断依据为c1和c2中间是否有竖线(即水平方向相邻两个初始单元格的交线),为了提高判断的准确率,判断的方法如下:

图4为本发明实施例构建多边形的示意图,如图4所示,构建的多边形为矩形,如果图4中的多边形的包围区域内的线段像素数大于等于所述预设阈值,则确定不合并相邻两个初始单元格;如果图4中的多边形的包围区域内的线段像素数小于所述预设阈值,则确定合并相邻两个初始单元格。即如果线段像素数大于等于预设阈值,则认为找到了交线,则不把c1和c2进行合并;反之,则认为没找到交线,则把c1和c2进行合并。

所述确定相邻两个初始单元格的交线,构建包含所述交线的多边形,包括:

确定所述矩形的位置,具体包括:

确定所述交线的垂直方向为第二目标坐标轴,确定所述交线在所述第二目标坐标轴上的中心坐标点。参照图3,以c1和c2中间的竖线作为交线为例,其垂直方向的第二目标坐标轴为x轴,先在c1和c2两个块交接的地方确定x轴方向的中心坐标点x_center=(x_max(c1) x_min(c2))/2,需要说明的是,交线可能存在一定程度的倾斜,因此,为了精确计算,可以确定上述中心坐标点。

将所述中心坐标点作为所述矩形沿所述交线的垂直方向的位置中心。参照图4,即确定了该矩形在水平方向上的位置。

确定所述交线的水平方向为第三目标坐标轴,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最小坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最小值:

y_min=cross_y_min l1*h

其中,y_min为所述位置最小值、cross_y_min为最大的一个最小坐标点、l1为第一预设比例,h为所述交线的长度;其中,所述第一预设比例为0.2~0.3。其水平方向的第三目标坐标轴为y轴;相应的,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最小坐标点分别为y_min(c1)和y_min(c2),cross_y_min=max(y_min(c1),y_min(c2))。参照图4,l1可选为0.25。

确定所述相邻两个初始单元格在所述第三目标坐标轴上的最大坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最大值:

y_max=cross_y_max–l1*h

其中,y_max为所述位置最大值、cross_y_max为最小的一个最大坐标点。确定所述相邻两个初始单元格在所述第三目标坐标轴上的最大坐标点分别为y_max(c1)和y_max(c2),cross_y_max=min(y_max(c1),y_max(c2)),h可以通过如下公式计算:

h=cross_y_max-cross_y_min。参照图4,即确定了该矩形在竖直方向上的位置。

进一步地,该方法还包括:

确定所述矩形的面积,具体包括:

将所述位置最大值和所述位置最小值之间的长度作为所述矩形沿所述交线的水平方向的边长。参照图4,即图4中的0.5h为该矩形沿竖线的水平方向的边长。

确定与所述交线的垂直方向相对应的文字宽度信息或文字高度信息,根据所述文字宽度信息与l2的乘积或所述文字高度信息与l2的乘积,确定所述矩形沿所述交线的垂直方向的边长;其中,所述l2为第二预设比例、为0.7~0.9。参照图4,l2可选为0.8,该示例对应的文字度量信息为文字宽度信息,参照图4,矩形沿所述交线的垂直方向的边长为0.8*mean_width,文字度量信息为文字高度信息的说明,不再赘述。

根据所述矩形沿所述交线的水平方向的边长和所述矩形沿所述交线的垂直方向的边长,计算所述矩形的面积。已知矩形的边长,计算矩形的面积为本领域成熟技术,不再赘述。

该方法还包括:

所述预设阈值的数值大小随所述矩形的面积大小呈现正比例变化。即矩形的面积越大,选择的预设阈值的数值越大;矩形的面积越小,选择的预设阈值的数值越小。

s104:遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

具体的,遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。如图3所示,将c2和c3按上述方式进行合并,合并后,构成新的单元格d={c2,c3}

然后重新计算d的坐标范围:

x_min(d)=min(x_min(c2),x_min(c3))

x_max(d)=max(x_max(c2),x_max(c3))

y_min(d)=min(y_min(c2),y_min(c3))

y_max(d)=max(y_max(c2),y_max(c3))

单元格d在表格中的位置为第1行,第2,3列。

在c4和c5处理后,进行合并后,继续以同样的方式将c6进行合并,构成新的单元格{c4,c5,c6},坐标更新方式如上所示,单元格{c4,c5,c6}在表格中的位置为第2行,第1,2,3列。

在进行完水平位置的合并后,进行竖直位置的合并,合并方式同上,只是合并顺序改为按列依次遍历。

5.在分析完表格中每个单元格的坐标范围及其在表格中所处第几行第几列后,即完成了表格的分析任务。接下来就是根据表格的坐标范围,把ocr识别结果中对应位置的文字,根据坐标放入对应的表格中。对于表格外的文字,仍保持不变即可。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,先确定同一个表格内的初始单元格,再构建包含相邻两个初始单元格的交线的多边形,根据多边形的包围区域内的线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,根据合并结果确定表格的结构化信息的识别结果,能够自动和准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述文字度量信息包括文字宽度信息和文字高度信息;相应的,所述根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格,包括:

具体的,若所述文字度量信息为所述文字宽度信息,则计算竖直方向的相邻两条表格线对应的相邻横坐标之间的横坐标差值,并根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数;可参照上述说明,不再赘述。

具体的,若所述文字度量信息为所述文字高度信息,则计算水平方向的相邻两条表格线对应的相邻竖坐标之间的竖坐标差值,并根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数;可参照上述说明,不再赘述。

具体的,根据所述列数和所述行数,确定所述同一个表格内的初始单元格。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,进一步能够实现自动和准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数,包括:

具体的,若所述横坐标差值小于所述文字宽度信息与预设文字宽度系数的乘积,则将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;可参照上述说明,不再赘述。

具体的,若所述横坐标差值大于等于所述文字宽度信息与预设文字宽度系数的乘积,则不将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;可参照上述说明,不再赘述。

具体的,根据对竖直方向的相邻两条表格线的合并结果,确定所述同一个表格内的列数;其中,所述预设文字宽度系数的取值范围为0.4~0.6;可参照上述说明,不再赘述。

所述根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数,包括:

具体的,若所述竖坐标差值小于所述文字高度信息与预设文字高度系数的乘积,则将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;可参照上述说明,不再赘述。

具体的,若所述竖坐标差值大于等于所述文字高度信息与预设文字高度系数的乘积,则不将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;可参照上述说明,不再赘述。

具体的,根据对水平方向的相邻两条表格线的合并结果,确定所述同一个表格内的行数;其中,所述预设文字高度系数的取值范围为0.4~0.6。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,进一步能够实现自动和准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,包括:

具体的,若所述线段像素数大于等于所述预设阈值,则确定不合并相邻两个初始单元格;可参照上述说明,不再赘述。

具体的,若所述线段像素数小于所述预设阈值,则确定合并相邻两个初始单元格。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,进一步能够实现自动和准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述多边形为矩形;相应的,所述确定相邻两个初始单元格的交线,构建包含所述交线的多边形,包括:

确定所述矩形的位置,具体包括:

具体的,确定所述交线的垂直方向为第二目标坐标轴,确定所述交线在所述第二目标坐标轴上的中心坐标点;可参照上述说明,不再赘述。

具体的,将所述中心坐标点作为所述矩形沿所述交线的垂直方向的位置中心;可参照上述说明,不再赘述。

具体的,确定所述交线的水平方向为第三目标坐标轴,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最小坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最小值:

y_min=cross_y_min l1*h

其中,y_min为所述位置最小值、cross_y_min为最大的一个最小坐标点、l1为第一预设比例,h为所述交线的长度;其中,所述第一预设比例为0.2~0.3;可参照上述说明,不再赘述。

具体的,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最大坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最大值:

y_max=cross_y_max–l1*h

其中,y_max为所述位置最大值、cross_y_max为最小的一个最大坐标点。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,通过确定矩形的位置,更加有助于合理设定预设阈值,进而更加准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述文本图像中表格的结构化信息的识别方法还包括:

确定所述矩形的面积,具体包括:

具体的,将所述位置最大值和所述位置最小值之间的长度作为所述矩形沿所述交线的水平方向的边长;可参照上述说明,不再赘述。

具体的,确定与所述交线的垂直方向相对应的文字宽度信息或文字高度信息,根据所述文字宽度信息与l2的乘积或所述文字高度信息与l2的乘积,确定所述矩形沿所述交线的垂直方向的边长;其中,所述l2为第二预设比例、为0.7~0.9;可参照上述说明,不再赘述。

具体的,根据所述矩形沿所述交线的水平方向的边长和所述矩形沿所述交线的垂直方向的边长,计算所述矩形的面积。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,通过确定矩形的面积,更加有助于合理设定预设阈值,进而更加准确地识别文本图像中表格的结构化信息。

在上述实施例的基础上,所述文本图像中表格的结构化信息的识别方法还包括:

具体的,所述预设阈值的数值大小随所述矩形的面积大小呈现正比例变化。可参照上述说明,不再赘述。

本发明实施例提供的文本图像中表格的结构化信息的识别方法,进一步更加准确地识别文本图像中表格的结构化信息。

本发明实施例具有如下优点:

1、本发明实施例支持混在普通文本中的表格提取和结构化,也支持一张图片中有多个表格的提取和结构化。

2、本发明实施例不仅支持标准表格的结构化,比如对m行n列的标准表格结构化,还支持对非标准的表格的结构化,这里的非标准表格指的是,表格中有大量的单元格合并和单元格拆分的情况。

图5为本发明文本图像中表格的结构化信息的识别装置实施例结构示意图,如图5所示,本发明实施例提供了一种文本图像中表格的结构化信息的识别装置,包括第一确定单元501、第二确定单元502、第三确定单元503和识别单元504,其中:

第一确定单元501用于在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;第二确定单元502用于获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;第三确定单元503用于确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;识别单元504用于遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

具体的,第一确定单元501用于在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;第二确定单元502用于获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;第三确定单元503用于确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;识别单元504用于遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本发明实施例提供的文本图像中表格的结构化信息的识别装置,先确定同一个表格内的初始单元格,再构建包含相邻两个初始单元格的交线的多边形,根据多边形的包围区域内的线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,根据合并结果确定表格的结构化信息的识别结果,能够自动和准确地识别文本图像中表格的结构化信息。

本发明实施例提供的文本图像中表格的结构化信息的识别装置具体可以用于执行上述各方法实施例的处理流程,其功能在此不再赘述,可以参照上述方法实施例的详细描述。

图6为本发明实施例提供的电子设备实体结构示意图,如图6所示,所述电子设备包括:处理器(processor)601、存储器(memory)602和总线603;

其中,所述处理器601、存储器602通过总线603完成相互间的通信;

所述处理器601用于调用所述存储器602中的程序指令,以执行上述各方法实施例所提供的方法,例如包括:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本实施例公开一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法实施例所提供的方法,例如包括:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本实施例提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行上述各方法实施例所提供的方法,例如包括:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。


技术特征:

1.一种文本图像中表格的结构化信息的识别方法,其特征在于,包括:

在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

2.根据权利要求1所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述文字度量信息包括文字宽度信息和文字高度信息;相应的,所述根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格,包括:

若所述文字度量信息为所述文字宽度信息,则计算竖直方向的相邻两条表格线对应的相邻横坐标之间的横坐标差值,并根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数;

若所述文字度量信息为所述文字高度信息,则计算水平方向的相邻两条表格线对应的相邻竖坐标之间的竖坐标差值,并根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数;

根据所述列数和所述行数,确定所述同一个表格内的初始单元格。

3.根据权利要求2所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述根据所述横坐标差值与所述文字宽度信息,确定所述同一个表格内的列数,包括:

若所述横坐标差值小于所述文字宽度信息与预设文字宽度系数的乘积,则将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;

若所述横坐标差值大于等于所述文字宽度信息与预设文字宽度系数的乘积,则不将与所述横坐标差值相对应的竖直方向的相邻两条表格线进行合并;

根据对竖直方向的相邻两条表格线的合并结果,确定所述同一个表格内的列数;其中,所述预设文字宽度系数的取值范围为0.4~0.6;

所述根据所述竖坐标差值与所述文字高度信息,确定所述同一个表格内的行数,包括:

若所述竖坐标差值小于所述文字高度信息与预设文字高度系数的乘积,则将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;

若所述竖坐标差值大于等于所述文字高度信息与预设文字高度系数的乘积,则不将与所述竖坐标差值相对应的水平方向的相邻两条表格线进行合并;

根据对水平方向的相邻两条表格线的合并结果,确定所述同一个表格内的行数;其中,所述预设文字高度系数的取值范围为0.4~0.6。

4.根据权利要求1所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格,包括:

若所述线段像素数大于等于所述预设阈值,则确定不合并相邻两个初始单元格;

若所述线段像素数小于所述预设阈值,则确定合并相邻两个初始单元格。

5.根据权利要求1所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述多边形为矩形;相应的,所述确定相邻两个初始单元格的交线,构建包含所述交线的多边形,包括:

确定所述矩形的位置,具体包括:

确定所述交线的垂直方向为第二目标坐标轴,确定所述交线在所述第二目标坐标轴上的中心坐标点;

将所述中心坐标点作为所述矩形沿所述交线的垂直方向的位置中心;

确定所述交线的水平方向为第三目标坐标轴,确定所述相邻两个初始单元格在所述第三目标坐标轴上的最小坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最小值:

y_min=cross_y_min l1*h

其中,y_min为所述位置最小值、cross_y_min为最大的一个最小坐标点、l1为第一预设比例,h为所述交线的长度;其中,所述第一预设比例为0.2~0.3;

确定所述相邻两个初始单元格在所述第三目标坐标轴上的最大坐标点,并根据如下公式计算所述矩形沿所述交线的水平方向的位置最大值:

y_max=cross_y_max–l1*h

其中,y_max为所述位置最大值、cross_y_max为最小的一个最大坐标点。

6.根据权利要求5所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述文本图像中表格的结构化信息的识别方法还包括:

确定所述矩形的面积,具体包括:

将所述位置最大值和所述位置最小值之间的长度作为所述矩形沿所述交线的水平方向的边长;

确定与所述交线的垂直方向相对应的文字宽度信息或文字高度信息,根据所述文字宽度信息与l2的乘积或所述文字高度信息与l2的乘积,确定所述矩形沿所述交线的垂直方向的边长;其中,所述l2为第二预设比例、为0.7~0.9;

根据所述矩形沿所述交线的水平方向的边长和所述矩形沿所述交线的垂直方向的边长,计算所述矩形的面积。

7.根据权利要求6所述的文本图像中表格的结构化信息的识别方法,其特征在于,所述文本图像中表格的结构化信息的识别方法还包括:

所述预设阈值的数值大小随所述矩形的面积大小呈现正比例变化。

8.一种文本图像中表格的结构化信息的识别装置,其特征在于,包括:

第一确定单元,用于在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;

第二确定单元,用于获取所述同一个表格内的文字度量信息、所述表格线在所述第一目标坐标轴上的坐标,并根据与所述文字度量信息相对应的、相同方向的相邻两条表格线对应的相邻坐标和所述文字度量信息,确定所述同一个表格内的初始单元格;

第三确定单元,用于确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;

识别单元,用于遍历所有相邻两个初始单元格,并根据合并结果确定所述同一个表格内的最终单元格,并将所有最终单元格作为结构化信息的识别结果。

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述方法的步骤。

技术总结
本发明实施例提供一种文本图像中表格的结构化信息的识别方法及装置,所述方法包括:在所述文本图像中确定属于同一个表格内的表格线,确定与所述表格线的方向相垂直的第一目标坐标轴;确定所述同一个表格内的初始单元格;确定相邻两个初始单元格的交线,构建包含所述交线的多边形,确定所述多边形的包围区域内的线段像素数,并根据所述线段像素数和预设阈值的比较结果,确定是否合并相邻两个初始单元格;遍历所有相邻两个初始单元格,并根据合并结果确定结构化信息的识别结果。所述装置执行上述方法。本发明实施例提供的方法及装置,能够自动和准确地识别文本图像中表格的结构化信息。

技术研发人员:刘宁;吴志超;王静;胡茜;董婉;申亚男
受保护的技术使用者:北京爱医生智慧医疗科技有限公司
技术研发日:2020.02.04
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-17672.html

最新回复(0)