本申请涉及文档解析处理技术领域,尤其涉及一种表格数据提取方法及装置。
背景技术:
办公自动化在日常工作学习中非常普及并且非常重要,文字编辑、电子表格等都非常常见。
表格作为电子文档内容的重要组成部分,在实际运用中被重复使用和再编辑的频率非常高。同时,随着表格样式的复杂化,越来越多的文档中出现了包含合并单元格的复杂表格,
但本申请发明人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
现有技术中无法从文档中准确提取表格及表格中数据的技术问题。
申请内容
本申请实施例通过提供一种表格数据提取方法及装置,用以解决现有技术中无法从文档中准确提取表格及表格中数据的技术问题。
为了解决上述问题,第一方面,本申请实施例提供了一种表格数据提取方法,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
优选的,所述根据所述第二图像信息,获得所述第二图像信息中单元格信息,包括:获得所述第二图像信息中独立的矩形区域信息;根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;根据所述线段交点坐标,获得单元格四角坐标和边框信息;根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
优选的,在所述获得所述第二图像信息中独立的矩形区域信息之前,包括:获得矩形完整性标准;判断所述第二图像信息是否满足所述矩形完整性标准;如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
优选的,在所述将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息之前,包括:判断所述文字坐标是否在所述单元格四角坐标范围内;如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
优选的,在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,包括:判断所述单元格信息是否为合并单元格;如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
第二方面,本申请实施例还提供了一种表格数据提取装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一图像信息,所述第一图像信息为文档背景图像信息;
第一训练单元,所述第一训练单元用于将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
第二获得单元,所述第二获得单元用于获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
第三获得单元,所述第三获得单元用于根据所述第二图像信息,获得所述第二图像信息中单元格信息;
第一分组单元,所述第一分组单元用于按行列两个方向对所述第二图像信息中单元格信息进行分组;
第四获得单元,所述第四获得单元用于根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
第五获得单元,所述第五获得单元用于将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
优选的,所述装置还包括:
第六获得单元,所述第六获得单元用于获得所述第二图像信息中独立的矩形区域信息;
第七获得单元,所述第七获得单元用于根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;
第八获得单元,所述第八获得单元用于根据所述线段交点坐标,获得单元格四角坐标和边框信息;
第九获得单元,所述第九获得单元用于根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
优选的,所述装置还包括:
第十获得单元,所述第十获得单元用于获得矩形完整性标准;
第一判断单元,所述第一判断单元用于判断所述第二图像信息是否满足所述矩形完整性标准;
第一保存单元,所述第一保存单元用于如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;
第一删除单元,所述第一删除单元用于如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
优选的,所述装置还包括:
第二判断单元,所述第二判断单元用于判断所述文字坐标是否在所述单元格四角坐标范围内;
第十一获得单元,所述第十一获得单元用于如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;
第三判断单元,所述第三判断单元用于判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;
第一合并单元,所述第一合并单元用于如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
优选的,所述装置还包括:
第四判断单元,所述第四判断单元用于判断所述单元格信息是否为合并单元格;
第五判断单元,所述第五判断单元用于如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;
第一记录单元,所述第一记录单元用于如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
第三方面,本申请实施例还提供了一种表格数据提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
第四方面,本申请实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种表格数据提取方法及装置,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。解决了现有技术中无法从文档中准确提取表格及表格中数据的技术问题。达到了通过对单元格进行行列两个方向进行分组,令单元格与文字信息、文字坐标相契合,达到提高表格数据提取准确度的技术效果。
上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
图1为本发明实施例中一种表格数据提取方法的流程示意图;
图2为本发明实施例中一种表格数据提取装置的结构示意图;
图3为本发明实施例中另一种表格数据提取装置的结构示意图。
附图标记说明:第一获得单元11,第一训练单元12,第二获得单元13,第三获得单元14,第一分组单元15,第四获得单元16,第五获得单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本申请实施例提供了一种表格数据提取方法及装置,解决了现有技术中无法从文档中准确提取表格及表格中数据的技术问题。
为了解决上述技术问题,本申请提供的技术方案总体思路如下:通过获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。达到了通过对单元格进行行列两个方向进行分组,令单元格与文字信息、文字坐标相契合,达到提高表格数据提取准确度的技术效果。
下面通过附图以及具体实施例对本申请技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
实施例一
图1为本发明实施例中一种表格数据提取方法的流程示意图,所述方法包括:
步骤110:获得第一图像信息,所述第一图像信息为文档背景图像信息;
步骤120:将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
步骤130:获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
具体而言,在电子文档中,为了能够完整全面准确的表述出文章内容,可以包括文字、表格、图片等信息,将具有文字、表格、图片等内容的文档采集为图像信息,以pdf文档为例,可以使用开源工具(pdf2html)处理pdf文档,pdf2html能够将pdf格式文件转黄为html格式文件。使用其输出的背景图片将文档背景图像信息作为输入数据,进行神经网络模型训练,训练模型即机器学习中的神经网络模型,神经网络(neuralnetworks,nn)是由大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。神经网络模型是以神经元的数学模型为基础来描述的。人工神经网络(artificialnuearlnewtokr)s,是对人类大脑系统的一阶特性的一种描。简单地讲,它是一个数学模型。神经网络模型由网络拓扑.节点特点和学习规则来表示。在本申请实施例中,将文档背景图像信息作为输入数据,输入到训练模型中,每一组输入的训练数据中都包括第一图像信息和预定表格规则,用预定表格规则对神经网络模型进行训练,将文档背景图像信息输入训练好的神经网络模型中,输出符合预定表格规则的图像信息,其中预定表格规则可以检测水平和垂直线段;淘汰掉文字下划线、独立的水平/垂直线段、页眉页脚线段;将符合规则的背景图像输出备用。
步骤140:根据所述第二图像信息,获得所述第二图像信息中单元格信息;
优选的,所述根据所述第二图像信息,获得所述第二图像信息中单元格信息,包括:获得所述第二图像信息中独立的矩形区域信息;根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;根据所述线段交点坐标,获得单元格四角坐标和边框信息;根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
具体而言,对背景图中独立的矩形区域使用图像卷积窗口扫描,识别出所有的线段,计算出所有线段交点,根据交点坐标定位单元格四角坐标和边框信息,由于表格由多条相交线段构成,通过识别出背景图像中的线段以及线段的交点,从而能够定位出单元格四个点的坐标,四个交点坐标确定了,可以确定两点之间的线段,即单元格边框信息,通过确定单元格四角交点坐标以及边框信息,即可确定单元格信息。
步骤150:按行列两个方向对所述第二图像信息中单元格信息进行分组;
优选的,在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,包括:判断所述单元格信息是否为合并单元格;如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
具体而言,随着表格样式的复杂化,越来越多的文档中出现了包含合并单元格的复杂表格,这样,传统的文档数据提取技术不再能满足需求。本申请实施例在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,先判断单元格信息是否为合并单元格,针对合并单元格和标准单元格使用不同方法进行分组,从而使得分组更加准确,为后续表格提取的准确性打好基础。对于合并单元格,使用双向临近原则首先检测其相邻单元格坐标,逐步扩大临近范围直至合并单元格与相邻的单元格边界对齐为止,并记录合并单元格所属行列,如果是标准单元格,可直接对其进行行列分组。
步骤160:根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
步骤170:将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
具体而言,本申请实施例以pdf文件为例进行说明,可以使用开源工具(pdfminer)解析包含表格的pdf页文字内容和文字坐标,按照单元格四角坐标范围,将文字与单元格建立关联,使得文字与表格框架相对应,最终得到结构化表格。解决了现有技术中无法从文档中准确提取表格及表格中数据的技术问题。达到了通过对单元格进行行列两个方向进行分组,令单元格与文字信息、文字坐标相契合,达到提高表格数据提取准确度的技术效果。也可使用其他能够达到相同效果的软件,对此本申请不做限制,文字坐标即为文字在表格中的位置坐标。pdfminer是一种从pdf文档中提取信息的工具。与其他pdf相关工具不同,它完全专注于获取和分析文本数据,pdfminer允许人们获取页面中文本的确切位置,以及字体或线条等其他信息。它包括一个pdf转换器,可以将pdf文件转换为其他文本格式(如html)。它具有可扩展的pdf解析器,可用于除文本分析之外的其他目的。
优选的,在所述获得所述第二图像信息中独立的矩形区域信息之前,包括:获得矩形完整性标准;判断所述第二图像信息是否满足所述矩形完整性标准;如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
具体而言,为了提高识别表格的准确性,排除文档中类似表格的具有边框和线段的图形,本申请实施例建立所述矩形完整性标准,即具有四边且具有四个交点的能够构成矩形单元格。根据上述标准,判断所述第二图像信息中的图像信息是否满足上述标准,将符合上述标准的图像进行保留,不符合标准的图像进行删除,从而对待提取的图像信息进行筛选,提高表格提取的准确性。
优选的,在所述将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息之前,包括:判断所述文字坐标是否在所述单元格四角坐标范围内;如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
具体而言,考虑到文字识别和表格识别可能使用不同的软件工具,两套开源工具在坐标识别上存在的差异,导致少量的单元格内文字坐标不在单元格四角坐标范围内,存在小范围的偏差,故使用自然语言处理方法,对命中文字与临近文字采用文本分类、主题识别、统计语言模型这三种措施进行内容一致性判断,其中,文本分类为用电脑对文本集(或其他实体或物件)按照一定的分类体系或标准进行自动分类标记。属于一种基于分类体系的自动分类,是朴素贝叶斯分类方法。统计语言模型是借由一个机率分布,而指派机率给字词所组成的字串:语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(n-gram)模型之原因。在语音辨识和在资料压缩的领域中,这种模式试图捕捉语言的特性,并预测在语音串行中的下一个字。如果所述命中文字和所述命中文字的临近文字符合内容一致性,合并符合内容一致性的文字,在坐标识别和定位的基础上进一步提高准确率。
实施例二
基于与前述实施例中一种表格数据提取方法同样的发明构思,本发明还提供一种表格数据提取装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得第一图像信息,所述第一图像信息为文档背景图像信息;
第一训练单元12,所述第一训练单元12用于将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
第二获得单元13,所述第二获得单元13用于获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
第三获得单元14,所述第三获得单元14用于根据所述第二图像信息,获得所述第二图像信息中单元格信息;
第一分组单元15,所述第一分组单元15用于按行列两个方向对所述第二图像信息中单元格信息进行分组;
第四获得单元16,所述第四获得单元16用于根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
第五获得单元17,所述第五获得单元17用于将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
优选的,所述装置还包括:
第六获得单元,所述第六获得单元用于获得所述第二图像信息中独立的矩形区域信息;
第七获得单元,所述第七获得单元用于根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;
第八获得单元,所述第八获得单元用于根据所述线段交点坐标,获得单元格四角坐标和边框信息;
第九获得单元,所述第九获得单元用于根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
优选的,所述装置还包括:
第十获得单元,所述第十获得单元用于获得矩形完整性标准;
第一判断单元,所述第一判断单元用于判断所述第二图像信息是否满足所述矩形完整性标准;
第一保存单元,所述第一保存单元用于如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;
第一删除单元,所述第一删除单元用于如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
优选的,所述装置还包括:
第二判断单元,所述第二判断单元用于判断所述文字坐标是否在所述单元格四角坐标范围内;
第十一获得单元,所述第十一获得单元用于如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;
第三判断单元,所述第三判断单元用于判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;
第一合并单元,所述第一合并单元用于如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
优选的,所述装置还包括:
第四判断单元,所述第四判断单元用于判断所述单元格信息是否为合并单元格;
第五判断单元,所述第五判断单元用于如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;
第一记录单元,所述第一记录单元用于如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
前述图1实施例一中的一种表格数据提取方法的各种变化方式和具体实例同样适用于本实施例的一种表格数据提取装置,通过前述对一种表格数据提取方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种表格数据提取装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种表格数据提取方法同样的发明构思,本发明还提供一种表格数据提取装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种表格数据提取方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种表格数据提取方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例通过提供一种表格数据提取方法及装置,所述方法包括:获得第一图像信息,所述第一图像信息为文档背景图像信息;将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;根据所述第二图像信息,获得所述第二图像信息中单元格信息;按行列两个方向对所述第二图像信息中单元格信息进行分组;根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。解决了现有技术中无法从文档中准确提取表格及表格中数据的技术问题。达到了通过对单元格进行行列两个方向进行分组,令单元格与文字信息、文字坐标相契合,达到提高表格数据提取准确度的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
1.一种表格数据提取方法,其特征在于,所述方法包括:
获得第一图像信息,所述第一图像信息为文档背景图像信息;
将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
根据所述第二图像信息,获得所述第二图像信息中单元格信息;
按行列两个方向对所述第二图像信息中单元格信息进行分组;
根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
2.如权利要求1所述的方法,其特征在于,所述根据所述第二图像信息,获得所述第二图像信息中单元格信息,包括:
获得所述第二图像信息中独立的矩形区域信息;
根据所述矩形区域信息,获得所述矩形区域信息中线段交点坐标;
根据所述线段交点坐标,获得单元格四角坐标和边框信息;
根据所述单元格四角坐标和所述边框信息,获得所述第二图像信息中单元格信息。
3.如权利要求2所述的方法,其特征在于,在所述获得所述第二图像信息中独立的矩形区域信息之前,包括:
获得矩形完整性标准;
判断所述第二图像信息是否满足所述矩形完整性标准;
如果所述第二图像信息满足所述矩形完整性标准,对所述第二图像信息进行保存;
如果所述第二图像信息不满足所述矩形完整性标准,对所述第二图像信息删除。
4.如权利要求2所述的方法,其特征在于,在所述将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息之前,包括:
判断所述文字坐标是否在所述单元格四角坐标范围内;
如果所述文字坐标不在所述单元格四角坐标范围内,根据自然语言处理方法,获得命中文字和所述命中文字的临近文字;
判断所述命中文字和所述命中文字的临近文字是否符合内容一致性;
如果所述命中文字和所述命中文字的临近文字符合内容一致性,对所述命中文字和所述命中文字的临近文字进行合并。
5.如权利要求1所述的方法,其特征在于,在所述按行列两个方向对所述第二图像信息中单元格信息进行分组之前,包括:
判断所述单元格信息是否为合并单元格;
如果所述单元格信息为合并单元格,判断所述单元格信息与所述单元格信息相邻单元格的边界是否对齐;
如果所述单元格信息与所述单元格信息相邻单元格的边界对齐,记录合并单元格所属行列。
6.一种表格数据提取装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得第一图像信息,所述第一图像信息为文档背景图像信息;
第一训练单元,所述第一训练单元用于将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
第二获得单元,所述第二获得单元用于获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
第三获得单元,所述第三获得单元用于根据所述第二图像信息,获得所述第二图像信息中单元格信息;
第一分组单元,所述第一分组单元用于按行列两个方向对所述第二图像信息中单元格信息进行分组;
第四获得单元,所述第四获得单元用于根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
第五获得单元,所述第五获得单元用于将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
7.一种表格数据提取装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得第一图像信息,所述第一图像信息为文档背景图像信息;
将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
根据所述第二图像信息,获得所述第二图像信息中单元格信息;
按行列两个方向对所述第二图像信息中单元格信息进行分组;
根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
获得第一图像信息,所述第一图像信息为文档背景图像信息;
将所述第一图像信息输入训练模型,其中,所述训练模型通过多组训练数据训练获得,所述多组中的训练数据中的每一组训练数据均包括:所述第一图像信息、预定表格规则;
获得所述训练模型的输出信息,其中,所述输出信息包括第二图像信息,所述第二图像信息为包含表格特征的背景图像信息;
根据所述第二图像信息,获得所述第二图像信息中单元格信息;
按行列两个方向对所述第二图像信息中单元格信息进行分组;
根据所述第二图像信息,获得所述第二图像信息中的文字信息和文字坐标;
将所述文字信息、所述文字坐标于所述单元格信息建立关联,获得结构化表格信息。
技术总结