业务表单提取方法和装置与流程

专利2022-06-29  54


本发明涉及表单处理技术领域,尤其是涉及一种业务表单提取方法和装置。



背景技术:

相关技术中,当需要提取cad图纸业务表单时,主要是通过全字配置业务表单的表头特征进行识别并提取,该方式中,只要cad图纸业务表单的表头有差异,就需要人工重新配置对应的表头特征,才能提取到对应的业务表单,提取业务表单的灵活性和通用性较差,并且如果固定配置的表头特征不准确,将无法提取到业务表单,因而容错率较低。



技术实现要素:

本发明的目的在于提供一种业务表单提取方法和装置,以提高提取业务表单的灵活性和通用性。

本发明提供的一种业务表单提取方法,所述方法包括:获取包含业务表单的图纸;判断所述业务表单是否包含表头;如果所述业务表单包含所述表头,根据预先配置的与所述表头相匹配的表头特征,从所述图纸中提取包含所述表头特征的业务表单;其中,所述表头特征包含所述表头中至少一个字段。

进一步的,所述表头特征中包含的所述字段越多,所述表头特征的优先级越高。

进一步的,所述方法还包括:如果所述业务表单不包含所述表头,且满足预设的限定条件,根据预先配置的与所述业务表单内容相匹配的表单内容特征,从所述图纸中提取包含所述表单内容特征的业务表单;其中,所述限定条件用于限定所述业务表单的行数的最大值和/或列数的最大值;所述表单内容特征包含所述业务表单内容中至少一个字段。

进一步的,所述表单内容特征中包含的所述字段越多,所述表单内容特征的优先级越高。

进一步的,所述业务表单包括:封面、目录表、材料表或图框。

本发明提供的一种业务表单提取装置,所述装置包括:获取模块,用于获取包含业务表单的图纸;判断模块,用于判断所述业务表单是否包含表头;第一提取模块,用于如果所述业务表单包含所述表头,根据预先配置的与所述表头相匹配的表头特征,从所述图纸中提取包含所述表头特征的业务表单;其中,所述表头特征包含所述表头中至少一个字段。

进一步的,所述表头特征中包含的所述字段越多,所述表头特征的优先级越高。

进一步的,所述装置还包括:第二提取模块,用于如果所述业务表单不包含所述表头,且满足预设的限定条件,根据预先配置的与所述业务表单内容相匹配的表单内容特征,从所述图纸中提取包含所述表单内容特征的业务表单;其中,所述限定条件用于限定所述业务表单的行数的最大值和/或列数的最大值;所述表单内容特征包含所述业务表单内容中至少一个字段。

进一步的,所述表单内容特征中包含的所述字段越多,所述表单内容特征的优先级越高。

进一步的,所述业务表单包括:封面、目录表、材料表或图框。

本发明提供的业务表单提取方法和装置,当获取到业务表单后,判断该业务表单是否包含表头;如果包含,根据预先配置的与该表头相匹配的表头特征,提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。该方法中,考虑到同一类型的业务表单的表头中,通常包含有相同的一个或多个字段,可以从共有的字段中选取至少一个字段进行模糊匹配,从而可以同时提取出同一类型的多个业务表单,提高了提取业务表单的灵活性和通用性。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种业务表单提取方法的流程图;

图2为本发明实施例提供的另一种业务表单提取方法的流程图;

图3为本发明实施例提供的一种业务表单提取装置的结构示意图;

图4为本发明实施例提供的另一种业务表单提取装置的结构示意图。

具体实施方式

下面将结合实施例对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

传统的cad图纸业务表单的提取,已经初步实现计算机自动提取,但是提取方法单一,是通过固定全字配置业务表单的表头特征进行识别,因而需要对照每张图纸的每类业务表单进行配置,遇到不同表头的业务表单需要重新配置,提取业务表单的灵活性和通用性较差,并且固定全字配置的表头特征必须与业务表单的表头完全一致,才能匹配到对应的业务表单,因而容错率较低;对于每张图纸的业务表单识别都需要人工预先手动配置表头特征,即每识别一张表格就需要手工配置一次,除非两个表的表头完全一样,否则只要表头稍有差别都需要手工配置一次,不能实现自动化,并且不能识别无表头的业务表单。

基于此,本发明实施例提供了一种业务表单提取方法和装置,该技术可以应用于对各种业务表单的提取中。

为便于对本实施例进行理解,首先对本发明实施例所公开的一种业务表单提取方法进行详细介绍;如图1所示,该方法包括如下步骤:

步骤s102,获取包含业务表单的图纸。

上述业务表单通常是cad图纸中的业务表单,也可以是其他绘图软件所绘制的图纸中的业务表单,该业务表单可以是目录表、材料表等,即图纸中可能包含多种类型的业务表单,每种类型的业务表单的数量可以为多个,当需要提取指定类型的业务表单时,首先需要获取到包含该类业务表单的图纸。

步骤s104,判断上述业务表单是否包含表头。

上述表头通常设置在业务表单的开头部分,用于对一些问题的性质的归类;比如以材料表为例,表头中通常包括:序号、名称、规格或数量等;有的业务表单包含表头,有的业务表单不包含表头,因此,在获取到包含业务表单的图纸后,需要先判断该业务表单中是否包含表头。

步骤s106,如果上述业务表单包含上述表头,根据预先配置的与该表头相匹配的表头特征,从上述图纸中提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。

上述表头特征通常包含待提取的业务表单的表头中的至少一个字段,该表头特征通常由业务表单需求人员预先配置好;针对上述不同类型的业务表单,提取相应业务特征作为配置,该业务特征可以包括表头特征和表单内容特征;在一个行业中,不同类型的业务表单大概样式通常是比较确定的,即该类型的业务表单是否包含表头,如果包含表头,在配置表头特征前,该类型的业务表单的表头中通常包含哪些信息,都是可以根据经验确认的;比如,以材料表为例,材料表的表头特征可以从材料表的表头字段中获取,表单内容特征可以从材料表的内容中获取;材料表的表头中通常包括:序号、名称、规格、单位和数量等信息,则为材料表配置的表头特征可以是序号、名、规格、单位和数量,或者,名称、规格、单位等;当判断业务表单中包含表头时,根据预先配置的,包含该业务表单的表头中至少一个字段的表头特征,从图纸中提取包含该表头特征的业务表单。

本发明实施例提供的业务表单提取方法,当获取到业务表单后,判断该业务表单是否包含表头;如果包含,根据预先配置的与该表头相匹配的表头特征,提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。该方法中,考虑到同一类型的业务表单的表头中,通常包含有相同的一个或多个字段,可以从共有的字段中选取至少一个字段进行模糊匹配,从而可以同时提取出同一类型的多个业务表单,提高了提取业务表单的灵活性和通用性。

本发明实施例还提供了另一种业务表单提取方法,该方法在上述实施例方法的基础上实现;如图2所示,该方法包括如下步骤:

步骤s202,获取包含业务表单的图纸。

步骤s204,判断上述业务表单是否包含表头;如果包含,执行步骤s206;如果不包含,执行步骤s208。

步骤s206,如果上述业务表单包含上述表头,根据预先配置的与该表头相匹配的表头特征,从上述图纸中提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。

在实际实现时,表头特征中包含的字段越多,该表头特征的优先级越高;当一个表头特征不能识别所有指定类型的业务表单,例如材料表有多种表头,且这些材料表中相同的表头字段不多,为了识别全部材料表,可配置[1,n]项优先级递减的表头特征,即,可以为材料表配置一个或多个表头特征,如果为材料表配置了多个表头特征,这时可以按照表头特征中所包含的表头中共有字段的数量确定优先级,通常包含指定材料表中全部表头字段的表头特征的优先级最高,随着表头特征中包含的表头字段数量逐渐减少,对应的表头特征的优先级逐渐降低;其中,使用表头中出现次数最多的共有字段作为表头特征,可以匹配到该类型业务表单中数量最多的业务表单,因而最为通用;

一般情况下,可以使用优先级较低的表头特征进行模糊匹配,提取出一类表格,如果需要提取指定表格,可以通过优先级最高的全字匹配从该一类表格中提取出该指定表格;比如,仍以材料表为例作为说明,比如有两种材料表,分别为材料表1和材料表2,其中,材料表1中的表头字段包括序号、名称、型号及规格、单位、数量和备注;材料表2中的表头字段包括序号、类别、材料名称、材料规格、设计单位、数量、单重、采购单位、损耗里、合计里、材料来源、状态和备注;可以选取两种材料表的共有表头特征,即序号、名、规格、单位、数量来配置表头特征,基于表头特征中的这五个字段,通过正则表达式进行模糊匹配,可以提取出材料表1和材料表2;模糊匹配具体流程为:按行读取每一张表格,如果该行中至少有五列分别包含"序号"、"名"、"规格"、"单位"和"数量"五个字段,则可以确定该业务表单是材料表;全字匹配与模糊匹配相似,不同的地方是,全字匹配的表头字段至少包含配置的表头字段的全部相同字段才能成功匹配。

通过上述共有特征可提取出两种表头不同的材料表1和材料表2,如果需要精确提取其中一种材料表,可以再添加一个优先级更高的表头特征进行全字匹配,如:"序号、名称、型号及规格、单位、数量和备注"。通过该表头特征可以精确匹配出材料表1,不会被材料表2干扰。

步骤s208,如果上述业务表单不包含上述表头,且满足预设的限定条件,根据预先配置的与该业务表单内容相匹配的表单内容特征,从上述图纸中提取包含该表单内容特征的业务表单;其中,该限定条件用于限定该业务表单的行数的最大值和/或列数的最大值;该表单内容特征包含该业务表单内容中至少一个字段。

上述业务表单通常包括:封面、目录表、材料表或图框等;上述表单内容特征通常包含待提取的业务表单的内容中的至少一个字段,该表单内容特征通常也是由业务表单需求人员预先配置好;在实际实现时,有的业务表单不包含表头,如封面或图签表等;对于不包含表头的业务表单,可以根据该业务表单的内容配置相应的表单内容特征,根据该表单内容特征,提取出包含该表单内容特征的业务表单;比如,以图签表为例,不同设计院设计的图纸,图签表可能各不相同,但是仍然可以提取图签表中的共有字符特征,如:"校、审、日期、图号、设计"等,通过表单内容特征和正则表达式模糊匹配,可准确匹配到图签表。

在实际实现时,表单内容特征中包含的字段越多,该表单内容特征的优先级越高;当一个表单内容特征不能识别所有指定类型的业务表单,例如图签表包含有多种表单内容,且这些图签表中相同的表单内容不多,为了识别全部图签表,可配置[1,n]项优先级递减的表单内容特征,即,可以为图签表配置一个或多个表单内容特征,如果为图签表配置了多个表单内容特征,这时可以按照表单内容特征中所包含的,表单内容中共有字段的数量确定优先级,通常包含指定图签表中全部表单内容字段的表单内容特征的优先级最高,随着表单内容特征中包含的表单内容字段数量逐渐减少,对应的表单内容特征的优先级逐渐降低;其中,使用表单内容中出现次数最多的共有字段作为表单内容特征,可以匹配该类型业务表单中数量最多的业务表单,因而最为通用。

在实际实现时,考虑到不包含表头的业务表单的行数或列数越多,业务表单中的表单内容通常也越多,通过预先配置的有限的表单内容特征提取业务表单,出现错误的概率通常也会相应增加,为了保证提取业务表单的准确性,在根据表单内容特征提取业务表单时,通常会对业务表单中的行数的最大值,或者列数的最大值,或者行数的最大值和列数的最大值进行限定;如果不满足该限定条件,通常就不再使用表单内容特征提取业务表单,这时通常会提示提取失败;对于同时限定行数的最大值和列数的最大值的情况,一般只要业务表单的行数超过了限定的最大值,或者列数超过了限定的最大值,或者行数和列数同时超过了各自限定的最大值,就可以认为该业务表单不满足该限定条件;比如,对业务表单的行数的最大值限定为20行,列数的最大值限定为20列,如果业务表单不包含表头,且该业务表单的行数超过20行,或者列数超过20列,或者行数超过了20行且列数也超过了20列,就可以认为该业务表单不满足该限定条件,就不再使用表单内容特征提取业务表单,这时通常会提示提取失败;所限定的行数或列数的数量可以根据实际需求进行设定。

对于统计类型的业务表单,如材料表用来统计材料信息,由于材料表中通常需要标识每一列的含义,因此,通过表头特征即可搜索和提取到相应的业务表单;而对于没有表头、信息杂乱的业务表单,可以通过表单内容特征搜索和提取到相应的业务表单。

为了适应不同的业务场景,如果需要同时识别或提取多种业务表单,可以根据业务表单的类型分别配置相应的表头特征或表单内容特征;例如需要同时识别或提取材料表和目录表,可以根据材料表和目录表分别配置对应的表头特征。

上述业务表单提取方法,当判断业务表单中不包含表头时,可以根据预先配置的与该业务表单内容相匹配的表单内容特征,从上述图纸中提取包含该表单内容特征的业务表单;其中,该表单内容特征包含该业务表单内容中至少一个字段,另外表头特征中包含的字段越多,该表头特征的优先级越高;表单内容特征中包含的字段越多,表单内容特征的优先级也越高;该方法中,根据业务表单是否包含表头,可以配置相应的表头特征或表单内容特征,从而适用于包含表头的业务表单,以及不包含表头,表单内容信息较乱的业务表单;并且可以根据需求设置不同优先级的表头特征或表单内容特征,提高了提取业务表单的灵活性和通用性。

参照图3所示的一种业务表单提取装置的结构示意图,该装置包括获取模块30,用于获取业务表单;判断模块31,用于判断业务表单是否包含表头;第一提取模块32,用于如果业务表单包含表头,根据预先配置的与表头相匹配的表头特征,提取包含表头特征的业务表单;其中,表头特征包含表头中至少一个字段。

本发明实施例提供的业务表单提取装置,当获取到业务表单后,判断该业务表单是否包含表头;如果包含,根据预先配置的与该表头相匹配的表头特征,提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。该装置中,考虑到同一类型的业务表单的表头中,通常包含有相同的一个或多个字段,可以从共有的字段中选取至少一个字段进行模糊匹配,从而可以同时提取出同一类型的多个业务表单,提高了提取业务表单的灵活性和通用性。

进一步的,表头特征中包含的字段越多,表头特征的优先级越高。

进一步的,如图4所示,装置还包括:第二提取模块33,用于如果业务表单不包含表头,且满足预设的限定条件,根据预先配置的与业务表单内容相匹配的表单内容特征,提取包含表单内容特征的业务表单;其中,限定条件用于限定业务表单的行数的最大值和/或列数的最大值;表单内容特征包含业务表单内容中至少一个字段。

进一步的,表单内容特征中包含的字段越多,表单内容特征的优先级越高。

进一步的,业务表单包括:封面、目录表、材料表或图框。

本发明实施例所提供的业务表单提取装置,其实现原理及产生的技术效果和前述业务表单提取方法实施例相同,为简要描述,业务表单提取装置实施例部分未提及之处,可参考前述业务表单提取方法实施例中相应内容。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。


技术特征:

1.一种业务表单提取方法,其特征在于,所述方法包括:

获取包含业务表单的图纸;

判断所述业务表单是否包含表头;

如果所述业务表单包含所述表头,根据预先配置的与所述表头相匹配的表头特征,从所述图纸中提取包含所述表头特征的业务表单;其中,所述表头特征包含所述表头中至少一个字段。

2.根据权利要求1所述的方法,其特征在于,所述表头特征中包含的所述字段越多,所述表头特征的优先级越高。

3.根据权利要求1所述的方法,其特征在于,所述方法还包括:

如果所述业务表单不包含所述表头,且满足预设的限定条件,根据预先配置的与所述业务表单内容相匹配的表单内容特征,从所述图纸中提取包含所述表单内容特征的业务表单;其中,所述限定条件用于限定所述业务表单的行数的最大值和/或列数的最大值;所述表单内容特征包含所述业务表单内容中至少一个字段。

4.根据权利要求3所述的方法,其特征在于,所述表单内容特征中包含的所述字段越多,所述表单内容特征的优先级越高。

5.根据权利要求1所述的方法,其特征在于,所述业务表单包括:封面、目录表、材料表或图框。

6.一种业务表单提取装置,其特征在于,所述装置包括:

获取模块,用于获取包含业务表单的图纸;

判断模块,用于判断所述业务表单是否包含表头;

第一提取模块,用于如果所述业务表单包含所述表头,根据预先配置的与所述表头相匹配的表头特征,从所述图纸中提取包含所述表头特征的业务表单;其中,所述表头特征包含所述表头中至少一个字段。

7.根据权利要求6所述的装置,其特征在于,所述表头特征中包含的所述字段越多,所述表头特征的优先级越高。

8.根据权利要求6所述的装置,其特征在于,所述装置还包括:

第二提取模块,用于如果所述业务表单不包含所述表头,且满足预设的限定条件,根据预先配置的与所述业务表单内容相匹配的表单内容特征,从所述图纸中提取包含所述表单内容特征的业务表单;其中,所述限定条件用于限定所述业务表单的行数的最大值和/或列数的最大值;所述表单内容特征包含所述业务表单内容中至少一个字段。

9.根据权利要求8所述的装置,其特征在于,所述表单内容特征中包含的所述字段越多,所述表单内容特征的优先级越高。

10.根据权利要求6所述的装置,其特征在于,所述业务表单包括:封面、目录表、材料表或图框。

技术总结
本发明提供了一种业务表单提取方法和装置,当获取到业务表单后,判断该业务表单是否包含表头;如果包含,根据预先配置的与该表头相匹配的表头特征,提取包含该表头特征的业务表单;其中,该表头特征包含该表头中至少一个字段。该方法中,考虑到同一类型的业务表单的表头中,通常包含有相同的一个或多个字段,可以从共有的字段中选取至少一个字段进行模糊匹配,从而可以同时提取出同一类型的多个业务表单,提高了提取业务表单的灵活性和通用性。

技术研发人员:刘勃;黄云峰;杨岳峰;周冬梅;向毅
受保护的技术使用者:湖南特能博世科技有限公司
技术研发日:2020.01.06
技术公布日:2020.06.05

转载请注明原文地址: https://bbs.8miu.com/read-54956.html

最新回复(0)