PDF文件的解析方法及装置与流程

专利2022-06-29  86


本发明实施例涉及数据处理技术领域,尤其涉及一种pdf文件的解析方法及装置。



背景技术:

随着计算机技术的发展,诊疗平台日趋完善,医务人员对患者完成诊疗、体检之后,可以将患者的诊疗数据、体检数据写入医疗报告中,该医疗报告主要以pdf文件存在,而pdf格式为特殊结构,现有技术中暂时不存在针对pdf报文进行解析的方法。



技术实现要素:

鉴于此,为解决上述技术问题或部分技术问题,本发明实施例提供一种pdf文件的解析方法及装置。

第一方面,本发明实施例提供一种pdf文件的解析方法,所述方法包括:

依据已获取的pdf文件得到待解析文档;

将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;

依据预设的解析规则对所述目标内容进行解析,得到所述pdf文件中与所述参数名称对应的参数值。

在一个可能的实施方式中,所述依据已获取的pdf文件得到对应的待解析文档,包括:

对已获取的pdf文件进行格式转换,得到所述pdf文件在txt格式下的文档;

对所述txt格式下的文档进行文档预处理,得到待解析文档。

在一个可能的实施方式中,所述将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容,包括:

针对所述待解析文档中的每一行,将预设的参数名称与该行中的内容进行匹配,得到该行中与所述参数名称相匹配的内容;

将该行中位于所述相匹配的内容之后的内容确定为目标内容。

在一个可能的实施方式中,所述方法还包括:

依据所述参数名称和所述参数名称对应的参数值构造数据库插入指令;

执行所述数据库插入指令,以将所述参数名称和所述参数名称对应的参数值写入目标数据库。

第二方面,本发明实施例提供一种pdf文件的解析装置,包括:

获取模块,用于依据已获取的pdf文件得到待解析文档;

匹配模块,用于将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;

解析模块,用于依据预设的解析规则对所述目标内容进行解析,得到所述pdf文件中与所述参数名称对应的参数值。

在一个可能的实施方式中,所述获取模块包括:

格式转换子模块,用于对已获取的pdf文件进行格式转换,得到所述pdf文件在txt格式下的文档;

预处理子模块,用于对所述txt格式下的文档进行文档预处理,得到待解析文档。

在一个可能的实施方式中,所述匹配模块包括:

匹配子模块,用于针对所述待解析文档中的每一行,将预设的参数名称与该行中的内容进行匹配,得到该行中与所述参数名称相匹配的内容;

确定子模块,用于将该行中位于所述相匹配的内容之后的内容确定为目标内容。

在一个可能的实施方式中,所述装置还包括:

指令构造模块,用于依据所述参数名称和所述参数名称对应的参数值构造数据库插入指令;

数据写入模块,用于执行所述数据库插入指令,以将所述参数名称和所述参数名称对应的参数值写入目标数据库。

第三方面,本发明实施例提供一种电子设备,所述设备包括可读存储介质和处理器;

其中,所述可读存储介质,用于存储机器可执行指令;

所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现本发明实施例提供的任一pdf文件的解析方法的步骤。

第四方面,本发明实施例提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现本发明实施例提供的任一pdf文件的解析方法的步骤。

本发明实施例提供的pdf文件的解析方法,通过依据已获取的pdf文件得到待解析文档,将预设的参数名称与待解析文档中的内容进行匹配,得到目标内容,依据预设的解析规则对目标内容进行解析,得到pdf文件中与参数名称对应的参数值,可以实现自动对pdf文件进行数据采集。

附图说明

图1为本申请实施例提供的一种pdf文件的解析方法的实施例流程图;

图2为本申请实施例提供的一种步骤103之后的实施例流程图;

图3为pdf文件的示意图;

图4为待解析文档的示意图;

图5为解析出的参数名称和对应的参数值的示意图;

图6为数据库插入指令的示意图;

图7为本申请实施例提供的一种pdf文件的解析装置的实施例框图;

图8为电子设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为便于对本发明实施例的理解,下面将结合附图以具体实施例做进一步的解释说明,实施例并不构成对本发明实施例的限定。

请参见图1,为本申请实施例提供的一种pdf文件的解析方法的实施例流程图,该方法包括以下步骤:

步骤101:依据已获取的pdf文件得到待解析文档。

作为一个实施例,在应用中,为了便于后续的解析操作,可以对已获取的pdf文件进行格式转换,得到该pdf文件在txt格式下的文档,之后,对该txt格式下的文档进行文档预处理,比如去掉文档中每一行的首个字符前空格,得到待解析文档。

步骤102:将预设的参数名称与待解析文档中的内容进行匹配,得到目标内容。

作为一个实施例,可以基于实际的应用场景预先设置一个或多个参数名称,在对待解析文档的解析过程中,可以针对待解析文档中的每一行,将一个或多个参数名称与该行中的内容进行匹配,得到该行中与其中一个参数名称相匹配的内容。之后,可以将该行中的,位于该相匹配的内容之后的内容确定为目标内容。

步骤103:依据预设的解析规则对目标内容进行解析,得到pdf文件中与参数名称对应的参数值。

作为一个示例,可以预先设置一个或多个解析规则,基于此,可以分别利用每一个解析规则对目标内容进行解析,至此,则可以得到pdf文件中与参数名称对应的参数值。

至此,完成图1所示流程。

通过图1所示流程,依据已获取的pdf文件得到待解析文档,将预设的参数名称与待解析文档中的内容进行匹配,得到目标内容,依据预设的解析规则对目标内容进行解析,得到pdf文件中与参数名称对应的参数值,可以实现自动对pdf文件进行数据采集。

此外,在本申请中,作为一个实施例,在执行完上述步骤103,得到参数名称对应的参数值之后,还可以执行图2所示流程。

如图2所示,该流程包括以下步骤:

步骤201:依据参数名称和参数名称对应的参数值构造数据库插入指令。

至于数据库插入指令的具体内容,在下文中通过具体实施例举例示出,在此先不做详述。

步骤202:执行数据库插入指令,以将参数名称和参数名称对应的参数值写入目标数据库。

至此,完成图2所示流程。

通过图2所示例流程,依据参数名称和参数名称对应的参数值构造数据库插入指令,通过执行该数据库插入指令,可以实现将参数名称和参数名称对应的参数值写入目标数据库,由此可以实现数据的结构化存储,便于后续的数据处理操作,比如数据查询、数据筛选。

下面通过具体的实施例对上述图1和图2所示实施例进行举例描述:

在医学研究领域中,医务人员在完成对患者的诊疗工作后,可以将患者的相关数据,例如患者信息、检查数据形成一份pdf文件进行存档。例如,如图3所示,为pdf文件的一种示例。

在涉及到课题研究的应用场景中,研究人员可以从已存档的多份pdf文件中手动地选择出n份pdf文件,例如,近二年支气管舒张阳性患者的pdf文件。之后,研究人员还需要手动地从筛选出的pdf文件中提取数据,并手动输入到表格中进行统计。如此处理不仅浪费时间,还有可能导致数据量不足而不足以支撑课题研究。

基于此,则可以应用本申请提出的pdf文件的解析方法。具体的,首先,将图3所示例的pdf文件转换到txt格式下,并对txt格式下的文档进行预处理,使得文档中每一行的左侧不存在空格,得到图4所示例的待解析文档。下一步,通过上述步骤102和步骤103解析出参数名称和对应的参数值,例如图5所示。最后,通过上述步骤201可以生成图6所示例的数据库插入指令,通过上述步骤202可以将解析出的参数名称和对应的参数值写入数据库。

在本实施例中,研究人员可以从数据库中方便地进行数据查询、数据统计等工作,从而提高研究效率。

与上述pdf文件的解析方法的实施例相对应,本申请还提供pdf文件的解析装置。

请参见图7,为本申请实施例提供的一种pdf文件的解析装置的实施例框图,该装置包括:获取模块71、匹配模块72,以及解析模块73。

其中,获取模块71,可以用于依据已获取的pdf文件得到待解析文档;

匹配模块72,可以用于将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;

解析模块73,可以用于依据预设的解析规则对所述目标内容进行解析,得到所述pdf文件中与所述参数名称对应的参数值。

在一实施例中,所述获取模块71包括(图7中未示出):

格式转换子模块,用于对已获取的pdf文件进行格式转换,得到所述pdf文件在txt格式下的文档;

预处理子模块,用于对所述txt格式下的文档进行文档预处理,得到待解析文档。

在一实施例中,所述匹配模块72包括(图7中未示出):

匹配子模块,用于针对所述待解析文档中的每一行,将预设的参数名称与该行中的内容进行匹配,得到该行中与所述参数名称相匹配的内容;

确定子模块,用于将该行中位于所述相匹配的内容之后的内容确定为目标内容。

在一实施例中,所述装置还包括(图7中未示出):

指令构造模块,用于依据所述参数名称和所述参数名称对应的参数值构造数据库插入指令;

数据写入模块,用于执行所述数据库插入指令,以将所述参数名称和所述参数名称对应的参数值写入目标数据库。

请继续参见图8,本申请还提供一种电子设备,包括处理器801、通信接口802、存储器803,以及通信总线804。

其中,处理器801、通信接口802、存储器803通过通信总线804进行相互间的通信;

存储器803,用于存放计算机程序;

处理器801,用于执行存储器803上所存放的计算机程序,处理器801执行所述计算机程序时实现本申请实施例提供的pdf文件的解析方法的步骤。

本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的pdf文件的解析方法的步骤。

专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。

结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(ram)、内存、只读存储器(rom)、电可编程rom、电可擦除可编程rom、寄存器、硬盘、可移动磁盘、cd-rom、或技术领域内所公知的任意其它形式的存储介质中。

以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。


技术特征:

1.一种pdf文件的解析方法,其特征在于,包括:

依据已获取的pdf文件得到待解析文档;

将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;

依据预设的解析规则对所述目标内容进行解析,得到所述pdf文件中与所述参数名称对应的参数值。

2.根据权利要求1所述的方法,其特征在于,所述依据已获取的pdf文件得到对应的待解析文档,包括:

对已获取的pdf文件进行格式转换,得到所述pdf文件在txt格式下的文档;

对所述txt格式下的文档进行文档预处理,得到待解析文档。

3.根据权利要求1所述的方法,其特征在于,所述将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容,包括:

针对所述待解析文档中的每一行,将预设的参数名称与该行中的内容进行匹配,得到该行中与所述参数名称相匹配的内容;

将该行中位于所述相匹配的内容之后的内容确定为目标内容。

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

依据所述参数名称和所述参数名称对应的参数值构造数据库插入指令;

执行所述数据库插入指令,以将所述参数名称和所述参数名称对应的参数值写入目标数据库。

5.一种pdf文件的解析装置,其特征在于,包括:

获取模块,用于依据已获取的pdf文件得到待解析文档;

匹配模块,用于将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;

解析模块,用于依据预设的解析规则对所述目标内容进行解析,得到所述pdf文件中与所述参数名称对应的参数值。

6.根据权利要求5所述的装置,其特征在于,所述获取模块包括:

格式转换子模块,用于对已获取的pdf文件进行格式转换,得到所述pdf文件在txt格式下的文档;

预处理子模块,用于对所述txt格式下的文档进行文档预处理,得到待解析文档。

7.根据权利要求5所述的装置,其特征在于,所述匹配模块包括:

匹配子模块,用于针对所述待解析文档中的每一行,将预设的参数名称与该行中的内容进行匹配,得到该行中与所述参数名称相匹配的内容;

确定子模块,用于将该行中位于所述相匹配的内容之后的内容确定为目标内容。

8.根据权利要求5所述的装置,其特征在于,所述装置还包括:

指令构造模块,用于依据所述参数名称和所述参数名称对应的参数值构造数据库插入指令;

数据写入模块,用于执行所述数据库插入指令,以将所述参数名称和所述参数名称对应的参数值写入目标数据库。

9.一种电子设备,其特征在于,所述设备包括可读存储介质和处理器;

其中,所述可读存储介质,用于存储机器可执行指令;

所述处理器,用于读取所述可读存储介质上的所述机器可执行指令,并执行所述指令以实现权利要求1-4任一所述方法的步骤。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-4任一所述方法的步骤。

技术总结
本发明实施例涉及一种PDF文件的解析方法及装置,方法包括:依据已获取的PDF文件得到待解析文档;将预设的参数名称与所述待解析文档中的内容进行匹配,得到目标内容;依据预设的解析规则对所述目标内容进行解析,得到所述PDF文件中与所述参数名称对应的参数值。由此,可以实现自动对PDF文件进行数据采集。

技术研发人员:卢友磊;张永泰;张翠菊
受保护的技术使用者:北京易优联科技有限公司
技术研发日:2019.11.04
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-26096.html

最新回复(0)