本发明涉及文档信息检测领域,具体涉及一种海外农业pdf文档内容碎片化方法及系统。
背景技术:
随着全球数字化和信息化的发展,电子文档大量产生给人们生活带来了翻天覆地的变化,在许多领域和应用场景下也逐渐取代了纸质文档成为人们主要的阅读和处理的对象。在进行海外农业研究以及开展农业对外合作时,不同国家的国别指南、政策法规、生产贸易等文献资源是重要的参考资料,为农业“走出去”、“引进来”以及相关研究提供重要的信息支撑。此类文献资源大多是来自于海外网站的电子文档,且篇幅长,内容杂,给相关政府决策部门、科研人员以及企业用户带来极大的信息获取的障碍。因此,传统的基于整篇文档为粒度的信息单元进行检索查询、组织揭示、发布展示无法很好地满足人们对于文献查阅文献效率和精度要求,显露出诸多不足之处。因此,以碎片化文档的形式进行检索、组织、存储和展现的方式应运而生,基于碎片化文档为粒度的信息单元具有三个潜在特性:(1)实现海外农业信息资源的精准发现。用户在检索时,检索结果可以直接定位到一个碎片文档(可能是一个章节、一个图表或者一个段落),从而更加精准地发现自己需要的信息,实现有针对性的轻量化阅读;(2)为实现碎片内容的计算挖掘、动态重组做准备。碎片化以后的片段文档一方面可以作为知识计算与挖掘的语料,消除了以整篇文档进行挖掘计算颗粒度太粗而导致结果误差较大,计算结果不理想的障碍;另一方面,对碎片化文档进行组织揭示,意味着突破了传统的基于整篇文档组织揭示的方法和深度,对文献进行更加细粒度的组织,并且能够按照新的知识组织体系进行重组,形成新的文档,满足用户多元化利用的需求。(3)更加适应多元化的阅读需求。碎片化之后更方便在多个终端阅读,速度更快,解决以往pdf打开或者阅读器打开慢,多终端不便阅读的问题。
在海外农业文献资源的电子文档中,大部分是以pdf格式存储的。现有两种对pdf文档进行碎片化方法:1、人工通过工具标注标题、段落、公式、图片、表格等碎片化信息,虽然该方法能最大程度保证碎片化结果的正确性,但是因为不能脱离人工干预,在大数据的今天是很难实现的;2、通过自动化程序解析pdf内字体、字号、位置、区域部元素信息,自动拼装成标题、段落、公式、图片、表格等碎片化信息,虽然该方法能在一定程度上缓解人工干预的程度,但是由于拼接元素信息缺少通用的方法,无法兼容各种不同版式的pdf文档。
技术实现要素:
因此,本发明提供的一种训练pdf文档信息提取模型及海外农业pdf文档内容碎片化方法及系统,克服了现有技术中不能对不同版式的pdf进行碎片化信息提取的缺陷。
第一方面,本发明实施例提供训练pdf文档信息提取模型的方法,包括如下步骤:获取进行人工标注信息后的pdf文档;将标注后的pdf文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。
在一实施例中,人工标注的信息包括pdf文档中标题、段落、公式、图片及表格。
在一实施例中,所述设置预设大小与宽高比组合的锚框的步骤,包括:设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。
在一实施例中,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框的步骤,包括:获取锚框与真实边框组成的矩阵
在一实施例中,每个锚框标注的标签包括:人工标注的锚框的类别及真实边界框相对锚框的偏移量。
第二方面,本发明实施例提供一种海外农业pdf文档内容碎片化方法,包括:获取优质的海外农业pdf文档;将所述海外农业pdf文档转储为图片后,输入根据本发明实施例第一方面所述的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容;将所述海外农业pdf文档的碎片化内容进行图像转储进行显示。
第三方面,本发明实施例提供一种训练pdf文档信息提取模型的系统,包括:标注信息获取模型,用于获取进行人工标注信息后的pdf文档;标注图片转储模块,用于将标注后的pdf文档转储为图片;锚框匹配模块,用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;匹配锚框标注模块,用于标注每个匹配锚框的类别模型训练模块,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。。
第四方面,本发明实施例提供一种海外农业pdf文档内容碎片化系统,包括:海外农业pdf文档获取模块,用于获取海外农业pdf文档;碎片化内容获取模块,用于将所述海外农业pdf文档转储为图片后,输入根据本发明实施例第一方面所述的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容;碎片化内容图像转储模块,用于将所述海外农业pdf文档的碎片化内容进行图像转储进行显示。
第五方面,本发明实施例提供一种计算机设备,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行本发明实施例第一方面所述的训练pdf文档信息提取模型的方法,以及本发明实施例第二方面所述的海外农业pdf文档内容碎片化方法。
第六方面,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,以使所述至少一个处理器执行本发明实施例第一方面所述的训练pdf文档信息提取模型的方法,以及本发明实施例第二方面所述的海外农业pdf文档内容碎片化方法。
本发明技术方案,具有如下优点:
本发明实施例提供的一种海外农业pdf文档内容碎片化方法及系统,方法包括:获取海外农业pdf文档,将其转储为图片后输入pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容;将海外农业pdf文档的碎片化内容进行图像转储进行显示。训练模型的过程包括:获取进行人工标注信息后的pdf文档,将其转储为图片后,采样图片的图像数据根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框作为匹配锚框;标注每个匹配锚框的类别,输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。本发明可以在训练样本的基础上对各种不同版式的pdf文档内容进行识别、分类和标注,兼容性较好。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的训练pdf文档信息提取模型的方法的一个具体示例的流程图;
图2为本发明实施例提供的人工标注的样本的示意图;
图3为本发明实施例提供的卷积神经网络模型的示意图;
图4为本发明实施例提供的海外农业pdf文档内容碎片化方法的的一个具体示例的流程图;
图5为本发明实施例提供的未标注的pdf电子文档的一个示意图;
图6为本发明实施例提供的提取的海外农业pdf文档的碎片化内容的示意图;
图7为本发明实施例提供的训练pdf文档信息提取模型的系统的一个具体示例的模块组成图;
图8为本发明实施例提供的海外农业pdf文档内容碎片化系统的一个具体示例的模块组成图;
图9为本发明实施例提供的计算机设备一个具体示例的组成图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
实施例1
本发明实施例提供的一种训练pdf文档信息提取模型的方法,如图1所示,该模型的训练方法,包括如下步骤:
步骤s1:获取进行人工标注信息后的pdf文档。
本发明实施例中,人工标注的信息包括pdf中标题、段落、公式、图片及表格。但是并不以此为限,在其他实施例中可以标注更多的信息,以便后续训练提取信息,如图2所示的为人工标注的大量样本,其中包括了人工标注的类别信息的内容和所属页码、页面坐标。
步骤s2:将标注后的pdf文档转储为图片。
本发明实施例将pdf每页转储图片待下一步处理。
步骤s3:采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框。
本实施例中,以每个图片每个像素为中心生成多个不同的边界框,称为锚框。为了避免生成的锚框过多,减少算法的复杂度,设定一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框,以便下一步使用。假设图像中锚框分别为a1,...an,真实边界框分别为b1,...bn,且na≥nb。定义矩阵
步骤s4:标注每个匹配锚框的类别。
本发明实施例一共需要为每个锚框标注两类标签,一是已经人工标注的锚框的类别(标题、段落、公式、图片、表格),二是真实边界框相对锚框的偏移量。本实施例的偏移量是根据b和a的中心坐标的相对位置以及两个框的相对大小计算得出,仅以此举例,不以此为限。
步骤s5:将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。
本发明实施例使用卷积神经网络抽取锚框中图像特征,具体的是采用全卷积网络模型,其模块构成如图3所示。对任意的锚框,将其填充为高宽相同,标注的锚框通过与卷积核进行卷积运算,再通过最大池化层降低其对位置的敏感性,在输出使用sigmoid激活函数,保证池化窗口在输入上每次滑动所覆盖的区域互不重叠。最后通过全连接层来给出信息含量更高的锚框特征向量,通过softmax层得到每个分类的概率。再通过1×1卷积层将每个分类的概率变换为类别向量,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸。设输入的锚框向量为x,权重矩阵为w,卷积的前向计算函数的实现可以看作将函数输入乘以权重矩阵,并输出向量y=wx。反向传播需要依据链式法则,由于dxy=wt,卷积的反向传播函数的实现可以看作将函数输入乘以转置后的权重矩阵wt,转置卷积层交换卷积层的前向计算函数与反向传播函数:转置卷积层的这两个函数可以看作将函数输入向量分别乘以wt和w。转置卷积层可以用来交换卷积层输入和输出的形状。通过以上过程对神经网络进行训练,在全卷积网络中,最后通过转置卷积层将特征图的高和宽变换为输入图像的尺寸,从而输出每个锚框的类别。
本发明实施例提供的训练pdf文档信息提取模型的方法,获取进行人工标注信息后的pdf文档;将标注后的pdf文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型,减少了人工工作量,可对各种不同版式的pdf文档内容进行识别、分类和标注,兼容性较好。
实施例2
本发明实施例提供一种海外农业pdf文档内容碎片化方法,如图4所示,包括如下步骤:
步骤s21:获取海外农业pdf文档。
实际应用中,从文献数据库中遴选优质的海外农业文献资源,如英国经济学人智库(theeconomistintelligenceunit,eiu)、经济合作与发展组织(organizationforeconomicco-operationanddevelopment,oecd)及econpapers(全球最大的经济研究论文、期刊论文和软件资源的收藏机构)等,获取pdf电子文档如图5所示。
步骤s22:将海外农业pdf文档转储为图片后,输入根据实施例1中的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容。
步骤s23:将海外农业pdf文档的碎片化内容进行图像转储进行显示。
本发明实施例,提取的海外农业pdf文档的碎片化内容如图6所示。本发明实施例提供的方法,可以在训练样本的基础上地对整个文档内容进行识别、分类和标注,大量减少了人工工作量。
实施例3
本发明实施例提供一种训练pdf文档信息提取模型的系统,如图7所示,包括:
标注信息获取模型1,用于用于获取进行人工标注信息后的pdf文档;此模块执行实施例1中的步骤s1所描述的方法,在此不再赘述。
标注图片转储模块2,用于用于将标注后的pdf文档转储为图片;此模块执行实施例1中的步骤s2所描述的方法,在此不再赘述。
锚框匹配模块3,用于用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;此模块执行实施例1中的步骤s3所描述的方法,在此不再赘述。
匹配锚框标注模块4,用于标注每个匹配锚框的类别。此模块执行实施例1中的步骤s4所描述的方法,在此不再赘述。
模型训练模块5,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。此模块执行实施例1中的步骤s5所描述的方法,在此不再赘述。
本发明实施例提供的训练pdf文档信息提取模型的系统,获取进行人工标注信息后的pdf文档;将标注后的pdf文档转储为图片;采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;标注每个匹配锚框的类别;将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型,减少了人工工作量,可对各种不同版式的pdf文档内容进行识别、分类和标注,兼容性较好。
实施例4
本发明实施例提供一种海外农业pdf文档内容碎片化系统,如图8所示,包括:
海外农业pdf文档获取模块21,用于获取海外农业pdf文档;此模块执行实施例2中的步骤s21所描述的方法,在此不再赘述。碎片化内容获取模块22,用于将所述海外农业pdf文档转储为图片后,输入根据实施例1中的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容。此模块执行实施例2中的步骤s22所描述的方法,在此不再赘述。
碎片化内容图像转储模块3,用于将所述海外农业pdf文档的碎片化内容进行图像转储进行显示。此模块执行实施例2中的步骤s23所描述的方法,在此不再赘述。
本发明实施例提供的系统,可以在训练样本的基础上地对整个文档内容进行识别、分类和标注,大量减少了人工工作量。
实施例5
本发明实施例提供一种计算机设备,如图9所示,包括:至少一个处理器401,例如cpu(centralprocessingunit,中央处理器),至少一个通信接口403,存储器404,至少一个通信总线402。其中,通信总线402用于实现这些组件之间的连接通信。其中,通信接口403可以包括显示屏(display)、键盘(keyboard),可选通信接口403还可以包括标准的有线接口、无线接口。存储器404可以是高速ram存储器(ramdomaccessmemory,易挥发性随机存取存储器),也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。存储器404可选的还可以是至少一个位于远离前述处理器401的存储装置。其中处理器401可以执行实施例1中的训练pdf文档信息提取模型的方法或实施例2中所述的海外农业pdf文档内容碎片化方法。存储器404中存储一组程序代码,且处理器401调用存储器404中存储的程序代码,以用于执行实施例1中的训练pdf文档信息提取模型的方法或实施例2中所述的海外农业pdf文档内容碎片化方法。其中,通信总线402可以是外设部件互连标准(peripheralcomponentinterconnect,简称pci)总线或扩展工业标准结构(extendedindustrystandardarchitecture,简称eisa)总线等。通信总线402可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条线表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器404可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram);存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory),硬盘(英文:harddiskdrive,缩写:hdd)或固态硬盘(英文:solid-statedrive,缩写:ssd);存储器404还可以包括上述种类的存储器的组合。
其中,处理器401可以是中央处理器(英文:centralprocessingunit,缩写:cpu),网络处理器(英文:networkprocessor,缩写:np)或者cpu和np的组合。
其中,处理器401还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(英文:application-specificintegratedcircuit,缩写:asic),可编程逻辑器件(英文:programmablelogicdevice,缩写:pld)或其组合。上述pld可以是复杂可编程逻辑器件(英文:complexprogrammablelogicdevice,缩写:cpld),现场可编程逻辑门阵列(英文:field-programmablegatearray,缩写:fpga),通用阵列逻辑(英文:genericarraylogic,缩写:gal)或其任意组合。
可选地,存储器404还用于存储程序指令。处理器401可以调用程序指令,实现如本申请执行实施例1中的训练pdf文档信息提取模型的方法或实施例2中所述的海外农业pdf文档内容碎片化方法。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机可执行指令,该计算机可执行指令可执行实施例1中的训练pdf文档信息提取模型的方法或实施例2中所述的海外农业pdf文档内容碎片化方法。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)、随机存储记忆体(randomaccessmemory,ram)、快闪存储器(flashmemory)、硬盘(harddiskdrive,缩写:hdd)或固态硬盘(solid-statedrive,ssd)等;所述存储介质还可以包括上述种类的存储器的组合。
显然,上述实施例仅仅是为清楚地说明所作的举例,而并非对实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引申出的显而易见的变化或变动仍处于本发明创造的保护范围之中。
1.一种训练pdf文档信息提取模型的方法,其特征在于,包括如下步骤:
获取进行人工标注信息后的pdf文档;
将标注后的pdf文档转储为图片;
采样图片的图像数据,根据采样区域的大小与宽高比筛选数据,设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
标注每个匹配锚框的类别;
将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。
2.根据权利要求1所述的训练pdf文档信息提取模型的方法,其特征在于,人工标注的信息包括pdf文档中标题、段落、公式、图片及表格。
3.根据权利要求1所述的训练pdf文档信息提取模型的方法,其特征在于,所述设置预设大小与宽高比组合的锚框的步骤,包括:
设置一组锚框大小s1,...sn和一组锚框宽高比r1,...rm,在每个像素中心分别生成大小和宽高比组合为(s1,r1),(s1,r2),...,(s1,rm),(s2,r1),(s3,r1),...(sn,r1)的锚框。
4.根据权利要求3所述的训练pdf文档信息提取模型的方法,其特征在于,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框的步骤,包括:
获取锚框与真实边框组成的矩阵
获取矩阵x中锚框与真实边界框的交并比中的最大元素;
将最大元素所在行和列的元素丢弃,再确定剩余元素中的最大元素,将其所在行和列的元素丢弃,直至遍历完na-nb个锚框;
给定其中的锚框ai,根据矩阵的第i行找到与ai交并比最大的真实边界框bj,当交并比大于预设阈值时,为锚框ai分配的真实边界框bj。
5.根据权利要求1所述的训练pdf文档信息提取模型的方法,其特征在于,每个锚框标注的标签包括:人工标注的锚框的类别及真实边界框相对锚框的偏移量。
6.一种海外农业pdf文档内容碎片化方法,其特征在于,包括:
获取海外农业pdf文档;
将所述海外农业pdf文档转储为图片后,输入根据权利要求1-5任一所述的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容;
将所述海外农业pdf文档的碎片化内容进行图像转储进行显示。
7.一种训练pdf文档信息提取模型的系统,其特征在于,包括:
标注信息获取模型,用于获取进行人工标注信息后的pdf文档;
标注图片转储模块,用于将标注后的pdf文档转储为图片;
锚框匹配模块,用于采样图片的图像数据,根据采样区域的大小与宽高比筛选数据;设置预设大小与宽高比组合的锚框,根据预设方法确定与真实边框最接近的锚框,作为匹配锚框;
匹配锚框标注模块,用于标注每个匹配锚框的类别;
模型训练模块,用于将标注类别的匹配锚框输入卷积神经网络中进行训练,将训练好的卷积神经网络作为pdf文档信息提取模型。
8.一种海外农业pdf文档内容碎片化系统,其特征在于,包括:
海外农业pdf文档获取模块,用于获取海外农业pdf文档;
碎片化内容获取模块,用于将所述海外农业pdf文档转储为图片后,输入根据权利要求1-5任一所述的训练pdf文档信息提取模型的方法得到的pdf文档信息提取模型中,检测海外农业pdf文档的碎片化内容;
碎片化内容图像转储模块,用于将所述海外农业pdf文档的碎片化内容进行图像转储进行显示。
9.一种计算机设备,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-5任一所述的训练pdf文档信息提取模型的方法,以及权利要求6所述的海外农业pdf文档内容碎片化方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-5任一所述的训练pdf文档信息提取模型的方法,以及权利要求6所述的海外农业pdf文档内容碎片化方法。
技术总结