扭曲文档图像的矫正方法和装置与流程

专利2022-06-28  198


本发明实施例涉及大数据处理技术领域,尤其涉及一种扭曲文档图像的矫正方法和装置。



背景技术:

文档图像矫正是将图像中褶皱或卷曲的文档恢复成平整状态的过程,可以简称为文档矫正。

文档矫正通常可以采用两种方法:全局形变参数预测和逐像素形变参数预测。前者只能预测得到一组唯一的形变参数,无法适用于像素点形变不一致的场景。后者可以针对所有像素点预测形变参数,但是,形变参数预测和图像恢复是两个独立的步骤。由于形变参数是稠密的,而且,图像恢复采用形变逆运算,根据形变参数的类型不同采用不同的方法,导致在图像恢复过程中产生大量的计算,文档图像矫正步骤繁琐,误差高,矫正效果差。



技术实现要素:

本发明实施例提供一种扭曲文档图像的矫正方法和装置,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。

第一方面,本发明实施例提供一种扭曲文档图像的矫正方法,包括:

获取扭曲文档图像;

将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。

可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;

所述将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像,包括:

将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。

可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推;

所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

可选的,所述根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像,包括:

获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;

根据所述运行参数在所述扭曲文档图像中获取多个像素;

根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。

可选的,所述u型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。

可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

可选的,所述u型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。

可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

第二方面,本发明实施例提供一种扭曲文档图像的矫正装置,包括:

获取模块,用于获取扭曲文档图像;

矫正模块,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。

可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;

所述矫正模块具体用于:

将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。

可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推;

所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

可选的,所述矫正模块具体用于:

获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;

根据所述运行参数在所述扭曲文档图像中获取多个像素;

根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。

可选的,所述u型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。

可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

可选的,所述u型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。

可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

第三方面,本发明实施例提供一种扭曲文档图像的矫正装置,包括:存储器和处理器;

所述存储器,用于存储程序指令;

所述处理器,用于调用所述存储器中存储的所述程序指令以实现本发明第一方面任一实施方式提供的方法。

第四方面,本发明实施例提供一种计算机可读存储介质,包括:可读存储介质和计算机程序,所述计算机程序用于实现本发明第一方面任一实施方式提供的方法。

第五方面,本发明实施例提供一种程序产品,该程序产品包括计算机程序(即执行指令),该计算机程序存储在可读存储介质中。处理器可以从可读存储介质读取该计算机程序,处理器执行该计算机程序用于实现本发明第一方面任一实施方式提供的方法。

本发明实施例提供一种扭曲文档图像的矫正方法和装置,将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正。由于矫正模型是根据大量样本训练出来的模型,因此,应用场景更加广泛,提高了文档图像矫正的准确率和效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的扭曲文档图像的矫正方法的一种流程图;

图2为本发明实施例提供的矫正模型的一种结构示意图;

图3为本发明实施例提供的形变参数预测模块的一种结构示意图;

图4为本发明实施例提供的u型卷积神经网络模型的一种结构示意图;

图5为本发明实施例提供的扭曲文档图像的矫正装置的一种结构示意图;

图6为本发明实施例提供的扭曲文档图像的矫正装置的另一种结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

图1为本发明实施例提供的扭曲文档图像的矫正方法的一种流程图。本实施例提供的扭曲文档图像的矫正方法,执行主体可以为扭曲文档图像的矫正装置。如图1所示,本实施例提供的扭曲文档图像的矫正方法,可以包括:

s101、获取扭曲文档图像。

其中,扭曲文档图像的内容存在扭曲现象,例如,存在褶皱现象、卷曲现象等。

需要说明,本实施例对扭曲文档图像的具体内容不做限定。可选的,扭曲文档图像的内容可以包括但不限于以下至少一项:表格、各种语言符号(如中文、英文、韩文、法文等的文字符号)、数字、图章、条形码、二维码或各种发票(如出租车发票、机票、油票、各种商品的税收发票等)。

s102、将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像。

其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。

具体的,矫正模型是以存在扭曲现象的大量的图像样本作为输入,以每个图像样本对应的矫正后的图像作为输出训练得到的。可选的,为了提升矫正模型的准确性,图像样本对应的矫正后的图像不存在扭曲现象。可选的,图像样本集合中图像样本对应的矫正后的图像不存在扭曲现象的比例可以大于预设比例,本实施例对预设比例的具体取值不做限定。由于矫正模型是通过大量样本训练出来的端到端的模型,当存在扭曲的图像中各个像素点具有不同形变时也具有很好的矫正效果,相比于现有技术中采用全局形变参数预测的方法实现文档图像矫正,显著提升了矫正效果,应用场景更加广泛。而且,由于矫正模型是端到端的模型,相比于现有技术中逐像素形变参数预测结合形变逆运算实现文档图像矫正,避免了矫正步骤繁琐、算法建模匹配以及计算量大的问题,提高了文档图像矫正的效率和效果。

需要说明的是,本实施例对矫正模型的类型不做限定。可选的,矫正模型的类型可以为下列中的任意一个:神经网络模型、深度算法模型和机器算法模型。可选的,神经网络模型可以包括但不限于全卷积网络(fullyconvolutionalnetworks,fcn)模型、卷积网络在生物医学图像分割中的应用(convolutionalnetworksforbiomedicalimagesegmentation,u-net)模型。

需要说明的是,本实施例对于矫正模型的训练方法不做限定,根据模型类型的不同可以有所不同。

可见,本实施例提供一种扭曲文档图像的矫正方法,将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正。由于矫正模型是根据大量样本训练出来的模型,因此,本实施例提供的扭曲文档图像的矫正方法,应用场景更加广泛,提高了文档图像矫正的准确率和效果。

在上述图1所示实施例的基础上,参见图2,图2为本发明实施例提供的矫正模型的一种结构示意图。矫正模型可以包括串联连接的形变参数预测模块21和形变矫正模块22。其中,形变参数预测模块21是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型。形变矫正模块22是以图像样本集合和形变参数预测模块21的输出结果为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型。

具体的,矫正模型在功能上划分为形变参数预测模块和形变矫正模块。形变参数预测模块和形变矫正模块都是通过训练得到的模型。其中,形变参数预测模块可以得到图像中每个像素的形变参数。形变参数用于指示每个像素的形变程度。形变矫正模块基于形变参数预测模块输出的像素级别的形变参数,可以实现对图像进行扭曲矫正。

基于图2示出的矫正模型,s102中,将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像,可以包括:

将扭曲文档图像输入到矫正模型中,通过形变参数预测模块输出中间结果,并根据中间结果通过形变矫正模块得到扭曲文档图像对应的矫正后的图像。其中,中间结果包括扭曲文档图像中每个像素的形变参数。

由于形变参数预测模块和形变矫正模块都是通过训练得到的模型,是可学习的,相比于现有技术中采用形变逆运算对图像进行恢复,避免了算法建模匹配以及计算量大的问题,通过可学习的形变矫正模块基于像素的形变参数对图像进行矫正,降低了矫正误差,提升了矫正效果。

下面,以形变矫正模块采用双线性插值算法作为示例,对图像矫正的原理进行说明。需要说明,形变矫正模块不限定采用双线性插值算法,还可以采用其他可学习的算法。

假设,扭曲文档图像s中像素的坐标表示为(u′,v'),扭曲文档图像s经过矫正后的图像d中与像素(u',v')对应的像素的坐标表示为(u,v)。文档图像矫正,可以理解为在扭曲文档图像s与矫正后的图像d之间建立一个坐标映射关系,使得矫正后的图像d中的每个像素(u,v)都能在扭曲文档图像s中找到对应的像素(u',v'),即满足:

d(u,v)=s(u′,v′)。

假设,在通过形变参数预测模块得到的中间结果中,像素的形变参数表示为(δu,δv)。其中,δu表示像素在u方向上的偏移量,δv表示像素在v方向上的偏移量。像素(u′,v′)与像素(u,v)之间满足:

u′=u δu,

v′=v δv,

假设,像素(u',v')是浮点型的,在扭曲文档图像s中无法直接获取其对应的像素值,因此,采用双线性插值的方法来得到目标像素值,即:

s(u',v')=w0*s([u'],[v']) w1*s([u′] 1,[v′]) w2*s([u′],[v′] 1) w3*s([u′] 1,[v'] 1),

且,

w0=q0/(q0 q1 q2 q3),

w1=q1/(q0 q1 q2 q3),

w2=q2/(q0 q1 q2 q3),

w3=q3/(q0 q1 q2 q3).

由于双线性插值算法是可导的,因此,采用双线性插值算法的形变矫正模块是可学习的,保证了矫正模型端到端的梯度回传,降低了矫正误差,提升了矫正效果。

可选的,形变参数预测模块可以包括至少两级串联连接的形变参数预测子模块。其中,第一级形变参数预测子模块211是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块212是以图像样本集合和第一级形变参数预测子模块211的输出结果为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推。

中间结果为至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

具体的,形变参数预测模块包括多个形变参数预测子模块,每个形变参数预测子模块都是通过训练得到的模型。第一级形变参数预测子模块是以图像样本集合为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型。从第二级形变参数预测子模块开始,是以图像样本集合和上一级形变参数预测子模块的输出结果为输入,以图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型。

通过设置多个形变参数预测子模块,可以逐级进行更细粒度的回归,使得得到的像素的形变参数更为准确,进而提升了矫正模型端到端的图像矫正效果。

可选的,每个形变参数预测子模块在训练后可以通过相同的监督信息进行回归验证。在本实施例中,可以包括两种监督信息,一种是扭曲图像与非扭曲图像对应像素点的坐标偏移量,另一种是非扭曲图像。通过两种监督信息可以监督形变参数预测子模块学习像素坐标对之间的差值。在实际应用中,由于获取相互对应的扭曲图像和非扭曲图像对的难度较大,因此,也可以对非扭曲图像采用图像处理的方法合成非扭曲图像,并保存两者的坐标偏移量用于训练和监督。

需要说明,本实施例对形变参数预测子模块的数量不做限定。例如,可以为2个。

可选的,根据中间结果通过形变矫正模块得到扭曲文档图像对应的矫正后的图像,可以包括:

获取运行参数,运行参数指示并行进行矫正操作的像素的个数。

根据运行参数在扭曲文档图像中获取多个像素。

根据多个像素分别对应的形变参数通过形变矫正模块并行对多个像素进行矫正,得到矫正后的多个像素。

利用形变矫正模块,通过对多个像素并行执行矫正操作,提升了文档图像矫正的效率。

需要说明,本实施例对运行参数的取值不做限定,可以根据处理器能力的不同而有所不同。

下面,基于图2示出的矫正模型,结合图4,对其中的u型卷积神经网络模型进行示例性说明。图4为本发明实施例提供的u型卷积神经网络模型的一种结构示意图。示例性的,图4中的u型卷积神经网络模型可以为unet模型。需要说明,各个示例中的具体参数取值并不对u型卷积神经网络模型的实现进行限定。

可选的,u型卷积神经网络模型可以包括编码单元和解码单元,编码单元和解码单元均包括多个卷积层,编码单元中的卷积层可以包括多次空洞卷积操作。

参见图4,图4中左侧示出了编码单元,右侧示出了解码单元。编码单元和解码单元均包括4个卷积层。其中,编码单元中的卷积层可以包括3次空洞卷积(dilationconv)操作。可选的,空洞卷积操作的卷积核可以为3*3。

通过设置u型卷积神经网络模型中的卷积操作为空洞卷积操作,可以在模型其他参数不变的情况下倍率的提升模型的感受野,从而提升模型运行的准确性。例如,卷积核为3*3,空洞卷积操作的空洞比(dilationratio)为1时,其感受野为3*3,当空洞卷积操作的空洞比为2时,其感受野便扩大为5*5,以此类推。

需要说明,本实施例对编码单元和解码单元包括的卷积层的数目,每个卷积层包括的空洞卷积操作的数目不做限定。

需要说明,本实施例对卷积层的名称不做限定。例如,卷积层也可以称为块(block)。

可选的,编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

通过设置卷积层中多次空洞卷积操作之间的空洞比逐渐增大且互质,进一步扩大了模型的感受野,进一步提升了模型运行的准确性。

需要说明,本实施例对卷积层包括的空洞卷积操作的数目以及各个空洞卷积操作的空洞比的数值不做限定。例如,编码单元中的卷积层包括3次空洞卷积操作,3次空洞卷积操作之间的空洞比依次为1,2,3。

可选的,u型卷积神经网络模型中在编码单元与解码单元之间还包括并行卷积单元,并行卷积单元用于对编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,并行执行的多次空洞卷积操作之间的空洞比不同。

通过设置并行卷积单元,通过并行执行空洞比不同的多次空洞卷积操作后,使得特征图具备多个尺度的感受野,进一步扩大了模型的整体感受野,提升了模型运行的准确性。

需要说明,本实施例对并行卷积单元中包括的并行执行的空洞卷积操作的数目以及各个空洞卷积操作的空洞比的数值不做限定。例如,并行执行的空洞卷积操作为4次,空洞比依次为3,6,9,,12。

可选的,解码单元中的卷积层包括卷积操作和重组操作,卷积操作用于对特征图进行上采样,重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

具体的,在u型卷积神经网络模型的编码单元,模型通常通过降采样将输入的图像(也称为原图)编码成特征图,例如,通过4个2倍降采样block将输入的图像编码成一个1/16的特征图。而在u型卷积神经网络模型的解码单元,模型通常通过对应的升采样(或称为上采样)将编码单元输出的特征图恢复成原图大小的特征图。在这个过程中,上采样block的结构设计,直接决定了恢复得到的特征图的质量。在本实施例中,解码单元中的卷积层包括卷积操作和重组操作,上采样block为可学习模块。通过卷积操作实现对特征图进行上采样,例如,分辨率为h*w的特征图通过卷积操作得到分辨率为(r*h)*(r*w)的特征图,再通过重组操作(也称为reshape操作)实现对上采样后的特征图进行矩阵的行数、列数、维数的重建。

由于解码单元中的卷积层是可学习的,提升了模型运行的准确性。

图5为本发明实施例提供的扭曲文档图像的矫正装置的一种结构示意图。本实施例提供的扭曲文档图像的矫正装置,用于执行图1~图4所示实施例提供的扭曲文档图像的矫正方法。如图5所示,本实施例提供的扭曲文档图像的矫正装置,可以包括:

获取模块51,用于获取扭曲文档图像;

矫正模块52,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。

可选的,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块52;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,所述形变矫正模块52是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;

所述矫正模块52具体用于:

将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块52得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。

可选的,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推;

所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

可选的,所述矫正模块52具体用于:

获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;

根据所述运行参数在所述扭曲文档图像中获取多个像素;

根据所述多个像素分别对应的形变参数通过所述形变矫正模块52并行对所述多个像素进行矫正,得到矫正后的多个像素。

可选的,所述u型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。

可选的,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

可选的,所述u型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。

可选的,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

本实施例提供的扭曲文档图像的矫正装置,用于执行图1~图4所示实施例提供的扭曲文档图像的矫正方法,其技术原理和技术效果类似,此处不再赘述。

图6为本发明实施例提供的扭曲文档图像的矫正装置的另一种结构示意图。如图6所示,扭曲文档图像的矫正装置可以包括处理器61和存储器62。所述存储器62用于存储指令,所述处理器61用于执行所述存储器62中存储的指令,以使所述扭曲文档图像的矫正装置执行图1~图4所示实施例提供的扭曲文档图像的矫正方法,技术原理和技术效果相似,此处不再赘述。

可选的,处理器可以为图形处理器(graphicsprocessingunit,gpu)。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明实施例的技术方案,而非对其限制;尽管参照前述各实施例对本发明实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的范围。


技术特征:

1.一种扭曲文档图像的矫正方法,其特征在于,包括:

获取扭曲文档图像;

将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。

2.根据权利要求1所述的方法,其特征在于,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;

所述将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像,包括:

将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。

3.根据权利要求2所述的方法,其特征在于,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推;

所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

4.根据权利要求2所述的方法,其特征在于,所述根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像,包括:

获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;

根据所述运行参数在所述扭曲文档图像中获取多个像素;

根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。

5.根据权利要求2至4任一项所述的方法,其特征在于,所述u型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。

6.根据权利要求5所述的方法,其特征在于,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

7.根据权利要求5所述的方法,其特征在于,所述u型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。

8.根据权利要求5所述的方法,其特征在于,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

9.一种扭曲文档图像的矫正装置,其特征在于,包括:

获取模块,用于获取扭曲文档图像;

矫正模块,用于将所述扭曲文档图像输入到矫正模型中,得到所述扭曲文档图像对应的矫正后的图像;其中,所述矫正模型是以图像样本集合为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,所述图像样本存在扭曲。

10.根据权利要求9所述的装置,其特征在于,所述矫正模型包括串联连接的形变参数预测模块和形变矫正模块;其中,所述形变参数预测模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,所述形变矫正模块是以所述图像样本集合和所述形变参数预测模块的输出结果为输入,以所述图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型;

所述矫正模块具体用于:

将所述扭曲文档图像输入到所述矫正模型中,通过所述形变参数预测模块输出中间结果,并根据所述中间结果通过所述形变矫正模块得到所述扭曲文档图像对应的矫正后的图像;所述中间结果包括所述扭曲文档图像中每个像素的形变参数。

11.根据权利要求10所述的装置,其特征在于,所述形变参数预测模块包括至少两级串联连接的形变参数预测子模块;其中,第一级形变参数预测子模块是以所述图像样本集合为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,第二级形变参数预测子模块是以所述图像样本集合和所述第一级形变参数预测子模块的输出结果为输入,以所述图像样本集合包括的每个图像样本中每个像素的形变参数为输出训练得到的u型卷积神经网络模型,以此类推;

所述中间结果为所述至少两级形变参数预测子模块中最后一级形变参数预测子模块的输出结果。

12.根据权利要求10所述的装置,其特征在于,所述矫正模块具体用于:

获取运行参数,所述运行参数指示并行进行矫正操作的像素的个数;

根据所述运行参数在所述扭曲文档图像中获取多个像素;

根据所述多个像素分别对应的形变参数通过所述形变矫正模块并行对所述多个像素进行矫正,得到矫正后的多个像素。

13.根据权利要求10至12任一项所述的装置,其特征在于,所述u型卷积神经网络模型包括编码单元和解码单元,所述编码单元和所述解码单元均包括多个卷积层,所述编码单元中的卷积层包括多次空洞卷积操作。

14.根据权利要求13所述的装置,其特征在于,所述编码单元中的卷积层包括的多次空洞卷积操作之间的空洞比逐渐增大且互质。

15.根据权利要求13所述的装置,其特征在于,所述u型卷积神经网络模型中在所述编码单元与所述解码单元之间还包括并行卷积单元,所述并行卷积单元用于对所述编码单元中最后一层卷积层输出的特征图并行执行多次空洞卷积操作,所述并行执行的多次空洞卷积操作之间的空洞比不同。

16.根据权利要求13所述的装置,其特征在于,所述解码单元中的卷积层包括卷积操作和重组操作,所述卷积操作用于对特征图进行上采样,所述重组操作用于对上采样后的特征图进行矩阵的行数、列数、维数的重建。

17.一种扭曲文档图像的矫正装置,其特征在于,包括:存储器和处理器;

所述存储器,用于存储程序指令;

所述处理器,用于调用所述存储器中存储的所述程序指令以实现如权利要求1-8中任一项所述的方法。

18.一种计算机可读存储介质,其特征在于,包括:可读存储介质和计算机程序,所述计算机程序用于实现如权利要求1-8中任一项所述的方法。

技术总结
本发明实施例提供一种扭曲文档图像的矫正方法和装置,其中,扭曲文档图像的矫正方法包括:获取扭曲文档图像;将扭曲文档图像输入到矫正模型中,得到扭曲文档图像对应的矫正后的图像;其中,矫正模型是以图像样本集合为输入,以图像样本集合中每个图像样本对应的矫正后的图像为输出训练得到的模型,图像样本存在扭曲。通过将待矫正的扭曲文档图像输入到矫正模型中,通过矫正模型可以获取扭曲文档图像对应的矫正后的图像,端到端的实现了文档图像矫正,提高了文档图像矫正的准确率,扩展了文档图像矫正的应用场景。

技术研发人员:谢群义;钦夏孟;李煜林;韩钧宇;朱胜贤
受保护的技术使用者:北京百度网讯科技有限公司
技术研发日:2020.01.20
技术公布日:2020.06.09

转载请注明原文地址: https://bbs.8miu.com/read-10926.html

最新回复(0)