本发明涉及数字水印技术领域,更具体地说,涉及一种水印提取方法、装置、设备及存储介质。
背景技术:
随着社会的进步和时代的发展,电脑以及扫描打印设备越来越普及,打印分发文本资料变得更加简单容易。打印和传播的简易,也增大了涉密纸质材料的控制及追查难度,因此涉密单位需要花很大精力来应对纸质材料的保密和溯源工作。当出现涉密材料经打印泄露并被截获后,涉密单位希望通过这些涉密材料追溯打印源;而使用数字水印技术则是防止资料非法打印传播、追溯打印源的有效方法。
在数字水印的提取过程中,经常需要面对材料经打印、复印、拍照以及扫描等过程产生的噪声干扰,因此需要抗干扰能力强的水印提取技术,才能有效地提取准确的水印信息。目前,通常是使用ocr(opticalcharacterrecognition,光学字符识别)插件或者传统的图像处理的方式来处理需要进行数字水印的提取的图片,通过渲染、骨架化文字等操作提取相应的水印信息。但是,发明人发现,采用上述技术方案实现数字水印的提取时抵抗打印、复印、拍照以及扫描等过程中产生的噪声干扰的能力较差,无法处理形变较大的图片。
技术实现要素:
本发明的目的是提供一种水印提取方法、装置、设备及存储介质,能够抵抗打印、复印、拍照以及扫描等过程中产生的噪点的干扰,降低外部因素干扰与影响,提升水印提取的性能与准确率,扩大水印应用范围。
为了实现上述目的,本发明提供如下技术方案:
一种水印提取方法,包括:
获取待检测图片;其中,所述待检测图片为需要进行水印提取的图片;
调用字符检测模型对所述待检测图片进行字符检测,得到所述待检测图片包含的文本行,并调用字符识别模型对得到的所述文本行进行字符识别,得到所述文本行包含的文本信息;
对所述文本行进行字符分割,得到所述文本行包含的各个字符均为待检测字符,并由水印字库中调取与所述文本信息中各字符分别对应的字符均为基准字符;其中,所述水印字库包含带有水印的多个字符;
将所述待检测字符与所述基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于所述目的字符整合得到相应的水印信息。
优选的,基于所述目的字符整合得到相应的水印信息,包括:
将所述文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,所述目的字符与其他所述待检测字符的特征值不同。
优选的,调用字符检测模型对所述待检测图片进行字符检测之前,还包括:
对获取的所述待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
优选的,还包括:
接收字库更新指令,并基于所述字库更新指令中携带的带有水印的字符,对所述水印字库中相应的字符进行替换、增加或删除。
一种水印提取装置,包括:
获取模块,用于:获取待检测图片;其中,所述待检测图片为需要进行水印提取的图片;
调用模块,用于:调用字符检测模型对所述待检测图片进行字符检测,得到所述待检测图片包含的文本行,并调用字符识别模型对得到的所述文本行进行字符识别,得到所述文本行包含的文本信息;
确定模块,用于:对所述文本行进行字符分割,得到所述文本行包含的各个字符均为待检测字符,并由水印字库中调取与所述文本信息中各字符分别对应的字符均为基准字符;其中,所述水印字库包含带有水印的多个字符;
比对模块,用于:将所述待检测字符与所述基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于所述目的字符整合得到相应的水印信息。
优选的,所述比对模块包括:
提取单元,用于:将所述文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,所述目的字符与其他所述待检测字符的特征值不同。
优选的,还包括:
预处理模块,用于:调用字符检测模型对所述待检测图片进行字符检测之前,对获取的所述待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
优选的,还包括:
更新模块,用于:接收字库更新指令,并基于所述字库更新指令中携带的带有水印的字符,对所述水印字库中相应的字符进行替换、增加或删除。
一种水印提取设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一项所述水印提取方法的步骤。
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述水印提取方法的步骤。
本发明提供了一种水印提取方法、装置、设备及存储介质,该方法包括:获取待检测图片;其中,所述待检测图片为需要进行水印提取的图片;调用字符检测模型对所述待检测图片进行字符检测,得到所述待检测图片包含的文本行,并调用字符识别模型对得到的所述文本行进行字符识别,得到所述文本行包含的文本信息;对所述文本行进行字符分割,得到所述文本行包含的各个字符均为待检测字符,并由水印字库中调取与所述文本信息中各字符分别对应的字符均为基准字符;其中,所述水印字库包含带有水印的多个字符;将所述待检测字符与所述基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于所述目的字符整合得到相应的水印信息。本申请公开的技术方案中,调用字符检测模型检测需要实现水印提取的图片中包含的文本行,调用字符识别模型识别文本行中包含的字符,进而由水印库中提取识别得到的字符对应的带有水印的字符,进而将提取到的字符与对文本行进行字符分割得到的字符进行比对,通过两者比对的结果确定文本行包含的字符中是否包含水印,进而实现水印提取;其中,字符检测模型可以检测不定长的文本行,因此将字符检测模型引入到水印提取中用于实现文本行检测,可有效检测形变的文本行,抵抗格式攻击,无需做图片文本行矫正与roi区域截取,简化水印图片预处理工作,从而能够提高文本检测率;字符识别模型可直接识别字符串,无需先做字符分割后再识别字符,能较好地抵抗背景干扰,有效提高字符识别效率。因此,本申请将字符检测模型和字符识别模型引入到水印提取的过程中,替代ocr插件或传统图像处理方法的字符检测与识别,能够抵抗打印、复印、拍照以及扫描等过程中产生的噪点的干扰,降低外部因素干扰与影响,提升水印提取的性能与准确率,扩大水印应用范围。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种水印提取方法的流程图;
图2为本发明实施例提供的一种水印提取方法中字符检测模型的示意图;
图3为本发明实施例提供的一种水印提取方法中字符识别模型的示意图;
图4为本发明实施例提供的一种水印提取方法中待检测图片的示意图;
图5为本发明实施例提供的一种水印提取方法中字符的示意图;
图6为本发明实施例提供的一种水印提取装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,其示出了本发明实施例提供的一种水印提取方法的流程图,可以包括:
s11:获取待检测图片;其中,待检测图片为需要进行水印提取的图片。
本发明实施例提供的一种水印提取方法的执行主体可以为对应的水印提取装置,本实施例中的水印均可以指数字水印。在需要进行水印提取时,需要先将带有水印信息的材料转为可读取的图片文件,从而得到待检测图片,从而通过对待检测图片的图像特征来进行水印提取。
另外,水印算法大致可划分为三类,第一类为基于文本格式的水印算法,第二类总结为基于文本自然语言处理的水印算法,最后一类可归纳为基于汉字自身特征的文本水印算法。其中,基于文本格式的水印算法主要通过改变文本的字符特征、移动文字顺序以及文本中行的上移、下移等方法完成水印信息的嵌入;第二类基于文本自然语言处理的水印算法主要通过语态的变换以及近义词的替换等嵌入文本水印信息;第三类基于文字自身特征的文本水印算法主要利用文字的音调以及结构组合,甚至是文字出现的频率等特征给文本嵌入水印。而实现水印嵌入的具体步骤通常是根据组合文件的载体的数量n(n为大于1的整数,组合文件至少包括两个载体),将水印拆分为n个子水印,每个子水印对应水印的部分内容,将第i个子水印嵌入组合文件的第i个载体中,得到第i个目标载体,i为正整数,1≤i≤n;将n个目标载体所带水印信息合成目标文件携带的水印信息,完成水印嵌入。而本申请中则是由已经嵌入水印的文件(待检测图片)中进行水印提取的技术方案。
s12:调用字符检测模型对待检测图片进行字符检测,得到待检测图片包含的文本行,并调用字符识别模型对得到的文本行进行字符识别,得到文本行包含的文本信息。
其中,字符检测模型及字符识别模型均为深度学习模型;具体来说,字符检测模型为用于检测文本行的深度学习模型,而字符识别模型为识别文本行包含的字符的模型,两者均是预先通过对相应训练样本进行训练得到的;其中,字符检测模型的训练样本包括包含文本行的图片及在图片上对文本行进行的标记,而字符识别模型的训练样本包括包含字符的文本行及在文本行上对字符进行的标记,对于深度学习模型的训练与现有技术中对应技术方案的实现原理相同,在此不再赘述。本步骤中在获取到待检测图片后,可以将待检测图片输入至字符检测模型中,以此实现对字符检测模型的调用,并获取字符检测模型输出的、字符检测模型检测得到的待检测图片包含的全部文本行;将获取的每个文本行分别输入至字符识别模型中,以实现对字符识别模型的调用,并获取字符识别模型输出的、字符识别模型识别得到的每个文本行包含的文本信息;其中,文本行则为待检测图片中包含的每行字符串,而文本信息则为每行字符串中包含的全部字符。
s13:对文本行进行字符分割,得到文本行包含的各个字符均为待检测字符,并由水印字库中调取与文本信息中各字符分别对应的字符均为基准字符;其中,水印字库包含带有水印的多个字符。
本申请中文本行及文本信息是不同的数据信息,具体来说,文本行是待检测图片上每个文本行所属的部分图片(每部分图片仅包括检测得到的一个文本行),因此,文本行为并未对待检测图片上包含的字符等信息进行任何改动得到的,其可以表现出待检测图片的特点,对应的,对文本行进行分割所得字符为分割得到的每个字符在文本行所属的部分图片(每部分图片仅包括分割得到的一个字符),其也可能表现出待检测图片的特点;而文本信息则为识别得到的文本行包含的每个字符,文本信息包含的字符并不是字符在文本行中所属的部分图片,而是提取出的与文本行包含的字符对应的标准字符,因此,字符识别模型识别出的字符并不能表现出待检测图片的特点。基于此,本申请中基于文本信息实现水印字库中相应字符的调用,基于文本行分割得到的字符实现与水印字库中相应字符的比对。其中,水印字库中包含的均为带有水印的字符,或者说带有水印的字符所属图片。
s14:将待检测字符与基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于目的字符整合得到相应的水印信息。
将每个字符对应的待检测字符与基准字符进行比对,得到两者是否匹配的结果,如果两者匹配(待检测字符与基准字符匹配则可以是两者完全相同),则说明待检测字符中包含与对应基准字符带有的水印相同的水印,因此可以基于与相应基准字符匹配的待检测字符实现水印信息的获取。具体来说,将任一字符对应的待检测字符与基准字符进行比对,具体可以是分别提取待检测字符及基准字符包含的特征信息,进而将两者的特征信息进行比对;其中,特征信息可以为图像特征信息,也可以为字符包含的笔画特征信息,当然根据实际需要进行的其他设置也均在本发明的保护范围之内。
本申请公开的技术方案中,调用字符检测模型检测需要实现水印提取的图片中包含的文本行,调用字符识别模型识别文本行中包含的字符,进而由水印库中提取识别得到的字符对应的带有水印的字符,进而将提取到的字符与对文本行进行字符分割得到的字符进行比对,通过两者比对的结果确定文本行包含的字符中是否包含水印,进而实现水印提取;其中,字符检测模型可以检测不定长的文本行,因此将字符检测模型引入到水印提取中用于实现文本行检测,可有效检测形变的文本行,抵抗格式攻击,无需做图片文本行矫正与roi区域截取,简化水印图片预处理工作,从而能够提高文本检测率;字符识别模型可直接识别字符串,无需先做字符分割后再识别字符,能较好地抵抗背景干扰,有效提高字符识别效率。因此,本申请将字符检测模型和字符识别模型引入到水印提取的过程中,替代ocr插件或传统图像处理方法的字符检测与识别,能够抵抗打印、复印、拍照以及扫描等过程中产生的噪点的干扰,降低外部因素干扰与影响,提升水印提取的性能与准确率,扩大水印的应用范围。
在一种具体实现方式中,本方案的字符检测模型可以由fasterr-cnn优化改进得到,具体结合cnn(convolutionalneuralnetworks,卷积神经网络)网络和lstm(longshorttermmemorynetwork,长短期记忆网络)深度网络实现,如图2所示;能够有效的检测出多种复杂现实场景中的横向分布的文字(字符),检测不定长文本行。详细原理如下:
利用vgg提取特征,获得大小为n*c*h*w的conv5featuremap,之后在conv5featuremap上做3*3的滑动窗口,即每个点都结合周围3*3区域特征获得一个长度为3*3*c的特征向量。输出n*9c*h*w的featuremap,该特征只有cnn学习到的空间特征,再将这个featuremap按照下列公式进行reshape:
n*9c*h*w→(nh)*w*9c(1)
接着以batch=nh且最大时间长度为tmax=w的数据流输入进双向的lstm,开始学习每一行的序列特征。双向lstm输出(nh)*w*256,再按照下列公式经reshape恢复形状:
(nh)*w*256→n*256*h*w(2)
该特征既包含了空间特征,也包含了lstm学习到的序列特征。接下来,经过“fc”卷积层,变为n*512*h*w的特征;最后经过类似fasterr-cnn的rpn网络,获得textproposals。
本方案的字符识别模型能够将特征提取、序列建模和转录整合到统一框架的神经网络框架中,该神经网络架构包括三部分:卷积层,从输入的图片中提取特征序列;循环层,预测每一帧的标签分布;转录层,将每一帧的预测变为最终的标签序列。字符识别模型的网络架构可以如图3所示,在神经网络的底部,卷积层自动从每个输入的图片中提取特征序列,在卷积网络之上构建一个循环网络(循环层),用于对卷积层输出的特征序列的每一帧进行预测,采用神经网络顶部的转录层将循环层的每帧预测转化为标签序列,虽然神经网络是由不同类型的网络架构(如cnn和rnn(recurrentneuralnetwork,循环神经网络))组成,但可以通过一个损失函数进行联合训练。而本方案中的字符识别模型具有四个不同的特性:(1)端对端训练,不需要单独训练和协调;(2)自然地处理任意长度的序列,不涉及字符分割或水平尺度归一化;(3)不仅限于任何预定义的词汇,在无词典和基于词典的场景文本识别任务中都可使用;(4)可导出一个有效且较小的模型,对于现实世界的应用场景更实用。
本发明实施例提供的一种水印提取方法,基于目的字符整合得到相应的水印信息,可以包括:
将文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,目的字符与其他待检测字符的特征值不同。
本申请中基于目的字符整合得到相应的水印信息具体可以是将文本行中各待检测字符均替换为相应的特征值,并且,带有水印的待检测字符的特征值与未带有水印的待检测字符的特征值不同,带有水印的待检测字符的特征值为相同的取值,未带有水印的待检测字符的特征值为相同的取值,如带有水印的待检测字符的特征值为1,为带有水印的待检测字符的特征值为0,并且按照每个待检测字符在文本行中的排列顺序排列每个待检测字符的特征值,得到相应的特征值序列则为水印信息,从而通过这种方式实现水印信息的提取,方便有效。另外,在整合得到相应的水印信息后,还可以提取水印信息所要传达的信息,如在得到上述特征值序列后,基于预先设定的特征值序列与传达信息的对应关系确定出与水印信息的特征值序列对应的传达信息,该传达信息可以为水印所属厂家、水印保密级别等,从而进一步方便水印信息对应含义的获取。
本发明实施例提供的一种水印提取方法,调用字符检测模型对待检测图片进行字符检测之前,还可以包括:
对获取的待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
在得到待检测图片后,为了便于后续对待检测图片进行水印提取,本实施例可以对待检测图片做初步筛选及预处理;其中,筛选可以是将清晰度较低、无任何字符等的待检测图片进行删除,而预处理则可以是将待检测图片处理为统一格式及尺寸的图片;当然,根据实际需要进行的其他设置也均在本发明的保护范围之内。
本发明实施例提供的一种水印提取方法,还可以包括:
接收字库更新指令,并基于字库更新指令中携带的带有水印的字符,对水印字库中相应的字符进行替换、增加或删除。
需要说明的是,由于水印可能随时间发生变化,因此,为了使得水印字库中包含的带有水印的字符能够符合当前水印的实际情况,本实施例中可以随时接收外界输入的字库更新指令;如果字符更新指令为删除指令,则可以删除水印字库中包含的与字库更新指令对应的字符,如果字符更新指令为增加指令,则在水印字库中增加与字符更新指令对应的字符,如果字符更新指令为替换指令,则利用字符更新指令中携带的字符替换水印字库中包含的相应的字符。
在一种具体应用场景中,以提取中文字符文件的水印为例对本申请的水印提取方案进行具体说明;其中,在水印提取中引入ctpn字符检测神经网络模型和crnn字符识别神经网络模型,ctpn字符检测神经网络模型可以检测不定长的文本行,原理为先检测一个个小的、固定宽度的文本段,然后再将这些小的文本段连接起来,得到文本行,可用于自然图像中的文本行定位,引入到文本检测中可有效检测形变文本行,提高文本检测率;crnn字符识别神经网络模型是dcnn网络模型和rnn网络模型的组合,可直接识别字符串,有效提高文字识别效率。为了有效提取到中文字符文件中的水印,可以按照如下步骤进行实施:
1)将打印的带有水印的中文材料转为可读取的图片文件为待检测图片,并对待检测图片做初步筛选与处理;其中,具体示例中待检测图片的示意图如图4所示。
2)调用ctpn字符检测神经网络模型对待检测图片进行检测,获取待检测图片上所有的文本行。具体是首先把这一文本行里的每个字给框出来,然后把所有的字的框合并,就得到一行文字的框(文本行),这类似目标检测,借鉴了faster-rnn的思想,即最后一个featuremap每个像素点生成若干个ancor,与真实框重合最大的ancor负责预测,然后将每个文字的预测ancor先送到lstm网络中提取特征,然后再送到全连接层,进行目标置信度分类,横向中心点偏移回归、竖向中心点、竖向长度回归,训练完成之后对每个文字的预测ancor加上训练好的偏移量就得到了每个文字修正后的预测ancor,然后将所有修正后的ancor合并就得到了一行文字的预测框,也即文本行。
3)调用crnn字符识别神经网络模型对检测到的文本行进行识别,识别其中包含的字符。由于crnn字符识别神经网络模型中的卷积层、最大池化层和元素激活函数在局部区域上执行,因此它们是平移不变的,因此特征图的每列对应于原始图像的一个矩形区域(称为感受野),并且这些矩形区域与特征图上从左到右的相应列具有相同的顺序。
4)从水印字库中提取与识别得到的字符对应的带有水印的字符。
5)对文本行做字符分割,获取分割得到的每个字符;具体示例中单个字符的示意图可以如图5所示。
6)对比每个识别得到的字符与对应的对文本行分割得到的字符,进而通过两者是否匹配确定分割得到的每个字符是否带有水印。
7)整合获取的所有水印(或者说每个带有水印的字符),确定整合所得的水印信息所要传达的信息。
可见,本申请公开的技术方案具有的特点包括:1)可以检测不定长文本行的字符检测模型的应用;2)可直接识别字符(或者说识别字符串)的字符识别的应用;3)依据字符检测模型输出的结果及水印字库中相关的字符提取水印信息的策略。
本发明提出一种基于深度学习字符检测与识别模型的水印提取技术以提升水印提取的性能与准确率,扩大水印的适用范围。具体地,本发明提出字符检测深度学习模型检测文本行和字符识别深度学习模型识别字符串的策略,依据现实需求以及水印图像特征来进行水印信息的提取。可见,本申请将基于深度学习的字符检测模型和字符识别模型引入到水印提取过程中,替代ocr插件或传统图像处理方法的字符检测与识别,提高抵抗打印、复印、拍照以及扫描等过程中产生的噪点干扰的能力,降低外部因素干扰与影响,提升水印提取的性能与准确率,扩大水印的应用范围。字符检测模型可以检测不定长文本行,引入到水印文本检测中可有效检测形变文本行,无需做图片文本行矫正与roi区域截取,简化水印图片预处理工作,提高文本检测率。字符识别模型可直接识别字符串,无需先做字符分割后再识别文字,且能较好地抵抗背景干扰,有效提高文字识别效率。并且,本技术方案除了应用于水印领域,还可应用到其它相关技术领域,比如可应用到其他的人工智能热门领域,如人工智能视频处理,各应用场景中的字符文本行检测及字符识别,各种仪器关键信息的提取,文档资料的存储与保护等。有效解决了现有技术中ocr插件使用环境及范围有较大限制、提取水印项目必须添加ocr插件、且ocr插件的使用涉及版权,比较复杂,以及提取水印前、需要做图片矫正或roi(regionofinterest,感兴趣区域)区域截取、处理不等长字符串时性能不佳、没有较好的格式攻击抵抗能力、且提取技术的鲁棒性也不强的问题。
本发明实施例还提供了一种水印提取装置,如图6所示,可以包括:
获取模块11,用于:获取待检测图片;其中,待检测图片为需要进行水印提取的图片;
调用模块12,用于:调用字符检测模型对待检测图片进行字符检测,得到待检测图片包含的文本行,并调用字符识别模型对得到的文本行进行字符识别,得到文本行包含的文本信息;
确定模块13,用于:对文本行进行字符分割,得到文本行包含的各个字符均为待检测字符,并由水印字库中调取与文本信息中各字符分别对应的字符均为基准字符;其中,水印字库包含带有水印的多个字符;
比对模块14,用于:将待检测字符与基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于目的字符整合得到相应的水印信息。
本发明实施例提供的一种水印提取装置,比对模块可以包括:
提取单元,用于:将文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,目的字符与其他待检测字符的特征值不同。
本发明实施例提供的一种水印提取装置,还可以包括:
预处理模块,用于:调用字符检测模型对待检测图片进行字符检测之前,对获取的待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
本发明实施例提供的一种水印提取装置,还可以包括:
更新模块,用于:接收字库更新指令,并基于字库更新指令中携带的带有水印的字符,对水印字库中相应的字符进行替换、增加或删除。
本发明实施例还提供了一种水印提取设备,可以包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一项水印提取方法的步骤。
本发明实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一项水印提取方法的步骤。
需要说明的是,本发明实施例提供的一种水印提取装置、设备及存储介质中相关部分的说明请参见本发明实施例提供的一种水印提取方法中对应部分的详细说明,在此不再赘述。另外本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
1.一种水印提取方法,其特征在于,包括:
获取待检测图片;其中,所述待检测图片为需要进行水印提取的图片;
调用字符检测模型对所述待检测图片进行字符检测,得到所述待检测图片包含的文本行,并调用字符识别模型对得到的所述文本行进行字符识别,得到所述文本行包含的文本信息;
对所述文本行进行字符分割,得到所述文本行包含的各个字符均为待检测字符,并由水印字库中调取与所述文本信息中各字符分别对应的字符均为基准字符;其中,所述水印字库包含带有水印的多个字符;
将所述待检测字符与所述基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于所述目的字符整合得到相应的水印信息。
2.根据权利要求1所述的方法,其特征在于,基于所述目的字符整合得到相应的水印信息,包括:
将所述文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,所述目的字符与其他所述待检测字符的特征值不同。
3.根据权利要求2所述的方法,其特征在于,调用字符检测模型对所述待检测图片进行字符检测之前,还包括:
对获取的所述待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
4.根据权利要求3所述的方法,其特征在于,还包括:
接收字库更新指令,并基于所述字库更新指令中携带的带有水印的字符,对所述水印字库中相应的字符进行替换、增加或删除。
5.一种水印提取装置,其特征在于,包括:
获取模块,用于:获取待检测图片;其中,所述待检测图片为需要进行水印提取的图片;
调用模块,用于:调用字符检测模型对所述待检测图片进行字符检测,得到所述待检测图片包含的文本行,并调用字符识别模型对得到的所述文本行进行字符识别,得到所述文本行包含的文本信息;
确定模块,用于:对所述文本行进行字符分割,得到所述文本行包含的各个字符均为待检测字符,并由水印字库中调取与所述文本信息中各字符分别对应的字符均为基准字符;其中,所述水印字库包含带有水印的多个字符;
比对模块,用于:将所述待检测字符与所述基准字符进行比对,确定比对所得结果为匹配的待检测字符为目的字符,并基于所述目的字符整合得到相应的水印信息。
6.根据权利要求5所述的装置,其特征在于,所述比对模块包括:
提取单元,用于:将所述文本行中各待检测字符均替换为相应的特征值,得到相应的特征值序列,并确定得到的该特征值序列为水印信息;其中,所述目的字符与其他所述待检测字符的特征值不同。
7.根据权利要求6所述的装置,其特征在于,还包括:
预处理模块,用于:调用字符检测模型对所述待检测图片进行字符检测之前,对获取的所述待检测图片进行预处理,得到具有预先设定的格式及尺寸的待检测图片。
8.根据权利要求7所述的装置,其特征在于,还包括:
更新模块,用于:接收字库更新指令,并基于所述字库更新指令中携带的带有水印的字符,对所述水印字库中相应的字符进行替换、增加或删除。
9.一种水印提取设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至4任一项所述水印提取方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述水印提取方法的步骤。
技术总结