本申请涉及计算机技术领域,具体而言,本申请涉及一种文字识别方法及装置。
背景技术:
文字信息是图像和视频中的重要信息,如果能够得到其中的文字信息,可以实现多方面的重要应用,例如手机拍照翻译、智能导航、导盲、基于内容的检索等,这也能为人们的工作和生活提供极大地便利。因此,基于场景的文字检测识别技术是目前计算机视觉和人工智能技术领域的研究热点。
现有技术中,通常对于具有相对复杂图像风格的待识别图像,其待识别图像中的文字识别结果较差。比如,待识别图像中的文字和背景的颜色较为接近,待识别图像是拍摄时发生形变、扭曲等变换后的图像,对于这样的待识别图像,其文字识别结果较差。
技术实现要素:
本申请实施例的主要目的在于提供一种文字识别方法、装置、电子设备及计算机可读存储介质,通过本申请实施例的方案,能够提高文字识别结果的准确性。
第一方面,本申请实施例提供了一种文字识别方法,该方法包括:
获取待识别图像;
基于待识别图像,对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,其中,若对待识别图像中的文字和背景均进行风格转换,转换后的文字对应的风格与背景对应的风格不同;
对转换后的图像中进行文字识别,得到文字识别结果。
第一方面的一种可选实施例中,对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,包括:
对待识别图像的文字进行第一图像风格的转换,对待识别图像的背景进行第二图像风格的转换,得到转换后的图像;
其中,第一图像风格为黑色字体,第二图像风格为白色背景。
第一方面的一种可选实施例中,对转换后的图像中的文字进行文字识别,得到文字识别结果,包括:
提取转换后的图像的图像特征;
基于图像特征,采用循环神经网络得到文字识别结果。
第一方面的一种可选实施例中,对待识别图像进行风格转换,以及对转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个训练样本对包括第一样本图像和第二样本图像,其中,第二样本图像为第一样本图像所对应的风格转换后的图像,第一样本图像携带有文字标签,文字标签表征了第一样本图像中的文字标注结果;第一样本图像对应第三图像风格,第二样本图像对应第四图像风格;
基于第一样本图像对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为文字识别模型;
其中,初始神经网络模型包括级联的第一风格转换网络和文字识别网络,第一风格转换网络用于将输入图像转换为第四图像风格的图像;第一风格转换网络的输入包括第一样本图像,输出包括第一图像,文字识别网络的输入包括第一图像,输出包括第一图像的文字识别结果;
损失函数包括图像损失函数和文本识别损失函数,图像损失函数包括了表征了第二样本图像和对应的第一图像之间的差异的损失函数,文本识别损失函数包括了表征了第一样本图像中的文字标注结果和对应的第一图像的文字识别结果之间的差异的损失函数;
其中,作为文字识别模型包括训练结束时的级联的第一风格转换网络和文字识别网络。
第一方面的一种可选实施例中,文字识别网络的输入还包括第二样本图像或第一样本图像中的至少一项;
若文字识别网络的输入包括第二样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和对应的第二样本图像的文字识别结果之间的差异的损失函数;
若文字识别网络的输入包括第一样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和第一样本图像的文字识别结果之间的差异的损失函数。
第一方面的一种可选实施例中,初始神经网络模型还包括第二风格转换网络,第二风格转换网络用于将输入图像转换为第三图像风格的图像,第二风格转换网络的输入包括第二样本图像,输出包括第二图像;
图像损失函数还包括表征了第一样本图像与第二图像之间的差异的损失函数。
第一方面的一种可选实施例中,第一风格转换网络的输入还包括第二样本图像,输出还包括第三图像,损失函数还包括不变性损失函数,不变性损失函数包括表征了第二样本图像和第三图像之间的差异的损失函数;
和/或,
第二风格转换网络的输入还包括第一样本图像,输出还包括第四图像;不变性损失函数包括表征了第一样本图像和第四图像之间的差异的损失函数。
第一方面的一种可选实施例中,文字识别网络的输入还包括第二图像,输出还包括第二图像的文字识别结果;
文本识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第二图像的文字识别结果之间的差异的损失函数。
第一方面的一种可选实施例中,文字识别模型还包括第一判别网络或第二判别网络中的至少一项,第一判别网络的输入为第三图像风格的图像,输出为用于表征所输入的图像是第一样本图像或第一风格转换网络生成的图像的信息,第二判别网络的输入为第四图像风格的图像,输出为用于表征所输入的图像是第二样本图像或第二风格转换网络生成的图像;
第一判别网络的输入包括第一样本图像和第二图像,第二判别网络的输入为第二样本图像和第一图像;
损失函数还包括判别损失函数,判别损失函数表征了所判别网络的风格判别损失。
第一方面的一种可选实施例中,第二风格转换网络的输入还包括第一图像,输出还包括第五图像,损失函数还包括循环一致损失函数,循环一致损失函数包括表征了第一样本图像与第五图像之间的差异的损失函数;
和/或,
第一图像风格转换网络的输入还包括第二图像,输出还包括第六图像,循环一致损失函数包括表征了第二样本图像与第六图像之间的差异的损失函数。
第一方面的一种可选实施例中,文字识别网络的输入还包括第五图像,输出还包括第五图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数;
和/或,
文字识别网络的输入还包括第六图像,输出还包括第六图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数。
第一方面的一种可选实施例中,若训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,第一样本图像中的文字标签是通过以下方式确定的:
获取第一样本图像以及第一样本图像的字符标签,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;
按照第一样本图像中文字的书写规则,基于字符标签生成文字标签。
第一方面的一种可选实施例中,元音附标型文字包括藏文或泰文中的至少一项。
第一方面的一种可选实施例中,该方法还包括:
将第一样本图像中的文字或背景中的至少一项进行风格转换,得到第四图像风格的第二样本图像。
第二方面,本申请提供了一种文字识别装置,该装置包括:
图像获取模块,用于获取待识别图像;
风格转换模块,用于基于待识别图像,对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像;
其中,若对待识别图像中的文字和背景均进行风格转换,转换后的文字对应的风格与背景对应的风格不同;
文字识别模块,用于对转换后的图像中进行文字识别,得到文字识别结果。
第二方面的一种可选实施例中,风格转换模块在对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像时,具体用于:
对待识别图像的文字进行第一图像风格的转换,对待识别图像的背景进行第二图像风格的转换,得到转换后的图像;
其中,第一图像风格为黑色字体,第二图像风格为白色背景。
第二方面的一种可选实施例中,文字识别模块在对转换后的图像中的文字进行文字识别,得到文字识别结果时,具体用于:
提取转换后的图像的图像特征;
基于图像特征,采用循环神经网络得到文字识别结果。
第二方面的一种可选实施例中,对待识别图像进行风格转换,以及对转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个训练样本对包括第一样本图像和第二样本图像,其中,第二样本图像为第一样本图像所对应的风格转换后的图像,第一样本图像携带有文字标签,文字标签表征了第一样本图像中的文字标注结果;第一样本图像对应第三图像风格,第二样本图像对应第四图像风格;
基于第一样本图像对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为文字识别模型;
其中,初始神经网络模型包括级联的第一风格转换网络和文字识别网络,第一风格转换网络用于将输入图像转换为第四图像风格的图像;第一风格转换网络的输入包括第一样本图像,输出包括第一图像,文字识别网络的输入包括第一图像,输出包括第一图像的文字识别结果;
损失函数包括图像损失函数和文本识别损失函数,图像损失函数包括了表征了第二样本图像和对应的第一图像之间的差异的损失函数,文本识别损失函数包括了表征了第一样本图像中的文字标注结果和对应的第一图像的文字识别结果之间的差异的损失函数;
其中,作为文字识别模型包括训练结束时的级联的第一风格转换网络和文字识别网络。
第二方面的一种可选实施例中,文字识别网络的输入还包括第二样本图像或第一样本图像中的至少一项;
若文字识别网络的输入包括第二样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和对应的第二样本图像的文字识别结果之间的差异的损失函数;
若文字识别网络的输入包括第一样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和第一样本图像的文字识别结果之间的差异的损失函数。
第二方面的一种可选实施例中,初始神经网络模型还包括第二风格转换网络,第二风格转换网络用于将输入图像转换为第三图像风格的图像,第二风格转换网络的输入包括第二样本图像,输出包括第二图像;
图像损失函数还包括表征了第一样本图像与第二图像之间的差异的损失函数。
第二方面的一种可选实施例中,第一风格转换网络的输入还包括第二样本图像,输出还包括第三图像,损失函数还包括不变性损失函数,不变性损失函数包括表征了第二样本图像和第三图像之间的差异的损失函数;
和/或,
第二风格转换网络的输入还包括第一样本图像,输出还包括第四图像;不变性损失函数包括表征了第一样本图像和第四图像之间的差异的损失函数。
第二方面的一种可选实施例中,文字识别网络的输入还包括第二图像,输出还包括第二图像的文字识别结果;
文本识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第二图像的文字识别结果之间的差异的损失函数。
第二方面的一种可选实施例中,文字识别模型还包括第一判别网络或第二判别网络中的至少一项,第一判别网络的输入为第三图像风格的图像,输出为用于表征所输入的图像是第一样本图像或第一风格转换网络生成的图像的信息,第二判别网络的输入为第四图像风格的图像,输出为用于表征所输入的图像是第二样本图像或第二风格转换网络生成的图像;
第一判别网络的输入包括第一样本图像和第二图像,第二判别网络的输入为第二样本图像和第一图像;
损失函数还包括判别损失函数,判别损失函数表征了所判别网络的风格判别损失。
第二方面的一种可选实施例中,第二风格转换网络的输入还包括第一图像,输出还包括第五图像,损失函数还包括循环一致损失函数,循环一致损失函数包括表征了第一样本图像与第五图像之间的差异的损失函数;
和/或,
第一图像风格转换网络的输入还包括第二图像,输出还包括第六图像,循环一致损失函数包括表征了第二样本图像与第六图像之间的差异的损失函数。
第二方面的一种可选实施例中,文字识别网络的输入还包括第五图像,输出还包括第五图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数;
和/或,
文字识别网络的输入还包括第六图像,输出还包括第六图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数。
第二方面的一种可选实施例中,若训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,第一样本图像中的文字标签是通过以下方式确定的:
获取第一样本图像以及第一样本图像的字符标签,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;
按照第一样本图像中文字的书写规则,基于字符标签生成文字标签。
第二方面的一种可选实施例中,元音附标型文字包括藏文或泰文中的至少一项。
第二方面的一种可选实施例中,该装置还包括:
第二样本图像确定模块,用于将第一样本图像中的文字或背景中的至少一项进行风格转换,得到第四图像风格的第二样本图像。
第三方面,本申请实施例提供了一种电子设备,电子设备包括处理器和存储器;存储器中存储有可读指令,可读指令由处理器加载并执行时,实现如上述第一方面或第一方面中的任一可选实施例中所示的方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,该计算机可读存储介质中存储有一条计算机程序,至少一条计算机程序由处理器加载并执行时,实现如上述第一方面或第一方面中的任一可选实施例中所示的方法。
本申请提供的技术方案带来的有益效果是:在对待识别图像中的文字进行文字识别之前,先对待识别图像中的文字或背景中的至少一项进行风格转换,且在同时对待识别图像中的文字和背景进行风格转换时,转换后的文字对应的风格与转换后的背景对应的风格不同,使得转换后的图像中文字和背景可以明显的进行区分,从而在对转换后的图像中的文字进行文字识别时,由于转换后的图像中文字的风格与背景的风格不同,可以更加容易、准确的区分出图像中的文字,并且,转换后的图像相较于待识别图像的风格相对简单、规则、统一,从而可更加准确地对图像中的文字进行文字识别,得到更加准确的文字识别结果。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对本申请实施例描述中所需要使用的附图作简单地介绍。
图1为本申请一个实施例提供的一种文字识别方法的流程示意图;
图2为本申请一个实施例提供的一种风格转换前后的图像的示意图;
图3为本申请一个实施例提供的一种藏文的一个音节的示意图;
图4为本申请一个实施例提供的一种藏文对应的字符标签和文字标签示意图;
图5为本申请一个实施例提供的一种初始神经网络的网络结构示意图;
图6为本申请一个实施例提供的又一种初始神经网络的网络结构示意图;
图7为本申请一个实施例提供的一种文字识别装置的结构示意图;
图8为本申请又一实施例提供的一种电子设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
人工智能(artificialintelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
其中,机器学习(machinelearning,ml)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、对抗学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
为了更好的理解及说明本申请实施例的方案,下面对本申请实施例中所涉及到的一些技术用语进行简单说明。
神经网络(neuralnetwork,nn):是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。
下面以具体地实施例对本申请的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本申请的实施例进行描述。
图1示出了本申请提供的一种文字识别方法的流程示意图,本申请方案的执行主体可以是终端或服务器中的至少一项,如图1所示,该方法可以包括步骤s110至步骤s130,其中:
步骤s110,获取待识别图像。
其中,待识别图像指的是需要进行文字识别的图像,待识别图像中包括文字和背景,背景指的是图像中除文字之外的部分。在本申请的方案中,待识别图像为彩色图像或灰度图像,本申请中不限定待识别图像的具体表现形式,待识别图像可以是用户自己拍摄的包含文字的图像,也可以是从网上下载的包含文字的图像,或者是从设备接收到的图像,还可以是视频中的图像,本申请中不限定待识别图像的图像来源。
步骤s120,基于待识别图像,对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像。
其中,对待识别图像中的文字或背景中的至少一项进行风格转换,比如,可将待识别图像中的文字转换为第一图像风格的文字,或将待识别图像中的背景转换为第二图像风格的背景。在本申请的示例中,第一图像风格为黑色字体,第二图像风格为白色背景,即可将待识别图像转换为白底黑字的图像。
其中,第一图像风格可以为设定的字体,设定的字体颜色等。第二图像风格可以为设定的背景颜色,设定的场景的背景等。
其中,若对待识别图像中的文字和背景均进行风格转换,转换后的文字对应的风格与背景对应的风格不同。
如果对待识别图像中的文字和背景均进行风格转换,为了明显区分出文字和背景,风格转换后的文字对应的风格与背景所对应的风格不同。比如,对待识别图像中的文字进行颜色转换,转换后的文字为蓝色,如果也对待识别图像中的背景进行颜色转换,则转换后的背景的颜色不可以是蓝色的,应该是区分于蓝色的颜色。
作为一示例,图2中示出了几种风格转换前后的图像的示意图,图2中所示的原始场景图像为未进行风格转换的图像,图中所示的文字为藏文,原始场景图像中包括各种风格的背景,比如,从左到右,第1张图中的背景中包含多种颜色,第1张图中文字的颜色为黄色,第2张图中的背景为淡绿色,文字颜色为深绿色,第3张图中的背景为白色和黑色,文字颜色为黑色,第4张图中的背景为绿色,文字颜色为黄色。
图2中所示的合成图像为风格转换后的图像,该示例中,图2中的合成图像中背景均为白色,字体均为黑色,且字体均为相同字体,比如,notosanstibetan粗体,合成图像的高为同一高度。
由图2中所示的合成图像,在对原始场景图像进行风格转换后,转换后的图像中的背景和文字的风格较转换前相对简单、规则、统一,且通过对原始场景图像进行风格转换处理后,能够有效加大图像中背景和文字部分的区别,从而在基于转后的图像进行图像中的文字识别时,能够更加容易的识别出图像中的文字,提高文字识别的准确性。
步骤s130,对转换后的图像中的文字进行文字识别,得到文字的识别结果。
其中,对待识别图像中的文字进行文字识别可以通过ocr(opticalcharacterrecognition,光学字符识别)来识别出文字的具体含义,也可以采用神经网络模型的方式进行文字识别,本申请中不限定文字识别的具体实现方式,均在本申请的保护范围内。
本申请实施例的方案,在对待识别图像中的文字进行文字识别之前,先对待识别图像中的文字或背景中的至少一项进行风格转换,且在同时对待识别图像中的文字和背景进行风格转换时,转换后的文字对应的风格与转换后的背景对应的风格不同,使得转换后的图像中文字和背景可以明显的进行区分,从而在对转换后的图像中的文字进行文字识别时,由于转换后的图像中文字的风格与背景的风格不同,可以更加容易、准确的区分出图像中的文字,并且,转换后的图像相较于待识别图像的风格相对简单、规则、统一,从而可更加准确地对图像中的文字进行文字识别,得到更加准确的文字识别结果。
本申请的一可选方案中,步骤s130中,对转换后的图像中进行文字识别,得到文字识别结果,可以包括:
提取转换后的图像的图像特征;
基于图像特征,采用循环神经网络得到文字识别结果。
在本申请的一可选示例中,可采用卷积神经网络提取图像特征,基于图像特征,采用循环神经网络得到文字识别结果。采用卷积神经网络和循环神经网络相结合的方法可以完成对待识别文字图像整体的识别,避免了相关技术中需要将文字逐字分割,再逐个文字进行识别所导致的累积误差的问题,可以提高文字识别率;而且卷积神经网络具有深度学习能力,因此可以有效提高系统整体的性能。
本申请的一可选方案中,对待识别图像进行风格转换,以及对转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个训练样本对包括第一样本图像和第二样本图像,其中,第二样本图像为第一样本图像所对应的风格转换后的图像,第一样本图像携带有文字标签,文字标签表征了第一样本图像中的文字标注结果;第一样本图像对应第三图像风格,第二样本图像对应第四图像风格;
基于第一样本图像对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为文字识别模型;
其中,初始神经网络模型包括级联的第一风格转换网络和文字识别网络,第一风格转换网络用于将输入图像转换为第四图像风格的图像;第一风格转换网络的输入包括第一样本图像,输出包括第一图像,文字识别网络的输入包括第一图像,输出包括第一图像的文字识别结果;
损失函数包括图像损失函数和文本识别损失函数,图像损失函数包括了表征了第二样本图像和对应的第一图像之间的差异的损失函数,文本识别损失函数包括了表征了第一样本图像中的文字标注结果和对应的第一图像的文字识别结果之间的差异的损失函数;
其中,作为文字识别模型包括训练结束时的级联的第一风格转换网络和文字识别网络。
其中,文字识别模型是预先训练好的,可以对待识别图像进行风格转换,并对风格转换后的图像中的文字进行文字识别,得到文字识别结果。每个训练样本对包括第一样本图像和第二样本图像,其中,第二样本图像为第一样本图像所对应的风格转换后的图像,第一样本图像携带有文字标签,文字标签表征了第一样本图像中的文字标注结果;第一样本图像对应第三图像风格,第二样本图像对应第四图像风格。
其中,第三图像风格可以是第一图像风格,或是第二图像风格,也可以是第一图像风格和第二图像风格,第四图像风格可以是第一图像风格,或是第二图像风格,或是第一图像风格和第二图像风格。第三图像风格与第四图像风格是不同的图像风格。
其中,文字标签可以通过人工的方式进行标注,即通过人工的方式标注出图像中文字的识别结果。还可以通过其他形式得到训练样本对中样本图像的文字标签,本申请中不限定文字标签的具体实现方式。文字标签可以是字符串、文字、数字等,本申请中不限定文字标签的具体表现形式。
其中,第一图像是第四图像风格的图像。
在本申请的方案中,可以只有第一样本图像带有文字标签,也可以是第一样本图像和第二样本图像均带有文字标签,每一训练样本对中的第一样本图像和第二样本图像所对应的文字标注结果是相同的。
本申请一可选方案中,文字识别网络的输入还包括第二样本图像或第一样本图像中的至少一项;
若文字识别网络的输入包括第二样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和对应的第二样本图像的文字识别结果之间的差异的损失函数;
若文字识别网络的输入包括第一样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和第一样本图像的文字识别结果之间的差异的损失函数。
其中,在训练初始神经网络模型时,还可以将第二样本图像或第一样本图像,以使得训练得到的文本识别网络可以准确的对图像中的文字进行文字识别。
本申请一可选方案中,初始神经网络模型还包括第二风格转换网络,第二风格转换网络用于将输入图像转换为第三图像风格的图像,第二风格转换网络的输入包括第二样本图像,输出包括第二图像;
图像损失函数还包括表征了第一样本图像与第二图像之间的差异的损失函数。
其中,第二风格转换网络可以将第四图像风格的图像转换为第三图像风格的图像,通过第二风格转换网络将第二样本图像转换为第三图像风格的第二图像,第一样本图像与第二图像之间的差异越小,表示第二图像的图像风格与第一样本图像的图像风格越接近,说明第一风格转换网络可以准确的将第四图像风格的图像转换为第三图像风格的图像。
本申请一可选方案中,第一风格转换网络的输入还包括第二样本图像,输出还包括第三图像,损失函数还包括不变性损失函数,不变性损失函数包括表征了第二样本图像和第三图像之间的差异的损失函数;
和/或,
第二风格转换网络的输入还包括第一样本图像,输出还包括第四图像;不变性损失函数包括表征了第一样本图像和第四图像之间的差异的损失函数。
其中,第三图像为第四图像风格的图像,不变性损失函数表征了第二样本图像与第三图像之间的差异,差异越小,表明第二样本图像与第三图像之间图像风格越接近,从另一方面说明第一风格转换网络可以准确的将第四图像风格的图像转换为第三图像风格的图像。
同理,第四图像为第三图像风格的图像,不变性损失函数包括表征了第一样本图像和第四图像之间的差异,差异越小,表明第一样本图像与第四图像之间图像风格越接近,从另一方面说明第二风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像。
本申请一可选方案中,文字识别网络的输入还包括第二图像,输出还包括第二图像的文字识别结果;
文本识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第二图像的文字识别结果之间的差异的损失函数。
其中,文字识别网络还可以包括第二图像,基于第二图像以及第二图像的文字识别结果可以使得训练的文字识别网络准确的对图像中的文字进行文字识别,提高文字识别网络的精度。
本申请一可选方案中,文字识别模型还包括第一判别网络或第二判别网络中的至少一项,第一判别网络的输入为第三图像风格的图像,输出为用于表征所输入的图像是第一样本图像或第一风格转换网络生成的图像的信息,第二判别网络的输入为第四图像风格的图像,输出为用于表征所输入的图像是第二样本图像或第二风格转换网络生成的图像;
第一判别网络的输入包括第一样本图像和第二图像,第二判别网络的输入为第二样本图像和第一图像;
损失函数还包括判别损失函数,判别损失函数表征了所判别网络的风格判别损失。
其中,第一判别网络用于判别输入至该网络的图像是第一样本图像还是第一风格转换网络生成的图像。第二判别网络用于判别输入至该网络的图像是第二样本图像还是第二风格转换网络生成的图像。
其中,风格判别损失越小,表明对应的判别网络可以准确的区分出哪些是风格转换网络生成的图像,哪些是样本图像。
风格判别损失反映了判别网络判别图像风格的准确性,损失越小,准确性相对应越高。输入的图像不同(一个或两个),判别损失函数的构成也会不同。在训练过程中,风格判别损失可以选择概率的负对数。
在本申请的可选方案中,判别网络具体可以是第一判别网络和/或第二判别网络,具体可以基于实际网络配置。
其中,判别网络仅在初始神经网络模型训练时使用,不作为文字识别模型。
本申请一可选方案中,第二风格转换网络的输入还包括第一图像,输出还包括第五图像,损失函数还包括循环一致损失函数,循环一致损失函数包括表征了第一样本图像与第五图像之间的差异的损失函数;
和/或,
第一图像风格转换网络的输入还包括第二图像,输出还包括第六图像,循环一致损失函数包括表征了第二样本图像与第六图像之间的差异的损失函数。
其中,第五图像为第三图像风格的图像,循环一致损失函数表征了第一样本图像与第五图像之间的差异,损失函数越小,表示第五图像与第一样本图像之间的差异越小,风格越接近,第一图像风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像,第二图像风格转换网络可以准确将第四图像风格的图像转换为第三图像风格的图像。
同理,第六图像为第四图像风格的图像,循环一致损失函数还表征了第二样本图像与第六图像之间的差异,损失函数越小,表示第六图像与第二样本图像之间的差异越小,风格越接近,从另一方面,说明了第一图像风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像,第二图像风格转换网络可以准确将第四图像风格的图像转换为第三图像风格的图像。
本申请一可选方案中,文字识别网络的输入还包括第五图像,输出还包括第五图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数;
和/或,
文字识别网络的输入还包括第六图像,输出还包括第六图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数。
其中,在训练文字识别网络时,文字识别网络的输入还可以包括第五图像和第六图像中的至少一项,相应地,文本识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数;或第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数。以使得训练的文本识别网络的精度更高。
本申请一可选方案中,若训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,第一样本图像中的文字标签是通过以下方式确定的:
获取第一样本图像以及第一样本图像的字符标签,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;
按照第一样本图像中文字的书写规则,基于字符标签生成文字标签。
其中,元音附标型文字是一类以辅音字母为主体、元音以附加符号形式标出的表音文字。一个元音附标型文字中可以由多个字符组成,对于元音附标型文字,通常采用人工的方式确定样本图像的文字标签,这样会浪费大量的人力,在本申请的方案中,以第一样本图像的文字标签为例,第一样本图像的文字标签可以通过以下方式确定:获取第一样本图像以及第一样本图像的字符标签,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;按照第一样本图像中文字的书写规则,基于字符标签生成文字结果,基于文字结果生成文字标签。
其中,字符标签指的是文字按照字符进行标注对应得到的标签,一个字符对应一个字符标签,如果一个文字由两个字符,则这个文字对应有两个字符标签。在确定了第一样本图像的字符标签后,可以按照文字的书写规则,即文字中各字符的组成顺序,比如,上下结构,左右结构等。则可按照每个文字的书写规则,将每个文字对应的字符组成一个文字,即基于每个文字的字符标签可以生成对应的文字标签,该文字标签表征了样本图像中的每个待识别文字的文字标注结果,通过该文字标签可以反应出对应文字的书写规则。
其中,字符标签可以是人工标注的,也可以是基于其他方式确定的,本申请中不限定字符标签的确定方式。
本申请的一可选方案中,元音附标型文字包括藏文或泰文中的至少一项。
作为一个示例,如图3中所示的藏文的一个音节的示意图,音节为藏文的一个基本表意单位,一个藏文围绕着基字展开,分别由位于基字前后方向的“前加字”、“后加字”和“再后加字”,以及位于基字上下方向上的“上加字”、“上元音”、“下加字”和“下元音”组成,其中,“加字”皆为辅音字母。
根据上述可知,与中英文书写系统中将基本的字符单位进行横向排列不同,藏文的书写存在着明显的局部纵向排列。如图4所示的藏文对应的字符标签和文字标签示意图,在计算机系统中,藏文按照书写顺序将字母排成一个序列用以存储,我们将此称之为字符标签(char-levellabel,也可称之为字符级别的标签)。本申请在字符级别标签的基础上,将“基字”、“上加字”、“上元音”、“下加字”和“下元音”按照原先的书写规则组合成为一个整体,称之为一个文字标签(也可称之为堆标签,stack-levellabel)。对于“前加字”、“后加字”和“再后加字”,因为在纵向维度的分布上,他们所处的位置仅包含本身的辅音字母,因此标签保持不变。我们把这样一个重新组合后的标签序列称为堆级别标签(stack-levellabel)。
本申请的一可选方案中,该方法还包括:
将第一样本图像中的文字或背景中的至少一项进行风格转换,得到第四图像风格的第二样本图像。
其中,第一样本图像是第三图像风格的图像,第二样本图像是第四图像风格的图像,第二样本图像可以是对第一样本图像中的文字或背景中的至少一项进行风格转换得到的图像。具体转换方式可如前文所描述的对待识别图像中的文字或背景中的至少一项进行风格转换相同,在此不再赘述。
在本申请的方案中,样本图像的高被归一化,比如32像素,样本图像的宽等比例缩放。对于生成网络(ga,gb)而言,其包含了两个步长为2的卷积层,9个残差块和两个反卷积层。判别网络(da,db)通过5组卷积层将图像提取为一个维度为(1,2,w)的特征向量。基于该特征向量,可以得到样本图像的图像信息,该图像信息可以表征该样本图像是风格转换网络生成的图像还是样本图像。其中,1表示通道数,2表示图像的高,w表示图像的宽。
文本识别网络首先使用卷积神经网络来提取图像特征,再通过循环神经网络来提取特征序列。模型在训练时使用adam优化器进行微调,优化器的一阶矩和二阶矩衰减率分别设置为0.5和0.999,初始学习率为0.0002,经过1个epoch(迭代次数)之后,学习率开始下降。mini-batch(小批量随机梯度下降)的大小设定为8,mini-batch的主要意义是为了加速训练,即每个mini-batch中包括8个训练样本的个数。并采用分桶策略将宽相近的图像分在一个batch。其中,1个epoch等于使用训练集中的全部样本训练一次;一个epoch=所有训练样本的一个正向传递和一个反向传递。
在本申请的方案中,文本识别模型的性能评价采用准确率(accuracy)和字错率(charactererrorrate):其中,准确率=识别正确的样本数/测试样本总数;字错率=所有样本识别结果与标签的编辑距离之和/所有测试样本中的字符总数。基于准确率和字错率确定训练的文本识别模型是否达到训练精度,即是否可准确对文字进行文字识别。
下面结合具体示例对本申请的文本识别模型的训练过程进行详细描述,具体方案如下:
首先,获取训练样本对,每个训练样本对包括第一样本图像reala和第二样本图像realb,第一样本图像对应第三图像风格(场景a)第二样本图像对应第四图像风格(场景b)。在本示例中,以训练样本对中的图像中的文字为藏文为例。
确定第一样本图像reala的文字标签,具体为:获取第一样本图像以及第一样本图像的字符标签char-levellabel,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;按照第一样本图像中文字的书写规则,基于字符标签生成文字结果,基于文字结果生成文字标签stack-levellabel。
然后,基于第一样本图像reala对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为文字识别模型。
如图5示的初始神经网络的网络结构示意图,初始神经网络模型包括级联的第一支路的第一风格转换网络ga、第二风格转换网络gb和文字识别网络textrecognizer,级联的第二支路的第二风格转换网gb和第一风格转换网络ga,以及第一判别网络da和第二判别网络db。
其中,第一风格转换网络ga用于将输入图像转换为第四图像风格(场景b)的图像;第二风格转换网络gb用于将输入图像转换为第三图像风格(场景a)的图像。第一判别网络da用来将场景a的图像转化为场景b的图像,第二判别网络db用来将场景b的图像转化为场景a的图像。da用来判断输入的图像是否属于场景a,即输入图像是否为样本图像;db用来判断输入的图像是否属于场景b,即输入图像是否为风格转换网络生成的图像。
第一风格转换网络ga的输入可以包括第一样本图像reala,输出包括第一图像fakeb,reala首先经过ga生成一张具有场景b风格的图像,记为第一图像fakeb,fakeb再通过gb生成原来具有场景a风格的图像,记为第五图像reca。同理,第二样本图像realb也依次经由gb和ga,分别生成第二图像fakea和第六图像recb。reala、fakea、realb、fakeb分别输入到da和db,并判断输入图像是否为样本图像或风格转换网络生成的图像,以此形成对抗训练。
如图6所示的初始神经网络的网络结构示意图,基于初始神经网络中的文本识别网络textrecognizer,该网络的输入为reala、fakea、reca、realb、fakeb、recb中的至少一项,文本识别网络用来预测对应图像中的文本识别结果(文本预测结果),并使用对应的文本标注结果来进行监督训练。
在本示例中,第一样本图像reala在经过第一图像风格转化网络ga转换后得到第一图像fakeb,fakeb经过第二判别网络db,db用来判断输入的图像是否属于场景b,即判断fakeb是否为场景b的图像,在判断fakeb是属于场景b的图像时,则表示经过第一图像风格转化网络ga可以得到与场景b相似或相同的图像realb,此时,该训练好的神经网络的性能较好,达到了预先设定的训练精度。
realb经过第二图像风格转化网络gb转换后得到第二图像fakea,第二图像fakea在经过文本识别网络识别后,可基于该第二图像的文字识别结果对初始神经网络进行监督训练,以使得在经过风格转换后的图像仍可得到准确的文字识别结果。
可以理解的是,初始神经网络可以不包括判别网络,初始神经网络可以是卷积神经网络cnn(convolutionalneuralnetworks)等。
损失函数包括图像损失函数和文本识别损失函数,其中,图像损失函数可以包括:表征了第二样本图像和对应的第一图像之间的差异的损失函数
其中,该图像损失函数可以称之为生成损失,生成损失如下:
图像损失函数
其中,ganloss(feature,label)是生成对抗损失函数,gan(generativeadversarialnetwork,生成判别网络),其输入为一个特征向量(feature)和对应的标签(label),标签表示对应的样本图像的风格,比如,第一图像fakeb有对应的标签,该标签标注第一图像的风格为场景b。生成对抗损失函数的输出为将特征判断为其对应标签的概率。生成损失的目标是使判别器不能正常地区分出合成数据(风格转换网络生成的图像),而判别损失的目标是尽可能地正常区分样本图像是来自真实场景(样本图像)或风格转化网络。在训练时,可以取概率的负对数以最小化损失函数。
其中,判别损失函数如下:
判别损失函数可以包括第一判别损失函数
其中,输入第一判别网络的图像可以包括第二图像fakea和第一样本图像reala中的至少一项,第二图像fakea在经过第一判别网络验证后,第二图像fakea是风格转换网络生成的图像,且第一样本图像reala在经过第一判别网络验证后,第一样本图像是样本图像,则可以说明第一判别网络可以用来准确判断输入至该网络的图像是风格转换网络生成的图像还是样本图像。
在输入第一判别网络的图像包括第二图像fakea和第一样本图像reala时,可以通过第二图像fakea对应的第一判别损失函数和第一样本图像reala对应的第一判别损失函数来表征第一判别网络对应的第一判别损失函数
第二判别损失函数
其中,输入第二判别网络的图像可以包括第一图像fakeb和第二样本图像realb中的至少一项,第一图像fakeb在经过第二判别网络验证后,第一图像fakeb是风格转换网络生成的图像,第二样本图像realb是样本图像,则可以说明第二判别网络可以用来准确判断输入至该网络的图像是风格转换网络生成的图像还是样本图像。
同样的,在输入第二判别网络的图像包括第一图像fakeb和第二样本图像realb时,可以通过第一图像fakeb对应的第二判别损失函数和第二样本图像realb对应的第二判别损失函数来表征第二判别网络对应的第二判别损失函数
在本示例中,损失函数还可以包括循环一致性损失,其中,循环一致性损失如下:
其中,λa,λb和λidt为可调节参数,l1(·)是平均绝对误差损失函数。
循环一致性损失lcyca表征了第一样本图像与第五图像reca之间的差异,损失函数越小,表示第五图像与第一样本图像之间的差异越小,风格越接近,第一图像风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像,第二图像风格转换网络可以准确将第四图像风格的图像转换为第三图像风格的图像。保证了风格转化前后图像风格(场景a)的一致性。
循环一致性损失lcycb表征了第二样本图像realb与第六图像recb之间的差异,损失函数越小,表示第六图像recb与第二样本图像之间的差异越小,风格越接近,从另一方面,说明了第一图像风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像,第二图像风格转换网络可以准确将第四图像风格的图像转换为第三图像风格的图像,保证了风格转化前后图像风格(场景b)的一致性。
损失函数还包括不变性损失函数,其中,不变性损失函数如下:
不变性损失函数lidta表征了第二样本图像和第三图像之间的差异;第三图像是第二样本图像经过第一风格转换网络转换后得到的图像,差异越小,表明第二样本图像与第三图像之间图像风格越接近,从另一方面说明第一风格转换网络可以准确的将第四图像风格的图像转换为第三图像风格的图像,不会转化为其他场景的图像,体现了通过第一风格转换网络转化的图像的风格不变性。
不变性损失函数lidtb表征了第一样本图像和第四图像之间的差异,第四图像是第一样本图像经过第二风格转换网络转换后得到的图像,差异越小,表明第一样本图像与第四图像之间图像风格越接近,从另一方面说明第二风格转换网络可以准确的将第三图像风格的图像转换为第四图像风格的图像,不会转化为其他场景的图像,体现了通过第二风格转换网络转化的图像的风格不变性。
文本识别损失函数包括了表征了第一样本图像中的文字标注结果和对应的第一图像的文字识别结果之间的差异的损失函数ctcloss(fakeb),第一样本图像中的文字标注结果和对应的第二样本图像的文字识别结果之间的差异的损失函数ctcloss(realb),第一样本图像中的文字标注结果和第一样本图像的文字识别结果之间的差异的损失函数ctcloss(reala),第一样本图像的文字标注结果和对应的第二图像的文字识别结果之间的差异的损失函数ctcloss(fakea),第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数ctcloss(reca),第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数ctcloss(recb)。
其中,文本识别损失函数lctc可以表示如下:
其中,ctcloss(·)表示文本识别中的ctc(connectionisttemporalclassification,基于神经网络的时序类分类)损失函数。
文本识别损失函数lctc用于表征文本识别网络的输入图像中每个图像对应的文本识别结果与对应的文字标注结果之间的差异程度。在文本识别损失函数lctc中,如果文本识别网络的输入图像中每个图像对应的文本识别结果与对应的文字标注结果之间的差异程度满足第五设定条件,比如,小于第五阈值,则表示通过文本识别网络对图像中的文本进行文本识别的精度较好,满足实际需求。其中,文本识别网络的输入图像可以包括为reala、fakea、reca、realb、fakeb、recb中的至少一项。可以理解的是,如果文本识别网络的输入图像中包括至少两个图像,则可为每个图像对应的文本识别损失函数配置对应的权重,通过权重来确定每个图像对应的文本识别损失函数的重要程度,权重越大,表示对应的损失函数越重要。
基于上述的几个文本识别损失函数,初始神经网络的文本识别损失函数可以包括上述至少一个,如果包括多个时,也可基于上述方式为每个权重配置对应的权重。
其中,作为文字识别模型包括训练结束时的级联的第一风格转换网络和文字识别网络。
基于与图1中所示的方法相同的原理,本申请实施例还提供了一种文字识别装置20,如图7中所示,该文字识别装置20可以包括图像获取模块210,风格转换模块220和文字识别模块230,其中:
图像获取模块210,用于获取待识别图像;
风格转换模块220,用于基于待识别图像,对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像;
其中,若对待识别图像中的文字和背景均进行风格转换,转换后的文字对应的风格与背景对应的风格不同;
文字识别模块230,用于对转换后的图像中的文字进行文字识别,得到文字识别结果。
本申请实施例的方案,在对待识别图像中的文字进行文字识别之前,先对待识别图像中的文字或背景中的至少一项进行风格转换,且在同时对待识别图像中的文字和背景进行风格转换时,转换后的文字对应的风格与转换后的背景对应的风格不同,使得转换后的图像中文字和背景可以明显的进行区分,从而在对转换后的图像中的文字进行文字识别时,由于转换后的图像中文字的风格与背景的风格不同,可以更加容易、准确的区分出图像中的文字,并且,转换后的图像相较于待识别图像的风格相对简单、规则、统一,从而可更加准确地对图像中的文字进行文字识别,得到更加准确的文字识别结果。
可选的,风格转换模块220在对待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像时,具体用于:
对待识别图像的文字进行第一图像风格的转换,对待识别图像的背景进行第二图像风格的转换,得到转换后的图像;
其中,第一图像风格为黑色字体,第二图像风格为白色背景。
可选的,文字识别模块230在对转换后的图像中的文字进行文字识别,得到文字识别结果时,具体用于:
提取转换后的图像的图像特征;
基于图像特征,采用循环神经网络得到文字识别结果。
可选的,对待识别图像进行风格转换,以及对转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个训练样本对包括第一样本图像和第二样本图像,其中,第二样本图像为第一样本图像所对应的风格转换后的图像,第一样本图像携带有文字标签,文字标签表征了第一样本图像中的文字标注结果;第一样本图像对应第三图像风格,第二样本图像对应第四图像风格;
基于第一样本图像对初始神经网络模型进行训练,直至初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为文字识别模型;
其中,初始神经网络模型包括级联的第一风格转换网络和文字识别网络,第一风格转换网络用于将输入图像转换为第四图像风格的图像;第一风格转换网络的输入包括第一样本图像,输出包括第一图像,文字识别网络的输入包括第一图像,输出包括第一图像的文字识别结果;
损失函数包括图像损失函数和文本识别损失函数,图像损失函数包括了表征了第二样本图像和对应的第一图像之间的差异的损失函数,文本识别损失函数包括了表征了第一样本图像中的文字标注结果和对应的第一图像的文字识别结果之间的差异的损失函数;
其中,作为文字识别模型包括训练结束时的级联的第一风格转换网络和文字识别网络。
可选的,文字识别网络的输入还包括第二样本图像或第一样本图像中的至少一项;
若文字识别网络的输入包括第二样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和对应的第二样本图像的文字识别结果之间的差异的损失函数;
若文字识别网络的输入包括第一样本图像,文本识别损失函数还包括表征了第一样本图像中的文字标注结果和第一样本图像的文字识别结果之间的差异的损失函数。
可选的,初始神经网络模型还包括第二风格转换网络,第二风格转换网络用于将输入图像转换为第三图像风格的图像,第二风格转换网络的输入包括第二样本图像,输出包括第二图像;
图像损失函数还包括表征了第一样本图像与第二图像之间的差异的损失函数。
可选的,第一风格转换网络的输入还包括第二样本图像,输出还包括第三图像,损失函数还包括不变性损失函数,不变性损失函数包括表征了第二样本图像和第三图像之间的差异的损失函数;
和/或,
第二风格转换网络的输入还包括第一样本图像,输出还包括第四图像;不变性损失函数包括表征了第一样本图像和第四图像之间的差异的损失函数。
可选的,文字识别网络的输入还包括第二图像,输出还包括第二图像的文字识别结果;
文本识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第二图像的文字识别结果之间的差异的损失函数。
可选的,文字识别模型还包括第一判别网络或第二判别网络中的至少一项,第一判别网络的输入为第三图像风格的图像,输出为用于表征所输入的图像是第一样本图像或第一风格转换网络生成的图像的信息,第二判别网络的输入为第四图像风格的图像,输出为用于表征所输入的图像是第二样本图像或第二风格转换网络生成的图像;
第一判别网络的输入包括第一样本图像和第二图像,第二判别网络的输入为第二样本图像和第一图像;
损失函数还包括判别损失函数,判别损失函数表征了所判别网络的风格判别损失。
可选的,第二风格转换网络的输入还包括第一图像,输出还包括第五图像,损失函数还包括循环一致损失函数,循环一致损失函数包括表征了第一样本图像与第五图像之间的差异的损失函数;
和/或,
第一图像风格转换网络的输入还包括第二图像,输出还包括第六图像,循环一致损失函数包括表征了第二样本图像与第六图像之间的差异的损失函数。
可选的,文字识别网络的输入还包括第五图像,输出还包括第五图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第五图像的文字识别结果之间的差异的损失函数;
和/或,
文字识别网络的输入还包括第六图像,输出还包括第六图像的文字识别结果,文字识别损失函数还包括表征了第一样本图像的文字标注结果和对应的第六图像的文字识别结果之间的差异的损失函数。
可选的,若训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,第一样本图像中的文字标签是通过以下方式确定的:
获取第一样本图像以及第一样本图像的字符标签,一个字符标签表征了第一样本图像中待识别文字对应的一个字符;
按照第一样本图像中文字的书写规则,基于字符标签生成文字标签。
可选的,元音附标型文字包括藏文或泰文中的至少一项。
可选的,该装置还包括:
第二样本图像确定模块,用于将第一样本图像中的文字或背景中的至少一项进行风格转换,得到第四图像风格的第二样本图像。
由于本申请实施例所提供的文字识别装置为可以执行本申请实施例中的文字识别方法的装置,故而基于本申请实施例中所提供的文字识别方法,本领域所属技术人员能够了解本申请实施例的文字识别装置的具体实施方式以及其各种变化形式,所以在此对于该文字识别装置如何实现本申请实施例中的文字识别方法不再详细介绍。只要本领域所属技术人员实施本申请实施例中的文字识别方法所采用的文字识别装置,都属于本申请所欲保护的范围。
基于与本申请实施例所提供的文字识别方法和文字识别装置相同的原理,本申请实施例还提供了一种电子设备,该电子设备可以包括处理器和存储器。其中,存储器中存储有可读指令,可读指令由处理器加载并执行时,可以实现本申请任一实施例中所示的方法。
作为一个示例,图8中示出了本申请实施例的方案所适用的一种电子设备4000的结构示意图,如图8所示,该电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本申请实施例的限定。
处理器4001可以是cpu(centralprocessingunit,中央处理器),通用处理器,dsp(digitalsignalprocessor,数据信号处理器),asic(applicationspecificintegratedcircuit,专用集成电路),fpga(fieldprogrammablegatearray,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本申请公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheralcomponentinterconnect,外设部件互连标准)总线或eisa(extendedindustrystandardarchitecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器4003可以是rom(readonlymemory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(randomaccessmemory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electricallyerasableprogrammablereadonlymemory,电可擦可编程只读存储器)、cd-rom(compactdiscreadonlymemory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。
存储器4003用于存储执行本申请方案的应用程序代码,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的应用程序代码,以实现前述任一方法实施例所示的内容。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。
1.一种文字识别方法,其特征在于,包括:
获取待识别图像;
基于所述待识别图像,对所述待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,其中,若对所述待识别图像中的文字和背景均进行风格转换,转换后的所述文字对应的风格与所述背景对应的风格不同;
对所述转换后的图像中进行文字识别,得到文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像,包括:
对所述待识别图像的文字进行第一图像风格的转换,对所述待识别图像的背景进行第二图像风格的转换,得到所述转换后的图像;
其中,所述第一图像风格为黑色字体,所述第二图像风格为白色背景。
3.根据权利要求1所述的方法,其特征在于,所述对所述转换后的图像中的文字进行文字识别,得到文字识别结果,包括:
提取所述转换后的图像的图像特征;
基于所述图像特征,采用循环神经网络得到所述文字识别结果。
4.根据权利要求1所述的方法,其特征在于,对所述待识别图像进行风格转换,以及对所述转换后的图像中的文字进行文字识别,是通过文字识别模型得到的;
其中,所述文字识别模型是基于以下方式训练得到的:
获取训练样本对,每个所述训练样本对包括第一样本图像和第二样本图像,其中,所述第二样本图像为所述第一样本图像所对应的风格转换后的图像,所述第一样本图像携带有文字标签,所述文字标签表征了所述第一样本图像中的文字标注结果;所述第一样本图像对应第三图像风格,所述第二样本图像对应第四图像风格;
基于所述第一样本图像对初始神经网络模型进行训练,直至所述初始神经网络模型的损失函数收敛,将训练结束时的初始神经网络模型作为所述文字识别模型;
其中,所述初始神经网络模型包括级联的第一风格转换网络和文字识别网络,所述第一风格转换网络用于将输入图像转换为所述第四图像风格的图像;所述第一风格转换网络的输入包括所述第一样本图像,输出包括第一图像,所述文字识别网络的输入包括所述第一图像,输出包括所述第一图像的文字识别结果;
所述损失函数包括图像损失函数和文本识别损失函数,所述图像损失函数包括了表征了所述第二样本图像和对应的所述第一图像之间的差异的损失函数,所述文本识别损失函数包括了表征了所述第一样本图像中的文字标注结果和对应的所述第一图像的文字识别结果之间的差异的损失函数;
其中,作为所述文字识别模型包括训练结束时的所述级联的所述第一风格转换网络和所述文字识别网络。
5.根据权利要求4所述的方法,其特征在于,所述文字识别网络的输入还包括所述第二样本图像或所述第一样本图像中的至少一项;
若所述文字识别网络的输入包括所述第二样本图像,所述文本识别损失函数还包括表征了所述第一样本图像中的文字标注结果和对应的所述第二样本图像的文字识别结果之间的差异的损失函数;
若所述文字识别网络的输入包括所述第一样本图像,所述文本识别损失函数还包括表征了所述第一样本图像中的文字标注结果和所述第一样本图像的文字识别结果之间的差异的损失函数。
6.根据权利要求4或5所述的方法,其特征在于,所述初始神经网络模型还包括第二风格转换网络,所述第二风格转换网络用于将输入图像转换为所述第三图像风格的图像,所述第二风格转换网络的输入包括所述第二样本图像,输出包括第二图像;
所述图像损失函数还包括表征了所述第一样本图像与所述第二图像之间的差异的损失函数。
7.根据权利要求6所述的方法,其特征在于,所述第一风格转换网络的输入还包括所述第二样本图像,输出还包括第三图像,所述损失函数还包括不变性损失函数,所述不变性损失函数包括表征了所述第二样本图像和所述第三图像之间的差异的损失函数;
和/或,
所述第二风格转换网络的输入还包括所述第一样本图像,输出还包括第四图像;所述不变性损失函数包括表征了所述第一样本图像和所述第四图像之间的差异的损失函数。
8.根据权利要求6所述的方法,其特征在于,所述文字识别网络的输入还包括所述第二图像,输出还包括所述第二图像的文字识别结果;
所述文本识别损失函数还包括表征了所述第一样本图像的文字标注结果和对应的所述第二图像的文字识别结果之间的差异的损失函数。
9.根据权利要求6所述的方法,其特征在于,所述文字识别模型还包括第一判别网络或第二判别网络中的至少一项,所述第一判别网络的输入为第三图像风格的图像,输出为用于表征所输入的图像是所述第一样本图像或所述第一风格转换网络生成的图像的信息,所述第二判别网络的输入为第四图像风格的图像,输出为用于表征所输入的图像是所述第二样本图像或所述第二风格转换网络生成的图像;
所述第一判别网络的输入包括所述第一样本图像和所述第二图像,所述第二判别网络的输入为所述第二样本图像和所述第一图像;
所述损失函数还包括判别损失函数,所述判别损失函数表征了所判别网络的风格判别损失。
10.根据权利要求6所述的方法,其特征在于,
所述第二风格转换网络的输入还包括所述第一图像,输出还包括第五图像,所述损失函数还包括循环一致损失函数,所述循环一致损失函数包括表征了所述第一样本图像与所述第五图像之间的差异的损失函数;
和/或,
所述第一图像风格转换网络的输入还包括所述第二图像,输出还包括第六图像,所述循环一致损失函数包括表征了所述第二样本图像与所述第六图像之间的差异的损失函数。
11.根据权利要求10所述的方法,其特征在于,所述文字识别网络的输入还包括所述第五图像,输出还包括所述第五图像的文字识别结果,所述文字识别损失函数还包括表征了所述第一样本图像的文字标注结果和对应的所述第五图像的文字识别结果之间的差异的损失函数;
和/或,
所述文字识别网络的输入还包括所述第六图像,输出还包括所述第六图像的文字识别结果,所述文字识别损失函数还包括表征了所述第一样本图像的文字标注结果和对应的所述第六图像的文字识别结果之间的差异的损失函数。
12.根据权利要求4所述的方法,其特征在于,若所述训练样本对中的文字为元音附标型文字,每个文字由至少一个字符组成,所述第一样本图像中的文字标签是通过以下方式确定的:
获取所述第一样本图像以及所述第一样本图像的字符标签,一个字符标签表征了所述第一样本图像中待识别文字对应的一个字符;
按照所述第一样本图像中文字的书写规则,基于所述字符标签生成文字标签。
13.根据权利要求12所述的方法,其特征在于,所述元音附标型文字包括藏文或泰文中的至少一项。
14.根据权利要求4所述的方法,其特征在于,所述方法还包括:
将所述第一样本图像中的文字或背景中的至少一项进行风格转换,得到所述第四图像风格的所述第二样本图像。
15.一种文字识别装置,其特征在于,包括:
图像获取模块,用于获取待识别图像;
风格转换模块,用于基于所述待识别图像,对所述待识别图像中的文字或背景中的至少一项进行风格转换,得到转换后的图像;
其中,若对所述待识别图像中的文字和背景均进行风格转换,转换后的所述文字对应的风格与所述背景对应的风格不同;
文字识别模块,用于对所述转换后的图像中进行文字识别,得到文字识别结果。
技术总结