半监督场景文本识别方法、系统、设备及存储介质

专利2026-02-13 23

本发明涉及场景文本识别，尤其涉及一种半监督场景文本识别方法、系统、设备及存储介质。

背景技术：

1、场景文本识别算法旨在从裁剪后的文本图像中识别出文本内容，并将其转化为计算机可读的字符串序列。场景文本识别作为一项基础任务，可以为理解自然场景提供辅助信息，在金融系统、自动驾驶和虚拟现实等领域中有着广泛的应用。

2、由于有标注图像数据难以获取，目前大多数基于深度学习的场景文本识别算法都使用合成数据集训练，然而，合成数据集中的文本图像几乎都是简单的样本，即字符风格比较规律、背景单一，导致在这些数据上训练的模型难以在复杂的真实场景中有不错的表现，尤其是对于艺术字和具有严重形变的字符难以正确识别。

3、由于无标注的真实场景文本数据容易获取，一些场景文本识别方法采用大规模无标注图像数据预训练的方法，或者使用半监督学习模型来同时使用无标注和有标注图像数据来提高模型的识别精度，但是只是简单的引入更多的无标注图像数据而忽略了字符形态特征，导致这些方法在困难的场景下依旧难以取得不错的性能。

4、有鉴于此，特提出本发明。

技术实现思路

1、本发明的目的是提供一种半监督场景文本识别方法、系统、设备及存储介质，可以实现对复杂场景文本的准确识别。

2、本发明的目的是通过以下技术方案实现的：

3、一种半监督场景文本识别方法，包括：

4、构建基于均值教师架构的半监督场景文本识别模型，包括：学生模型与教师模型；

5、使用无标注图像数据与有标注图像数据训练所述半监督场景文本识别模型，包括：对于有标注图像数据，通过学生模型预测出文本识别结果、字符级的特征序列以及预测概率分布，并根据有标注图像数据的标签生成字符方向统一，且字符风格多样的新图像样本后通过教师模型预测出字符级的特征序列以及预测概率分布，且通过学生模型预测出文本识别结果；对于无标注图像数据，通过学生模型与教师模型各自预测出字符级的特征序列以及预测概率分布，同时，还通过教师模型预测出文本识别结果及对应的置信度得分；结合有标注图像数据中的标签以及学生模型预测的文本识别结果计算识别损失，利用学生模型与教师模型的预测概率分布计算字符级一致性正则化损失，利用学生模型与教师模型的字符级的特征序列、教师模型预测出文本识别结果及对应的置信度得分计算字符单向对齐损失，基于计算出的所有损失对学生模型进行训练；

6、训练完毕后，将待识别的场景文本输入至训练后的学生模型，预测出文本识别结果。

7、一种半监督场景文本识别系统，包括：

8、模型构建单元，用于构建基于均值教师架构的半监督场景文本识别模型，包括：学生模型与教师模型；

9、模型训练单元，用于使用无标注图像数据与有标注图像数据训练所述半监督场景文本识别模型，包括：对于有标注图像数据，通过学生模型预测出文本识别结果、字符级的特征序列以及预测概率分布，并根据有标注图像数据的标签生成字符方向统一，且字符风格多样的新图像样本后通过教师模型预测出字符级的特征序列以及预测概率分布，且通过学生模型预测出文本识别结果；对于无标注图像数据，通过学生模型与教师模型各自预测出字符级的特征序列以及预测概率分布，同时，还通过教师模型预测出文本识别结果及对应的置信度得分；结合有标注图像数据中的标签以及学生模型预测的文本识别结果计算识别损失，利用学生模型与教师模型的预测概率分布计算字符级一致性正则化损失，利用学生模型与教师模型的字符级的特征序列、教师模型预测出文本识别结果及对应的置信度得分计算字符单向对齐损失，基于计算出的所有损失对学生模型进行训练；

10、场景文本识别单元，用于训练完毕后，将待识别的场景文本输入至训练后的学生模型，预测出文本识别结果。

11、一种处理设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

12、其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现前述的方法。

13、一种可读存储介质，存储有计算机程序，当计算机程序被处理器执行时实现前述的方法。

14、由上述本发明提供的技术方案可以看出，关注了字符形态特征，通过采用半监督学习的场景文本识别框架，同时使用简单的合成数据（有标注的图像数据）和无标注的图像数据进行训练，并且通过对文本图像字符形式进行统一化，降低了困难样本的识别难度，其次提出复杂样本在线生成策略和字符单向对齐损失，使得模型能够对具有背景噪声和复杂字符形态的文本图像提取纯净有效的字符特征，进而实现仅从简单的合成训练数据集中泛化出识别复杂文本的能力。大量的实验证明了本发明的性能优于之前的方法，能够以较少的模型参数量和较快的推理速度对困难文本图像进行准确地识别。

技术特征：

1.一种半监督场景文本识别方法，其特征在于，包括：

2.根据权利要求1所述的一种半监督场景文本识别方法，其特征在于，所述学生模型包括：学生编码器、学生解码器、投影层、学生线性层与学生分类器；

3.根据权利要求1所述的一种半监督场景文本识别方法，其特征在于，所述教师模型包括：教师编码器、教师解码器、教师线性层与教师分类器；

4.根据权利要求1所述的一种半监督场景文本识别方法，其特征在于，所述根据有标注图像数据的标签生成字符方向统一，且字符风格多样的新图像样本包括：

5.根据权利要求1所述的一种半监督场景文本识别方法，其特征在于，还包括：训练所述半监督场景文本识别模型时，对图像数据进行增广操作；

6.根据权利要求5所述的一种半监督场景文本识别方法，其特征在于，所述利用学生模型与教师模型的预测概率分布计算字符级一致性正则化损失包括：

7.根据权利要求5所述的一种半监督场景文本识别方法，其特征在于，所述利用学生模型与教师模型的字符级的特征序列、教师模型预测出文本识别结果及对应的置信度得分计算字符单向对齐损失包括：

8.一种半监督场景文本识别系统，其特征在于，包括：

9.一种处理设备，其特征在于，包括：一个或多个处理器；存储器，用于存储一个或多个程序；

10.一种可读存储介质，存储有计算机程序，其特征在于，当计算机程序被处理器执行时实现如权利要求1~7任一项所述的方法。

技术总结
本发明公开了一种半监督场景文本识别方法、系统、设备及存储介质，它们是一一对应的方案，方案中：关注了字符形态特征，通过采用半监督学习的场景文本识别框架，同时使用简单的合成数据（有标注的图像数据）和无标注的图像数据进行训练，并且通过对文本图像字符形式进行统一化，降低了困难样本的识别难度，其次提出复杂样本在线生成策略和字符单向对齐损失，使得模型能够对具有背景噪声和复杂字符形态的文本图像提取纯净有效的字符特征，进而实现仅从简单的合成训练数据集中泛化出识别复杂文本的能力。大量的实验证明了本发明的性能优于之前的方法，能够以较少的模型参数量和较快的推理速度对困难文本图像进行准确地识别。

技术研发人员：谢洪涛,屈亚东,张勇东,王裕鑫
受保护的技术使用者：中国科学技术大学
技术研发日：
技术公布日：2024/7/25

转载请注明原文地址: https://bbs.8miu.com/read-438397.html

专利

最新回复(0)