[发明专利]文本识别模型的训练方法、文本识别方法、装置及设备有效

申请号：	202110258666.7	申请日：	2021-03-10
公开（公告）号：	CN112633422B	公开（公告）日：	2021-06-22
发明（设计）人：	李自荐;秦勇	申请（专利权）人：	北京易真学思教育科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/00;G06N3/04;G06N3/08
代理公司：	北京鼎承知识产权代理有限公司 11551	代理人：	顾可嘉;夏华栋
地址：	102200 北京市昌平区未***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别模型训练方法装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提供一种文本识别模型的训练方法、文本识别方法、装置及设备。训练方法包括：构建初始模型；以第一文本图像数据经循环神经网络的输出为词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为词嵌入模块的另一个输入，训练初始模型获得收敛的初始模型；基于收敛的初始模型，获得文本识别模型；其中初始模型包括第一部分，用于识别图像的文本内容，第一部分具有第一卷积神经网络和循环神经网络；第二部分，用于判断给定文本是否在给定图像中，第二部分具有第二卷积神经网络和词嵌入模块；装置用于执行上述方法。本发明的训练方法可以获得具有识别速度快且能够兼顾更高的识别精度的文本识别模型。

技术领域

本发明涉及文本识别技术，尤其涉及一种文本识别模型的训练方法、文本识别方法、装置及设备。

背景技术

文本检测与识别应用范围广泛，是很多计算机视觉任务的前置步骤，比如图像搜索、身份认证和视觉导航等，文本检测的主要目的是定位文本行或字符在图像中的位置，而文本识别是将带文本行图像转录成字符串（识别其内容），文本的精准定位和准确识别既十分重要又具备挑战，因为相较于通用目标检测和识别来说，文字具有多方向、不规则形状、极端长宽比、字体、颜色、背景多样等特点，因此，往往在通用目标检测和识别上较为成功的算法无法直接迁移到文字检测中。

现有的文本识别模型和方法的识别效果受到诸多因素的影响，识别速度和识别精度难以兼得，无法满足计算机视觉任务快速发展的需求。

发明内容

为了解决上述技术问题的至少一个，本发明提供了一种文本识别模型的训练方法、文本识别方法、装置及设备。

本发明的技术方案是这样实现的：

第一方面，本发明的实施例提供了一种文本识别模型的训练方法，包括：

构建初始模型，所述初始模型包括：

第一部分，用于识别图像中的文本内容，所述第一部分具有第一卷积神经网络和循环神经网络；

第二部分，用于判断给定文本是否在给定的图像中，所述第二部分具有第二卷积神经网络和词嵌入模；

以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型；

基于所述收敛的初始模型，获得文本识别模型。

在一种实施方式中，所述以第一文本图像数据经所述循环神经网络的输出为所述词嵌入模块的字符串输入，并基于第一文本图像数据经第二部分的第二卷积神经网络后获得的第一特征图为所述词嵌入模块的另一个输入，训练所述初始模型获得收敛的初始模型，包括：

将所述第一文本图像数据输入第一部分的第一卷积神经网络和所述循环神经网络，得到字符编码矩阵；