[发明专利]一种文本识别方法与系统在审
申请号: | 202110562236.4 | 申请日: | 2021-05-21 |
公开(公告)号: | CN113283336A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 肖正;朱靖宇;宋超;王立峰 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06N3/04;G06N3/08 |
代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
地址: | 410082 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 识别 方法 系统 | ||
本发明公开了一种文本识别方法与系统,所述方法包括:获取自然场景文本图像,将所述文本图像输入文本识别模型,输出与所述文本图像对应的文本识别结果,其中,所述文本识别模型是基于待识别文本图像样本以及预先确定的文本标签进行训练后得到的,所述文本标签与所述待识别文本图像样本一一对应,所述文本识别模型包括编码器和解码器,所述编码器包括顺次连接的转换层、ResNet特征提取层以及包含第一AOA模块的优化模块层,解码器包括顺次连接的BiLSTM序列建模层、包含第二AOA模块的LSTM预测层,通过引入AOA模块,过滤掉无关或者误导的注意力结果,仅保留有用的信息,提升文本识别的准确率。
技术领域
本发明属于计算机视觉技术领域,更具体地,涉及一种文本识别方法与系统。
背景技术
自然场景中的图像蕴涵着丰富的文本信息,如何利用技术手段识别图像中的文本,从而为人们的生活提供便捷成为了目前的研究热点。
现在主流的做法是设计一个端到端、采用编码器-解码器结构的神经网络模型,来进行自然场景文本识别。在编码器-解码器架构中,编码器采用卷积神经网络对文本图像进行特征提取得到特征向量,然后经由基于RNN(Recurrent Neural Network,循环神经网络)的网络将其解码为相应的文字序列。其中,注意力机制在每个时间步生成提取的特征向量的加权平均值来指导文本识别的解码过程。
但是对于解码器而言,不知道经由注意力机制得到的信息向量是否与查询相关或者相关程度如何。在某些情况下,注意结果可能不是解码器所期望的,从而导致解码器被误导而识别为错误的文字。由于解码器采用RNN的结构,因此误导的结果还会被积累,对之后时间步的解码过程都会产生影响。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种文本识别方法与系统,其目的在于,过滤掉无关或者误导的注意力结果,由此解决文本识别不准确的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种文本识别方法,包括:
获取自然场景文本图像;
将所述文本图像输入文本识别模型,输出与所述文本图像对应的文本识别结果;
其中,所述文本识别模型是基于待识别文本图像样本以及预先确定的文本标签进行训练后得到的,所述文本标签与所述待识别文本图像样本一一对应;
所述文本识别模型包括编码器和解码器,所述编码器包括顺次连接的转换层、ResNet特征提取层以及包含第一注意力机制AOA(Attention on Attention)模块的优化模块层,解码器包括顺次连接的BiLSTM(Bidirectional Long Short Term Memory,双向长短时记忆网络)序列建模层、包含第二AOA模块的LSTM(Long Short Term Memory,长短时记忆网络)预测层。
优选地,根据本发明的文本识别方法,在获取自然场景文本图像之前,还包括所述文本识别模型的训练步骤;
所述文本识别模型的训练步骤包括:
基于自然场景文本图像样本,制作闪电记忆映射数据库LMDB(Lightning Memory-Mapped Database,闪电记忆映射数据库)格式的训练集;
将所述训练集数据按批次输入所述编码器中,得到所述训练集中文本图像样本的特征表示向量;
将所述文本图像样本的特征表示向量输入解码器中,得到所述文本图像样本的预测字符;
使用交叉熵损失函数对所述文本识别模型进行迭代训练,以得到训练好的文本识别模型。
优选地,根据本发明的文本识别方法,所述将所述训练集数据按批次输入所述编码器中,得到所述训练集中文本图像样本的特征表示向量,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562236.4/2.html,转载请声明来源钻瓜专利网。