[发明专利]一种文本识别方法与系统在审
| 申请号: | 202110562236.4 | 申请日: | 2021-05-21 |
| 公开(公告)号: | CN113283336A | 公开(公告)日: | 2021-08-20 |
| 发明(设计)人: | 肖正;朱靖宇;宋超;王立峰 | 申请(专利权)人: | 湖南大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/32;G06K9/46;G06N3/04;G06N3/08 |
| 代理公司: | 武汉臻诚专利代理事务所(普通合伙) 42233 | 代理人: | 宋业斌 |
| 地址: | 410082 湖*** | 国省代码: | 湖南;43 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 文本 识别 方法 系统 | ||
1.一种文本识别方法,其特征在于,包括:
获取自然场景文本图像;
将所述文本图像输入文本识别模型,输出与所述文本图像对应的文本识别结果。
其中,所述文本识别模型是基于待识别文本图像样本以及预先确定的文本标签进行训练后得到的,所述文本标签与所述待识别文本图像样本一一对应;
所述文本识别模型包括编码器和解码器,所述编码器包括顺次连接的转换层、ResNet特征提取层以及包含第一AOA模块的优化模块层,解码器包括顺次连接的BiLSTM序列建模层、包含第二AOA模块的LSTM预测层。
2.如权利要求1所述的文本识别方法,其特征在于,在获取自然场景文本图像之前,还包括所述文本识别模型的训练步骤;
所述文本识别模型的训练步骤包括:
基于自然场景文本图像样本,制作闪电记忆映射数据库LMDB格式的训练集;
将所述训练集数据按批次输入所述编码器中,得到所述训练集中文本图像样本的特征表示向量;
将所述文本图像样本的特征表示向量输入解码器中,得到所述文本图像样本的预测字符;
使用交叉熵损失函数对所述文本识别模型进行迭代训练,以得到训练好的文本识别模型。
3.如权利要求1或2所述的文本识别方法,其特征在于,所述将所述训练集数据按批次输入所述编码器中,得到所述训练集中文本图像样本的特征表示向量,包括:
将所述训练集中的文本图像样本输入转换层,获得所述文本图像样本对应的归一化图像;
将所述归一化图像输入ResNet特征提取层,获取所述文本图像样本对应的视觉特征向量;
将所述视觉特征向量输入包含第一AOA模块的优化模块层,获得所述文本图像样本的特征表示向量。
4.如权利要求1至3中任意一项所述的文本识别方法,其特征在于,所述将所述视觉特征向量输入包含第一AOA模块的优化模块层,获得所述文本图像样本的特征表示向量,包括:
基于所述视觉特征向量,通过自注意力机制,获得查询向量、键向量和值向量。
基于所述查询向量Q、键向量K和值向量V,确定多头注意力机制的特征向量
基于所述多头注意力机制的特征向量确定所述文本图像样本的特征表示向量;
其中,多头注意力机制的表达公式如下:
headi=fdot-att(Qi,Ki,Vi);
fmh-att(Q,K,V)=Concat(head1,...,headH)。
5.如权利要求4所述的文本识别方法,其特征在于,所述基于所述多头注意力机制的特征向量确定所述文本图像样本的特征表示向量,包括:
基于所述多头注意力机制的特征向量生成一个信息向量i和一个注意力门g,所述信息向量和注意力门的计算公式为:
其中D的维度与q和v的维度一样,σ表示sigmoid激活函数;
采用逐元素乘法将注意力门应用于信息向量来添加另一个注意,以获得所述文本图像样本的特征表示向量计算公式为:
6.如权利要求2所述的文本识别方法,其特征在于,所述将所述文本图像样本的特征表示向量输入解码器中,得到所述文本图像样本的预测字符,包括:
将所述特征表示向量输入所述BiLSTM序列建模层,获得所述文本图像样本对应的特征序列H,所述特征序列H包含字符间的上下文信息;
将所述特征序列H输入所述包含AOA模块的LSTM预测层,获得所述文本图像样本的预测字符序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110562236.4/1.html,转载请声明来源钻瓜专利网。





