[发明专利]基于序列变换纠正及注意力机制的自然场景文本识别方法有效
申请号: | 202010227200.6 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111428727B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 林庆祥;金连文;罗灿杰;赖松轩 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/16;G06V30/19;G06V10/82;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048 |
代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 张雪 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 序列 变换 纠正 注意力 机制 自然 场景 文本 识别 方法 | ||
1.一种基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,包括如下步骤:
数据获取:获取训练集和测试集样本;
数据处理:对训练集和测试集图片进行缩放处理;
标签制作:对训练集图片进行加标签处理;
训练网络:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;
所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器;
测试网络:输入测试数据到已训练完成的识别网络中,得到图片中文本行的识别结果;
所述序列变换纠正器还包括缩放层、网格映射模块,所述序列变换纠正器进行图片纠正的方法包括:
通过缩放层、卷积层、非线性层和池化层得到待纠正图片的特征图;
通过分解层将特征图在水平方向分解成互不相交的N个图像块,并将每个图像块的特征输入到定位网络,通过定位网络预测每个图像块的变换参数;
将每个图像块的变换参数均输入到网格映射模块,得到一个平滑的采样网格;
使用采样网格在原始待纠正图片上通过双线性插值采样得到纠正后的图片;
所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元,用于将图片数据转换成具有上下文关联信息的时间序列特征;
所述基于注意力机制的解码器在解码过程中引入长短时记忆网络LSTM来逐步识别图片中的每个字符,具体识别方法包括:
基于注意力机制的解码器根据特征编码网络输出的时间序列特征以及长短时记忆网络上一个时间点的隐藏状态,计算注意力权重矩阵;
对注意力权重矩阵做归一化处理,得到注意力权重矩阵的概率分布;
根据注意力权重矩阵的概率分布对特征编码网络编码得到的时间序列特征进行加权求和处理,得到当前时刻的关注特征;
根据当前时刻的关注特征,并结合上一时刻的字符预测概率分布更新长短时记忆网络的隐藏状态;
通过全连接层进行解码,并将解码结果送入softmax层进行概率归一化,得到预测字符的概率分布;
选取概率分布中置信度最大的值所对应的字符作为当前解码输出字符,完成图片中字符的识别。
2.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述卷积层还能进行补边,所述补边的具体方法包括:在原始图片或特征图的上下左右均贴上一圈像素点,所述像素点的像素值为0。
3.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,识别网络训练包括:
将训练数据字符串中的每个字符在其对应时间点输出的概率作为交叉熵,使用自适应梯度下降法最小化交叉熵损失。
4.根据权利要求1所述的基于序列变换纠正及注意力机制的自然场景文本识别方法,其特征在于,所述识别网络中的权值参数通过随机高斯分布初始方法进行初始化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010227200.6/1.html,转载请声明来源钻瓜专利网。