[发明专利]基于序列变换纠正及注意力机制的自然场景文本识别方法有效
申请号: | 202010227200.6 | 申请日: | 2020-03-27 |
公开(公告)号: | CN111428727B | 公开(公告)日: | 2023-04-07 |
发明(设计)人: | 林庆祥;金连文;罗灿杰;赖松轩 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06V30/16;G06V30/19;G06V10/82;G06N3/045;G06N3/0442;G06N3/0464;G06N3/047;G06N3/048 |
代理公司: | 北京东方盛凡知识产权代理有限公司 11562 | 代理人: | 张雪 |
地址: | 510640 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 序列 变换 纠正 注意力 机制 自然 场景 文本 识别 方法 | ||
本发明公开一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括数据获取、数据处理、标签制作、训练网络、测试网络;所述训练网络包括:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器。本发明极大降低了识别模型的识别难度,识别准确率高、鲁棒性强,针对形状不规则的文本具有很好的识别性能。
技术领域
本发明涉及模式识别与人工智能技术领域,特别是涉及一种基于序列变换纠正及注意力机制的自然场景文本识别方法。
背景技术
文字作为信息的载体,从古至今一直有着广泛的应用。通过文字的呈现,让人类能更加准确地理解和处理通过视觉所获得的信息,促进人与人之间的信息交流。随着计算机技术的飞速发展,人工智能技术正在逐渐改变人们的生活,人们希望能够通过计算机来高效地理解和处理图像,而文字信息对于图像理解至关重要。因此,自然场景文本识别一直是一个有意义且备受关注的研究方向。
相比于文档图像识别任务来说,在自然场景中文字经常会呈现各种各样的形变,例如旋转、透射变形,弯曲等形变,且自然场景文本形变复杂多样,没有规律,很难用一个数学变换来模拟,这给自然场景文本识别系统造成很大的挑战。
因此,目前亟需一种针对不规则自然场景文本数据集,能够有效提升识别准确率的文本识别方法。
发明内容
本发明的目的是提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法,以解决上述现有技术存在的问题,能够有效提高自然场景文本的识别精度。
为实现上述目的,本发明提供了如下方案:本发明提供一种基于序列变换纠正及注意力机制的自然场景文本识别方法,包括如下步骤:
数据获取:获取训练集和测试集样本;
数据处理:对训练集和测试集图片进行缩放处理;
标签制作:对训练集图片进行加标签处理;
训练网络:构建识别网络,并将训练数据及处理好的标签输入预先设计好的识别网络,完成识别网络的训练;
所述识别网络包括序列变换纠正器、基于注意力机制的文本识别器;所述序列变换纠正器包括若干个卷积层、非线性层和池化层;所述序列变换纠正器还包括分解层、由若干个全连接层组成的定位网络;所述基于注意力机制的文本识别器包括特征编码网络和基于注意力机制的解码器;
测试网络:输入测试数据到已训练完成的识别网络中,得到图片中文本行的识别结果。
优选地,所述序列变换纠正器还包括缩放层、网格映射模块,所述序列变换纠正器进行图片纠正的方法包括:
通过缩放层、卷积层、非线性层和池化层得到待纠正图片的特征图;
通过分解层将特征图在水平方向分解成互不相交的N个图像块,并将每个图像块的特征输入到定位网络,通过定位网络预测每个图像块的变换参数;
将每个图像块的变换参数均输入到网格映射模块,得到一个平滑的采样网格;
使用采样网格在原始待纠正图片上通过双线性插值采样得到纠正后的图片。
优选地,所述卷积层还能进行补边,所述补边的具体方法包括:在原始图片或特征图的上下左右均贴上一圈像素点,所述像素点的像素值为0。
优选地,所述特征编码网络以卷积神经网络和长短时记忆网络作为基本单元,用于将图片数据转换成具有上下文关联信息的时间序列特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010227200.6/2.html,转载请声明来源钻瓜专利网。