[发明专利]基于二维递归网络的自然场景图像中中文文本识别方法有效
| 申请号: | 201810072730.0 | 申请日: | 2018-01-25 |
| 公开(公告)号: | CN108399419B | 公开(公告)日: | 2021-02-19 |
| 发明(设计)人: | 高学;刘衍平 | 申请(专利权)人: | 华南理工大学 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 郑浦娟 |
| 地址: | 510640 广*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 基于 二维 递归 网络 自然 场景 图像 中文 文本 识别 方法 | ||
本发明公开了一种基于二维递归网络的自然场景图像中中文文本识别方法,首先获取训练样本集,对深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络进行训练;将测试样本输入训练后的深度卷积网络中,获取到测试样本的特征图;然后将测试样本的特征图输入到训练后的编码用二维递归网络中,得到测试样本的编码特征图;再将测试样本的编码特征图输入训练后的解码用二维递归网络中,得到测试样本各帧图像中每个常用汉字的概率结果;最后进行集束搜索处理,最终识别出测试样本中整体中文文本。本发明方法充分利用了文本图像的空间时间信息与上下文信息,能够避免文本图像预分割问题,提高了识别准确率。
技术领域
本发明属于图像文本分析与识别领域,具体涉及一种基于二维递归网络的自然场景图像中中文文本识别方法。
背景技术
人类大部分的信息都是通过视觉系统获得的,通过视觉系统获取的场景图像除了包含色彩、图案、形状、位置、纹理等丰富的视觉信息,还包含了丰富的文本信息。文本对信息的描述有着准确性、有效性等特点,文本在各种计算机视觉应用中具有十分有用的价值。例如,在图片搜索方面,识别图片中的文字有利于我们更好地对图片分类匹配;在无人驾驶方面,从自然场景中识别出交通指示牌以及其他标志李的文字信息可以辅助驾驶,自然场景下的文字识别在人工智能高速发展的今天,是一个不可或缺的重要发展部分。
自然场景中的文本图像与传统文档图像相比具有明显的不同,在文本图像的颜色、亮度、对比度、背景、形状上两者都有很大的差异,图像中可能包括较强的噪声干扰。传统的文本识别方法已经不再适应场景文本的复杂化、多样化。现有技术中自然场景中文本的检测通常需要对图像文本进行预分割处理,图像的分割处理技术直接影响着自然场景中中文文字的检测精度,并且当部分汉字的结构特征被分在不同特征序列时,将很难识别出来。
近年来利用深度学习网络来解决这一挑战显得更加方便可行,并取得了显著的效果。在深度学习中,基于卷积和一维递归网络的文本识别方法成为目前的主流。但这类方法还是存在一定的缺陷,如图像中文本的旋转、透射等畸变需要通过大量的样本训练来增强网络的识别能力,一维递归网络识别时需要先将二维的特征图转为一维特征序列。
发明内容
本发明的目的在于克服现有技术的缺点与不足,提供一种基于二维递归网络的自然场景图像中中文文本识别方法,该方法克服了一维递归网络在文本序列识别中输入序列必须保证严格独立性的假设,避免了采用一维递归网络识别过程中进行的降维操作,在识别过程中充分利用了文本图像的空间时间信息与上下文信息,并且能够避免文本图像预分割问题,大大提高了自然场景图像中中文文本的识别准确率。
本发明的目的通过下述技术方案实现:一种基于二维递归网络的自然场景图像中中文文本识别方法,步骤如下:
步骤S1、获取多幅包括汉字的自然场景图像样本,构成训练样本集,其中训练样本集中包括了常用汉字字符集中的所有常用汉字;并且为每个常用汉字设置一个标签;
同时获取由深度卷积网络、编码用二维递归网络、解码用二维递归网络以及CTC模型依次连接构成的神经网络,其中该神经网络的输入即为深度卷积网络的输入,该神经网络的输出即为CTC模型的输出;
步骤S2、神经网络训练:将训练样本集中的每个训练样本作为神经网络的输入,将每个训练样本中各汉字的标签作为神经网络的输出,针对神经网络进行训练得到训练后的神经网络,从而得到训练后的深度卷积网络、训练后的编码用二维递归网络和训练后的解码用二维递归网络;
步骤S3、当获取到测试样本时,首先将测试样本输入到训练后的深度卷积网络中,通过训练后的深度卷积网络获取到测试样本的特征图;
步骤S4、将训练后深度卷积神经网络输出的测试样本的特征图输入到训练后的编码用二维递归网络中,通过训练后的编码用二维递归网络得到测试样本的编码特征图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810072730.0/2.html,转载请声明来源钻瓜专利网。





