[发明专利]自然场景的文本识别方法、存储装置和计算机设备在审
申请号: | 201911143472.1 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111160348A | 公开(公告)日: | 2020-05-15 |
发明(设计)人: | 周翊民;陈鹏;吴庆甜 | 申请(专利权)人: | 中国科学院深圳先进技术研究院 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/62;G06N3/04 |
代理公司: | 深圳市威世博知识产权代理事务所(普通合伙) 44280 | 代理人: | 李庆波 |
地址: | 518055 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然 场景 文本 识别 方法 存储 装置 计算机 设备 | ||
本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。该自然场景的文本识别方法包括:利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列;利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列;利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列。通过上述方式,本申请能够提升文本识别准确率,改善文本识别方法的性能。
技术领域
本申请涉及文本识别技术领域,特别是涉及一种自然场景的文本识别方法、存储装置和计算机设备。
背景技术
OCR技术发展多年来,从应用场景来看,已经在图像识别,身份证识别,包括银行保险的票据等方面都有应用,从技术层面来看,早先的传统文字识别手法基本都采用基于模板匹配的方式,对特征描述要求非常苛刻,很难满足复杂场景下的识别任务。而自从第三次人工智能浪潮兴起,在算法以及算力都有大幅度突破的情况下,深度学习抛弃了传统人工设计特征的方式,利用海量标定样本数据以及大规模GPU集群的优势让机器自动学习特征和模型参数,能一定程度上弥补底层特征与高层语义之间的不足。
就在最近这几年,基于深度学习的图像识别达到了前所未有的高度,这也让OCR技术有了广阔的场景。与传统文档图像相比,场景图像中文字多语言混合、背景复杂、模糊、文字变形、文本角度不同等情况,所以与传统的文字识别相比,场景文本识别面临更多的挑战。
尽管使用场景文本识别网络的结构已经存在,但仍存在很多的不足之处。目前很多文本识别方法的识别度不够准确,文本识别网络的性能不佳,且容易出现训练难、速度慢、梯度爆炸或消失等情况。
发明内容
本申请主要提供一种自然场景的文本识别方法、存储装置和计算机设备,以解决场景文本识别方法的性能不佳的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种自然场景的文本识别方法。该自然场景的文本识别方法包括:利用深度卷积网络对待识别图像进行特征提取,以获取多个特征向量;利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列;利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列;利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种计算机设备。该计算机设备包括处理器和存储器,处理器耦接存储器,存储器用于存储程序,处理器用于执行程序以实现如上述的自然场景的文本识别方法。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种存储装置。该存储装置存储有程序,程序被执行时能够实现如上述的自然场景的文本识别方法。
本申请的有益效果是:区别于现有技术的情况,本申请公开了一种自然场景的文本识别方法、存储装置和计算机设备。通过设置深度卷积网络对待识别图像进行特征提取,以获取多个特征向量,并利用结合有残差模块的编码用二维递归网络对多个特征向量进行编码,以获得编码特征序列,残差模块能够解决在训练过程中的梯度爆炸、消失问题并加快收敛速度,之后利用解码用二维递归网络对编码特征序列进行解码,以获得预测标签序列,利用连接时间分类模型对预测标签序列进行校正,以形成输出文本序列,从而能够提升识别准确率,改善文本识别方法的性能。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,其中:
图1是本申请提供的自然场景的文本识别方法一实施例的流程示意图;
图2是本申请提供的计算机设备一实施例的结构示意图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院深圳先进技术研究院,未经中国科学院深圳先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911143472.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种双线圈电流传感器
- 下一篇:基于大数据的自感知监控运维及预警分析系统