[发明专利]文本识别方法、装置、计算机设备及存储介质在审
申请号: | 202210334785.0 | 申请日: | 2022-03-31 |
公开(公告)号: | CN114693941A | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 谭怀亮;陈淑玉;贺再红;谭彦杰 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06V10/40 | 分类号: | G06V10/40;G06V10/80;G06V10/764;G06K9/62;G06V30/19 |
代理公司: | 华进联合专利商标代理有限公司 44224 | 代理人: | 黄恕 |
地址: | 410013 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种上述文本识别方法、装置、计算机设备、存储介质和计算机程序产品,其中,方法包括:获取文本图像;提取文本图像的字符特征,生成文本图像特征序列;获取文本图像特征序列的邻域信息,并将邻域信息与文本图像特征序列融合,得到融合的文本图像特征序列;提取、并结合融合的文本图像特征序列的多时序上下文关系,得到目标文本图像特征序列;根据目标文本图像特征序列,得到文本识别结果。整个过程中,基于文本图像的图像特征获取领域信息以及多时序上下文关系,再基于领域信息以及多时序上下文关系来进行文本识别,增强了语义特征,显著提高了文本识别的准确度,可以实现准确的文本识别。
技术领域
本申请涉及文本识别技术领域,特别是涉及一种文本识别方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术
文本识别是人工智能领域的一项重要任务,其中手写文本的识别是最具挑战性的。虽然科技发展迅速,但手写活动仍然更容易,更有效,更便宜。许多重要的文件仍然需要手工填写和数字化,包括办公室手写文件处理、邮寄地址识别和珍贵的历史手稿识别。手写汉字文本图像的自动识别是困难的,因为涉及多种书写风格、复杂的字符结构和大量的字符类别。因此,对手写汉字文本的识别算法的研究意义重大且极具应用前景。
随着深度学习技术的兴起和普及,利用神经网络解决手写汉字文本的问题受到越来越多的关注,也取得非常大的成功。最近流行的技术解决方案是将文本识别视为图像序列建模任务,卷积循环神经网络是目前应用最广泛的方法,其中卷积神经网络作为特征提取器,而循环神经网络则学习长期依赖关系。
虽然传统基于卷积循环神经网络进行文本识别的方案可以实现文本的识别,但是也存在识别准确率不高的缺陷。
发明内容
基于此,有必要针对上述技术问题,提供一种准确的文本识别方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种文本识别方法。方法包括:
获取文本图像;
提取文本图像的字符特征,生成文本图像特征序列;
获取文本图像特征序列的邻域信息,并将邻域信息与文本图像特征序列融合,得到融合的文本图像特征序列;
提取、并结合融合的文本图像特征序列的多时序上下文关系,得到目标文本图像特征序列;
根据目标文本图像特征序列,得到文本识别结果。
在其中一个实施例中,根据目标文本图像特征序列,得到文本识别结果包括:
将目标文本图像特征序列输入至卷积神经网络进行文本分类预测,得到字符以及字符对应的预测概率;
根据字符以及字符对应的预测概率,得到不同字符序列的概率分布;
选取概率最大对应的字符序列,得到文本识别结果。
在其中一个实施例中,根据字符以及字符对应的预测概率,得到不同字符序列的概率分布包括:
根据字符以及字符对应的预测概率,通过CTC得到不同字符序列的概率分布。
在其中一个实施例中,提取文本图像的字符特征,生成文本图像特征序列之前,还包括:
对文本图像进行尺寸归一化处理,以更新文本图像。
在其中一个实施例中,提取文本图像的字符特征,生成文本图像特征序列包括:
通过残差卷积网络提取文本图像的字符特征,生成文本图像特征序列,残差卷积网络中每个残差模块之后连接有卷积层。
在其中一个实施例中,获取文本图像特征序列的邻域信息,并将邻域信息与文本图像特征序列融合,得到融合的文本图像特征序列包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210334785.0/2.html,转载请声明来源钻瓜专利网。