[发明专利]文本识别方法、装置、电子设备和存储介质有效
申请号: | 202210103724.3 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114118075B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 北京易真学思教育科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 张臻贤 |
地址: | 102200 北京市昌平区未*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 | ||
本公开提供一种文本识别方法、装置、电子设备和存储介质,其中,文本识别方法包括:获取文本图像;使用文本识别神经网络的第一特征提取子网络处理文本图像以生成第一特征映射;使用文本识别神经网络的第二特征提取子网络在多个(N个)方向上从第一特征映射提取特征映射,得到第二特征映射;使用文本识别神经网络的输出子网络处理第二特征映射,以生成文本识别输出。根据本公开,提取文本图像的特征映射,进一步在多个方向上从该特征映射提取特征映射,基于多个方向对应的特征映射生成文本识别输出,由于从多个方向上提取的特征映射表征了文本图像上文本行中字符之间的位置关系,可以降低多识别字符或漏识别字符,提高文本识别准确率。
技术领域
本发明涉及图像处理技术领域,尤其涉及文本识别方法、装置、电子设备和存储介质。
背景技术
自然场景文字识别是带文字的图片中识别出字符序列的过程,示例性的,对于中文,一个字符可为一个汉字,对于英文,一个字符可为一个字母。它是一项具有极大挑战性的课题,除了图片背景复杂,光照变化等因素外,识别输出空间的复杂性也是一大困难,由于文字由数量不固定的字符组成,因此,自然场景文字识别需要从图片中识别长度不固定的序列。相关技术中使用序列到序列的方法,先将图像编码,然后进行序列解码得出整个字符串。然而该方法存在识别结果多识别字符或漏识别字符的问题。
发明内容
本公开提供了一种文本识别方法、装置、电子设备和存储介质,以至少解决相关技术中文本识别存在识别结果多识别字符或漏识别字符的问题。
根据本公开的一方面,提供了一种文本识别方法,包括:
获取文本图像,其中,文本图像记录有单行文本;
使用文本识别神经网络的第一特征提取子网络处理文本图像以生成第一特征映射;
使用文本识别神经网络的第二特征提取子网络在N个方向上从第一特征映射提取特征映射,得到第二特征映射,其中,N为大于等于2的自然数;
使用文本识别神经网络的输出子网络处理第二特征映射,以生成文本识别输出。
根据本公开的另一方面,提供了一种文本识别装置,包括:
获取模块,用于获取文本图像,其中,文本图像记录有单行文本;
识别模块,用于:
使用文本识别神经网络的第一特征提取子网络处理文本图像以生成第一特征映射;
使用文本识别神经网络的第二特征提取子网络在N个方向上从第一特征映射提取特征映射,得到第二特征映射,其中,N为大于等于2的自然数;
使用文本识别神经网络的输出子网络处理第二特征映射,以生成文本识别输出。
根据本公开的又一方面,提供了一种电子设备,包括:处理器;以及存储程序的存储器,其中,该程序包括指令,该指令在由处理器执行时使处理器执行本公开的文本识别方法。
根据本公开的再一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,该计算机指令用于使计算机执行本公开的文本识别方法。
本申请实施例中提供的一个或多个技术方案,获取记录有单行文本的文本图像,提取文本图像的特征映射,进一步在多个方向上从该特征映射提取特征映射,基于多个方向对应的特征映射生成文本识别输出,由于从多个方向上提取的特征映射表征了文本图像上文本行中字符之间的位置关系,可以降低多识别字符或漏识别字符的问题,提高文本识别准确率。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的文本识别系统的示意性框图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易真学思教育科技有限公司,未经北京易真学思教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210103724.3/2.html,转载请声明来源钻瓜专利网。