[发明专利]文本识别方法、装置、电子设备、存储介质及程序产品在审
申请号: | 202210374079.9 | 申请日: | 2022-04-11 |
公开(公告)号: | CN114842463A | 公开(公告)日: | 2022-08-02 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 深圳市星桐科技有限公司 |
主分类号: | G06V20/62 | 分类号: | G06V20/62;G06N3/04;G06N3/08;G06V30/19;G06V10/82 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 马亚坤 |
地址: | 518027 广东省深圳市福田区华强*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 程序 产品 | ||
本公开提供了一种文本识别的方法、装置、电子设备、存储介质及程序产品,该方法包括获取待识别的文本图像;将文本图像输入文本识别模型;其中,文本识别模型包括:第一特征提取模块、第二特征提取模块和特征解码模块;通过第一特征提取模块提取文本图像的第一特征映射;其中,第一特征映射的高度大于或等于1;通过第二特征提取模块提取第一特征映射中文本行位置的表征,获得第二特征映射;通过特征解码模块处理第二特征映射,获得文本识别输出。本公开可以实现文本识别功能,识别的文本图像为包含一行或多行文本的图像。
技术领域
本发明涉及图像处理领域,尤其涉及文本识别方法、装置、电子设备、存储介质及程序产品。
背景技术
文字识别是带文字的图片中识别出字符序列的过程(对于中文,一个字符便是一个汉字,对于英文,一个字符便是一个字母)。现有技术中的文字识别技术是多是针对单行文字进行识别。单行文字识别实际应用时受的限制比较多,例如如果遇到包含多行文字的图片,需要将图片拆分成多个包含单行文字的图片块,若使用人工的方式拆分会极大地影响图像识别的速度,若用算法拆分,可能会出现拆分错误,最终由于拆分的原因影响到最终的识别准确度。如何识别包含多行文本的图像,是本领域内的技术问题之一。
发明内容
根据本公开的一方面,提供了一种文本识别的方法,包括:
获取待识别的文本图像;
将文本图像输入文本识别模型;其中,文本识别模型包括:第一特征提取模块、第二特征提取模块和特征解码模块;
通过第一特征提取模块提取文本图像的第一特征映射;其中,第一特征映射的高度大于或等于1;
通过第二特征提取模块提取第一特征映射中文本行位置的表征,获得第二特征映射;
通过特征解码模块处理第二特征映射,获得文本识别输出。
根据本公开的另一方面,一种文本识别的装置,包括:
获取模块,用于获取待识别的文本图像;
输入模块,用于将文本图像输入文本识别模型;其中,文本识别模型包括:第一特征提取模块、第二特征提取模块和特征解码模块;
第一特征提取模块,用于第一特征提取模块,用于通过第一特征提取模块提取文本图像的第一特征映射;其中,第一特征映射的高度大于或等于1;
第二特征提取模块,用于通过第二特征提取模块提取第一特征映射中文本行位置的表征,获得第二特征映射;
特征解码模块,用于通过特征解码模块处理第二特征映射,获得文本识别输出。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,程序包括指令,指令在由处理器执行时使处理器执行根据上述任一项的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,计算机指令用于使计算机执行根据上述任一项的方法。
根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现上述任一项的方法。
本公开实施例中提供的一个或多个技术方案,可以实现识别包含多行文本的文本图像的技术效果。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例的一种文本识别的方法的流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市星桐科技有限公司,未经深圳市星桐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210374079.9/2.html,转载请声明来源钻瓜专利网。