[发明专利]文本识别方法、装置、电子设备、存储介质及程序产品在审

申请号：	202210374079.9	申请日：	2022-04-11
公开（公告）号：	CN114842463A	公开（公告）日：	2022-08-02
发明（设计）人：	秦勇	申请（专利权）人：	深圳市星桐科技有限公司
主分类号：	G06V20/62	分类号：	G06V20/62;G06N3/04;G06N3/08;G06V30/19;G06V10/82
代理公司：	北京北汇律师事务所 11711	代理人：	马亚坤
地址：	518027 广东省深圳市福田区华强***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本识别方法装置电子设备存储介质程序产品
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开提供了一种文本识别的方法、装置、电子设备、存储介质及程序产品，该方法包括获取待识别的文本图像；将文本图像输入文本识别模型；其中，文本识别模型包括：第一特征提取模块、第二特征提取模块和特征解码模块；通过第一特征提取模块提取文本图像的第一特征映射；其中，第一特征映射的高度大于或等于1；通过第二特征提取模块提取第一特征映射中文本行位置的表征，获得第二特征映射；通过特征解码模块处理第二特征映射，获得文本识别输出。本公开可以实现文本识别功能，识别的文本图像为包含一行或多行文本的图像。

技术领域

本发明涉及图像处理领域，尤其涉及文本识别方法、装置、电子设备、存储介质及程序产品。

背景技术

文字识别是带文字的图片中识别出字符序列的过程(对于中文，一个字符便是一个汉字，对于英文，一个字符便是一个字母)。现有技术中的文字识别技术是多是针对单行文字进行识别。单行文字识别实际应用时受的限制比较多，例如如果遇到包含多行文字的图片，需要将图片拆分成多个包含单行文字的图片块，若使用人工的方式拆分会极大地影响图像识别的速度，若用算法拆分，可能会出现拆分错误，最终由于拆分的原因影响到最终的识别准确度。如何识别包含多行文本的图像，是本领域内的技术问题之一。

发明内容

根据本公开的一方面，提供了一种文本识别的方法，包括：

获取待识别的文本图像；

将文本图像输入文本识别模型；其中，文本识别模型包括：第一特征提取模块、第二特征提取模块和特征解码模块；

通过第一特征提取模块提取文本图像的第一特征映射；其中，第一特征映射的高度大于或等于1；

通过第二特征提取模块提取第一特征映射中文本行位置的表征，获得第二特征映射；

通过特征解码模块处理第二特征映射，获得文本识别输出。

根据本公开的另一方面，一种文本识别的装置，包括：

获取模块，用于获取待识别的文本图像；

输入模块，用于将文本图像输入文本识别模型；其中，文本识别模型包括：第一特征提取模块、第二特征提取模块和特征解码模块；

第一特征提取模块，用于第一特征提取模块，用于通过第一特征提取模块提取文本图像的第一特征映射；其中，第一特征映射的高度大于或等于1；

第二特征提取模块，用于通过第二特征提取模块提取第一特征映射中文本行位置的表征，获得第二特征映射；