[发明专利]文本识别方法、装置、电子设备和存储介质有效
申请号: | 202210103724.3 | 申请日: | 2022-01-28 |
公开(公告)号: | CN114118075B | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 秦勇 | 申请(专利权)人: | 北京易真学思教育科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N3/04;G06N3/08 |
代理公司: | 北京北汇律师事务所 11711 | 代理人: | 张臻贤 |
地址: | 102200 北京市昌平区未*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 电子设备 存储 介质 | ||
1.一种文本识别方法,其特征在于,包括:
获取文本图像,其中,所述文本图像记录有单行文本;
使用文本识别神经网络的第一特征提取子网络处理所述文本图像以生成第一特征映射;
使用所述文本识别神经网络的第二特征提取子网络在N个方向上从所述第一特征映射提取特征映射,得到第二特征映射,其中,N为大于等于2的自然数;
使用所述文本识别神经网络的输出子网络处理所述第二特征映射,以生成文本识别输出;
其中,所述第二特征提取子网络包括N个特征提取分支和整合单元,通过N-1个特征提取分支中的每个特征提取分支,按照对应的方向旋转所述第一特征映射,得到对应的第三特征映射;通过所述第二特征提取子网络,处理所述第一特征映射和所述N-1个第三特征映射以生成所述第二特征映射。
2.如权利要求1所述的文本识别方法,其特征在于,所述文本识别神经网络还包括:编码器子网络和融合单元,其中,
所述文本识别方法,还包括:使用所述编码器子网络处理所述第一特征映射以生成特征向量;
使用所述融合单元按照融合规则将所述特征向量和所述第二特征映射进行融合,以生成融合输出;
所述使用所述文本识别神经网络的输出子网络处理所述第二特征映射,以生成文本识别输出,包括:使用所述文本识别神经网络的输出子网络处理所述融合输出,以生成文本识别输出。
3.如权利要求1所述的文本识别方法,其特征在于,其中,所述通过所述第二特征提取子网络处理所述第一特征映射和所述N-1个第三特征映射以生成第二特征映射,包括:
通过所述N-1个特征提取分支中相应的特征提取分支处理相应的第三特征映射,以及通过剩余的一个特征提取分支处理所述第一特征映射;
通过所述整合单元按照预设整合规则处理所述N个特征提取分支的输出,以生成所述第二特征映射。
4.如权利要求1所述的文本识别方法,其特征在于,所述N-1个方向包括:一个或多个预设方向,以及一个或多个随机方向。
5.如权利要求3所述的文本识别方法,其特征在于,通过所述整合单元按照预设整合规则处理所述N个特征提取分支的输出,以生成所述第二特征映射,包括:通过所述整合单元串联拼接所述N个特征提取分支的输出,以生成所述第二特征映射。
6.如权利要求2所述的文本识别方法,其特征在于,所述使用所述融合单元按照融合规则将所述特征向量与所述第二特征映射进行融合,以生成融合输出,包括:
通过所述融合单元将所述特征向量与所述第二特征映射逐点逐通道相乘,以生成所述融合输出。
7.如权利要求2所述的文本识别方法,其特征在于,所述编码器子网络包括:串联的多个基于注意力的编码器,其中,所述使用所述编码器子网络处理所述第一特征映射以生成特征向量,包括:
对于所述第一特征映射中的每个像素点,使用正余弦函数生成一个向量,由所述第一特征映射中每个像素点对应的所述向量形成位置编码;
通过所述串联的多个基于注意力的编码器根据所述位置编码处理所述第一特征映射,以生成所述特征向量。
8.如权利要求2所述的文本识别方法,其特征在于,所述输出子网络包括一个1*1卷积层,其中,
所述使用所述文本识别神经网络的输出子网络处理所述融合输出,以生成所述文本识别输出,包括:通过所述一个1*1卷积层对所述融合输出进行降维,以生成所述文本识别输出。
9.如权利要求1或2所述的文本识别方法,其特征在于,所述第一特征映射包括多尺度的特征映射。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京易真学思教育科技有限公司,未经北京易真学思教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210103724.3/1.html,转载请声明来源钻瓜专利网。