[发明专利]字符位置修正方法、装置、电子设备和存储介质在审
申请号: | 202110304878.4 | 申请日: | 2021-03-16 |
公开(公告)号: | CN113033377A | 公开(公告)日: | 2021-06-25 |
发明(设计)人: | 蔡悦;张宇轩;庄妮;黄灿;王长虎 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/20;G06K9/32;G06N3/04 |
代理公司: | 北京植德律师事务所 11780 | 代理人: | 唐华东 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 位置 修正 方法 装置 电子设备 存储 介质 | ||
1.一种字符位置修正方法,包括:
获取文本行图像对应的文本行识别结果序列和单字检测识别结果序列,其中,所述文本行识别结果包括第一字符和第一字符包围盒位置,所述单字检测识别结果包括第二字符和第二字符包围盒位置;
对于所述单字检测识别结果序列中每个单字检测识别结果,执行以下位置更新操作:在所述文本行识别结果序列中查找第一字符与该单字检测识别结果中的第二字符相同的文本行识别结果;响应于查找到至少一个文本行识别结果,在所找到的各文本行识别结果中,确定与该单字检测识别结果距离最近的文本行识别结果;将所确定的文本行识别结果中的第一字符包围盒位置更新为该单字检测识别结果中的第二字符位置。
2.根据权利要求1所述的方法,其中,所述第一字符包围盒位置包括行内起始位置和行内结束位置;以及
所述方法还包括:
计算所述文本行识别结果序列的行内字符间隙平均值,其中,所述文本行识别结果序列的行内字符间隙平均值为所述文本行识别结果序列中各被更新过第一字符包围盒位置的文本行识别结果中两相邻文本行识别结果中的在前文本行识别结果中行内结束位置和在后文本行识别结果中行内起始位置之间距离的平均值;
对于所述文本行识别结果序列中未被更新过行内起始位置和行内结束位置的文本行识别结果,根据所述行内字符间隙平均值更新该文本行识别结果中的行内起始位置和行内结束位置,其中,该文本行识别结果在更新后的行内起始位置与所述文本行识别结果序列中该文本识别结果的前一文本识别结果的行内结束位置之间的距离为所述行内字符间隙平均值,和/或,该文本行识别结果在更新后的行内结束位置与所述文本行识别结果序列中该文本识别结果的后一文本识别结果的行内起始位置之间的距离为所述行内字符间隙平均值。
3.根据权利要求1或2所述的方法,其中,所述第一字符包围盒位置包括行起始位置和行结束位置;以及
所述方法还包括:
分别将所述文本行识别结果序列中被更新过行起始位置和行结束位置的各文本行识别结果的行起始位置中的最小值和行结束位置中的最大值确定为文本行起始位置和文本行结束位置;
对于所述文本行识别结果序列中未被更新过行起始位置和行结束位置的文本行识别结果,分别用所述文本行起始位置和文本行结束位置更新该文本行识别结果中的行起始位置和行结束位置。
4.根据权利要求1所述的方法,其中,所述文本行图像对应的文本行识别结果序列是通过如下方式得到的:
将所述文本行图像输入预先训练的文本行识别模型,得到与所述文本行图像对应的文本行识别结果序列,其中,所述文本行识别模型用于表征包括待识别图像与文本行识别结果序列之间的对应关系。
5.根据权利要求4所述的方法,其中,所述文本行识别模型包括顺序排列的卷积神经网络、循环神经网络和连接时间分类CTC。
6.根据权利要求4所述的方法,其中,所述文本行识别模型包括顺序排列的卷积神经网络和基于注意力机制的循环神经网络。
7.根据权利要求1所述的方法,其中,所述文本行图像对应的单字检测识别结果序列是通过如下方式得到的:
利用目标检测算法对所述文本行图像进行单字检测,得到至少一个字符包围盒位置;
按照检测得到的各字符包围盒位置从所述文本行图像中截取字符图像,以及将所截取的字符图像输入单字识别模型,得到对应的字符识别结果;
对于检测得到的每个字符包围盒,用该字符包围盒对应的字符识别结果和该字符包围盒位置生成单字检测识别结果,以及按照该字符包围盒位置对应在文本行图像中的字符所在顺序,用所生成的单字识别生成单字检测识别结果序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110304878.4/1.html,转载请声明来源钻瓜专利网。