[发明专利]文本识别方法、装置和系统在审
申请号: | 202011617846.1 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112633279A | 公开(公告)日: | 2021-04-09 |
发明(设计)人: | 詹明捷;刘学博;梁鼎 | 申请(专利权)人: | 北京市商汤科技开发有限公司 |
主分类号: | G06K9/32 | 分类号: | G06K9/32;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 靳玫 |
地址: | 100080 北京市海淀区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 系统 | ||
1.一种文本识别方法,其特征在于,所述方法包括:
获取模板证件中的第一区域;
确定待处理证件中与所述第一区域对应的第二区域,所述待处理证件与所述模板证件的证件类别相同,所述第一区域在所述模板证件中的相对位置与所述第二区域在所述待处理证件中的相对位置相同;
基于与所述第一区域中的字段的属性信息对应的识别方式对所述第二区域进行文本识别。
2.根据权利要求1所述的方法,其特征在于,所述字段的属性信息包括所述字段的字符类型和/或所述字段的字体类型。
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在对所述第二区域进行文本识别之后,基于所述第二区域中文本的位置信息和/或语义信息,从所述第二区域中确定需要调整的目标区域;
对所述目标区域进行调整,并对调整后的目标区域进行文本识别。
4.根据权利要求3所述的方法,其特征在于,所述基于所述第二区域中字段的位置信息和/或语义信息,从所述第二区域中确定需要调整的目标区域,包括:
将满足以下至少一项条件的第二区域确定为所述目标区域:
所述第二区域中字段的位置超出所述第二区域的边界;
所述第二区域中字段的语义不完整;
所述第二区域中字段的语义与所述第一区域中字段的语义属于不同语义类型。
5.根据权利要求3或4所述的方法,其特征在于,所述对所述目标区域进行调整,包括:
在所述目标区域的数量大于预设数量阈值,且各个目标区域的偏移方向相同的情况下,确定多个目标区域的整体偏移量;
基于所述整体偏移量对所述多个目标区域进行调整。
6.根据权利要求3至5任意一项所述的方法,其特征在于,所述对所述目标区域进行调整,包括:
在所述目标区域的数量不大于预设数量阈值,或者存在至少两个目标区域的偏移方向不同的情况下,确定所述待处理证件中的第一目标区域的偏移量;
基于所述第一目标区域的偏移量,对所述第一目标区域以外的第二目标区域进行调整。
7.根据权利要求6所述的方法,其特征在于,所述第一目标区域为在所述第二目标区域之前检测到的目标区域。
8.根据权利要求3所述的方法,其特征在于,所述对所述目标区域进行调整,包括:
从所述待处理证件中查找与所述第一区域具有相同语义类别的字段;
将所述目标区域调整为查找到的字段所在的区域。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述确定待处理证件中与所述第一区域对应的第二区域,包括:
基于预先建立的转换矩阵确定待处理证件中与所述第一区域对应的第二区域;
其中,所述转换矩阵基于以下方式确定:
基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵,1≤kN,k和N均为正整数,N为所述第三区域的总组数,第三区域与第四区域一一对应,且第三区域与对应的第四区域中的文本信息相同;
针对所述多个第一矩阵中的每个第一矩阵,基于所述第一矩阵对其余N-k个第三区域以及对应于所述其余N-k个第三区域的第四区域进行匹配,确定匹配成功的组数;
将匹配成功的组数最多的第一矩阵确定为所述转换矩阵。
10.根据权利要求9所述的方法,其特征在于,所述基于所述模板证件中的k个第三区域和所述待处理证件中的k个第四区域确定多个第一矩阵,包括:
从所述模板证件中的第i个第三区域和所述待处理证件中的第i个第四区域中选取多个点对,所述多个点对包括首字段的中心点、末字段的中心点、区域上边界的中点以及区域下边界的中点;
基于所述第i个第三区域和所述第i个第四区域中的多个点对,确定所述多个第一矩阵中的第i个第一矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京市商汤科技开发有限公司,未经北京市商汤科技开发有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011617846.1/1.html,转载请声明来源钻瓜专利网。