[发明专利]字符识别处理方法及装置有效
申请号: | 201811382334.4 | 申请日: | 2018-11-20 |
公开(公告)号: | CN109558876B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 贺三元;罗晗璐 | 申请(专利权)人: | 浙江口碑网络技术有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 北京市浩天知识产权代理事务所(普通合伙) 11276 | 代理人: | 宋菲;刘云贵 |
地址: | 310012 浙江省杭州市西*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 字符 识别 处理 方法 装置 | ||
1.一种字符识别处理方法,所述方法包括:
从待识别文件中提取待识别区域;
对所述待识别区域进行连通域分析,得到多个连通域;将相邻的连通域之间的间隔小于预设间隔的连通域划分为同一分组,得到连通域分组结果;
根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果;其中,所述字符参数信息包括:字符字号、字符类型和/或字符颜色,将所述字符参数信息相同的相邻的连通域合并在一起,所述字符参数信息不同的相邻的连通域不进行合并;
按照所述连通域合并处理结果,对待识别区域内的字符识别结果进行组合或拆分,得到多个字符组;其中,将属于所述连通域合并处理结果中的同一连通域的字符识别结果中的字符内容组合在一起,将属于所述连通域合并处理结果中的不同连通域的字符识别结果中的字符内容隔断拆分,得到多个字符组;
根据所述连通域分组结果,为属于同一连通域分组的多个字符组设置容器框,将属于同一连通域分组的多个字符组进行组合。
2.根据权利要求1所述的字符识别处理方法,其中,所述从待识别文件中提取待识别区域进一步包括:
对待识别文件进行字符识别处理得到字符识别结果,根据所述字符识别结果从待识别文件中提取待识别区域。
3.根据权利要求1所述的字符识别处理方法,其中,所述对所述待识别区域进行连通域分析,得到多个连通域进一步包括:
利用种子填充算法对所述待识别区域进行连通域分析,得到多个初始连通域,针对每个初始连通域,获取该初始连通域的外接矩形;
依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域。
4.根据权利要求3所述的字符识别处理方法,其中,所述利用种子填充算法对所述待识别区域进行连通域分析,得到多个初始连通域进一步包括:
利用最大类间方差算法对所述待识别区域进行二值化处理,得到二值图片;
利用种子填充算法对所述二值图片进行连通域分析,得到多个初始连通域。
5.根据权利要求3所述的字符识别处理方法,其中,所述依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域进一步包括:
依据所述多个外接矩形的位置参数信息,判断所述多个外接矩形是否存在重叠区域;
若是,则将存在重叠区域的外接矩形对应的初始连通域进行合并。
6.根据权利要求3-5任一项所述的字符识别处理方法,其中,所述依据多个外接矩形的参数信息,对所述多个初始连通域进行合并,得到多个连通域进一步包括:
判断所述多个初始连通域对应的字符内容是否为汉字;
若是,则依据多个外接矩形的大小参数信息,计算所述多个外接矩形的宽长比;
将所述宽长比小于预设比例阈值的外接矩形对应的初始连通域与相邻的后面的初始连通域进行合并,直至合并后的连通域对应的外接矩形的宽长比大于或等于所述预设比例阈值。
7.根据权利要求1-6任一项所述的字符识别处理方法,其中,所述根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据所述多个连通域对应的多个外接矩形的大小参数信息,确定所述多个连通域对应的字符字号;
将所述字符字号相同的相邻的连通域进行合并,得到连通域合并处理结果。
8.根据权利要求1-7任一项所述的字符识别处理方法,其中,所述根据所述多个连通域对应的字符参数信息,对多个连通域进行合并,得到连通域合并处理结果进一步包括:
依据所述字符识别结果中的字符内容,确定所述多个连通域对应的字符类型;
将所述字符类型相同的相邻的连通域进行合并,得到连通域合并处理结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江口碑网络技术有限公司,未经浙江口碑网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811382334.4/1.html,转载请声明来源钻瓜专利网。