[发明专利]一种基于OCR的字符分割方法有效
申请号: | 202110869780.3 | 申请日: | 2021-07-30 |
公开(公告)号: | CN113673511B | 公开(公告)日: | 2022-03-18 |
发明(设计)人: | 秦应化;李安;吴昆 | 申请(专利权)人: | 苏州鼎纳自动化技术有限公司 |
主分类号: | G06V30/148 | 分类号: | G06V30/148;G06V30/19;G06V30/42;G06K9/62 |
代理公司: | 苏州翔远专利代理事务所(普通合伙) 32251 | 代理人: | 陆金星 |
地址: | 215024 江苏省苏州*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 ocr 字符 分割 方法 | ||
1.一种基于OCR的字符分割方法,其特征在于,包括如下步骤:
步骤1,数据收集:基于OCR技术获取模板字库,所述模板字库包括标准字符以及所述标准字符的特征数据,所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距;
步骤2,人工标记:利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符,得到字符分割结果,人工检查所述分割结果,标记所述分割结果中的错误项,并将所述错误项及其对应的特征数据收录至所述模板字库中,根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重,得到更新后的字符识别模型;
步骤3,预分割:对所述待识别字符进行行扫描,基于更新后的字符识别模型对所述待识别字符进行初始识别,对该字符进行强制分割;步骤3中,对所述字符进行强制分割的依据为:使每行字符的个数与一行能够容纳的标准字符的个数一致;
步骤4,归一化处理:将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理;
步骤5,精调分割位置:根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配,计算得到得分最高的标准字符,基于得分最高的所述标准字符确定当前字符分割的位置;
步骤2中,所述根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重包括:根据更新后的所述模板字库统计每种特征数据的数值分布,基于每种特征数据的稳定区间和变化规律手动修改所述权重。
2.如权利要求1所述的基于OCR的字符分割方法,其特征在于,步骤1中,所述基于OCR技术获取模板字库的方法包括:收集所述标准字符的图片,利用所述OCR技术分割得到所述模板字库。
3.如权利要求1所述的基于OCR的字符分割方法,其特征在于,步骤2中,利用字符识别模型识别与待识别字符同批次的字符的数量为20~1000。
4.如权利要求1所述的基于OCR的字符分割方法,其特征在于,步骤3中,对所述待识别字符进行行扫描包括:设置以一个像素为扫描宽度,进行每一行字符的扫描。
5.如权利要求1所述的基于OCR的字符分割方法,其特征在于,步骤5中,在根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配之前,先获取所述字符的特征点,并进行过滤处理。
6.如权利要求5所述的基于OCR的字符分割方法,其特征在于,对所述字符的特征点进行过滤的条件包括:所述特征点的大小小于第二阈值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州鼎纳自动化技术有限公司,未经苏州鼎纳自动化技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110869780.3/1.html,转载请声明来源钻瓜专利网。