[发明专利]一种基于OCR的字符分割方法有效

专利信息
申请号: 202110869780.3 申请日: 2021-07-30
公开(公告)号: CN113673511B 公开(公告)日: 2022-03-18
发明(设计)人: 秦应化;李安;吴昆 申请(专利权)人: 苏州鼎纳自动化技术有限公司
主分类号: G06V30/148 分类号: G06V30/148;G06V30/19;G06V30/42;G06K9/62
代理公司: 苏州翔远专利代理事务所(普通合伙) 32251 代理人: 陆金星
地址: 215024 江苏省苏州*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 ocr 字符 分割 方法
【说明书】:

发明涉及一种基于OCR的字符分割方法,包括:步骤1:基于OCR技术获取模板字库,模板字库包括标准字符及标准字符的特征数据;步骤2:利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符,得到字符分割结果,人工标记分割结果中的错误项,并更新字符识别模型;步骤3:对待识别字符进行行扫描,基于更新后的字符识别模型对待识别字符进行初始识别,当某个字符的识别结果的得分小于第一阈值,则对该字符进行强制分割;步骤4:归一化处理;步骤5:根据归一化处理后的特征数据将某个字符和标准字符进行匹配,计算得到得分最高的标准字符,基于得分最高的标准字符确定当前字符分割的位置。本发明能够提高字符分割的精确度。

技术领域

本发明涉及光学字符识别领域,尤其涉及一种基于OCR的字符分割方法。

背景技术

在印刷文字、镭射打标等与光学字符识别相关的领域中,OCR(Optical CharacterRecognition,光学字符识别)都起着重要作用。目前每种产品上几乎都带有生产批号等类似信息,为了保证产品的可追溯性通常都需要用到OCR 技术。但是在实际打印文字信息时,由于不同的打印环境(运动打印、印刷,不同设备打印出现的不一致),会出现文字的变形、间距变化、尺寸变化等一些情况,当根据传统的OCR字符库中的标准字符训练好模型之后,模型很容易由于上述情况出现将两个字符合并成了一个或将一个字符切割成了两个的情况,继而会导致识别率降低。

因此,如何提供一种操作简单且能够提高后续字符识别率的基于OCR的字符分割方法是本领域技术人员亟待解决的一个技术问题。

发明内容

本发明提供一种基于OCR的字符分割方法,以解决上述技术问题。

为解决上述技术问题,本发明提供一种基于OCR的字符分割方法,包括如下步骤:

步骤1,数据收集:基于OCR技术获取模板字库,所述模板字库包括标准字符以及所述标准字符的特征数据,所述特征数据至少包括所述标准字符的灰度、尺寸、长宽比、面积重心、面积以及间距;

步骤2,人工标记:利用OCR技术中的字符识别模型识别与待识别字符同批次的一部分字符,得到字符分割结果,人工检查所述分割结果,标记所述分割结果中的错误项,并将所述错误项及其对应的特征数据收录至所述模板字库中,根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重,得到更新后的字符识别模型;

步骤3,预分割:对所述待识别字符进行行扫描,基于更新后的字符识别模型对所述待识别字符进行初始识别,当某个字符的识别结果的得分小于第一阈值,则对该字符进行强制分割;

步骤4,归一化处理:将经过预分割后的字符的特征数据与所述模板字库中的特征数据进行归一化处理;

步骤5,精调分割位置:根据归一化处理后的特征数据将某个字符和所述标准字符进行匹配,计算得到得分最高的标准字符,基于得分最高的所述标准字符确定当前字符分割的位置。

较佳地,步骤1中,所述基于OCR技术获取模板字库的方法包括:收集所述标准字符的图片,利用所述OCR 技术分割得到所述模板字库。

较佳地,步骤2中,利用字符识别模型识别与待识别字符同批次的字符的数量为20~1000。

较佳地,步骤2中,所述根据更新后的所述模板字库手动修改所述字符识别模型中各个所述特征数据的权重包括:根据更新后的所述模板字库统计每种特征数据的数值分布,基于每种特征数据的稳定区间和变化规律手动修改所述权重。

较佳地,步骤3中,对所述待识别字符进行行扫描包括:设置以一个像素为扫描宽度,进行每一行字符的扫描。

较佳地,步骤3中,对所述字符进行强制分割的依据为:使每行字符的个数与一行能够容纳的标准字符的个数一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州鼎纳自动化技术有限公司,未经苏州鼎纳自动化技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110869780.3/2.html,转载请声明来源钻瓜专利网。

同类专利
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top