[发明专利]一种被污染的胶片文字识别方法有效
申请号: | 201810429064.1 | 申请日: | 2018-05-08 |
公开(公告)号: | CN108734167B | 公开(公告)日: | 2022-05-17 |
发明(设计)人: | 曾瑜;罗海波;蒋湘君;刘肖琳 | 申请(专利权)人: | 湖南开启时代电子信息技术有限公司 |
主分类号: | G06V30/19 | 分类号: | G06V30/19;G06V30/20;G06V30/148;G06V10/74;G06K9/62 |
代理公司: | 湘潭市汇智专利事务所(普通合伙) 43108 | 代理人: | 颜昌伟 |
地址: | 411202 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 污染 胶片 文字 识别 方法 | ||
本发明公开了一种被污染的胶片文字识别方法,包括以下步骤:将胶片文字图片进行二值化处理;获得正常字符块的大小和字符块之间的间隔像素;构造特征模板并进行标注;从待识别文字图片中找到完全匹配点;从完全匹配点开始进行双向的字符分割,得到待识别的字符块;将所有待识别的字符块与特征模板进行模板匹配,得到待识别的识别结果;按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。本发明首先根据需要识别的图像文字的两种模式构造少量的特征模板,然后将待识别文字分割成若干字符块,再将所有的字符块与特征模板进行匹配就可实现特殊文字图像的识别,不仅工作量小,效率高,并且不失准确性。
技术领域
本发明涉及图像识别领域,特别涉及一种被污染的胶片文字识别方法。
背景技术
对于胶片上的文字,尤其是医用胶片上的某些文字,需要准确快速地识别出,从而与医院数据库中的相关数据信息进行关联,实现胶片自助打印功能,并且多个科室可以共享数据、共享机器,从而减少排队现象,缩短排队时间,降低成本。
常用的光学字符识别软件可以识别正规的清晰的字符,胶片上打印的印刷体字符正常情况下是白色字符打印在黑色背景上,如图1所示,比较容易识别,但是也有将白色字符打印到白色背景下形成的黑色阴影,如图2所示的“2017”;或者一个字符一部分是打印在黑色背景下,一部分是打印在白色背景下,如图2所示的字符“1“,后面两种情况虽然人眼也比较容易识别,但是机器很难识别。
发明内容
为了解决上述技术问题,本发明提供一种工作量小、准确率高的被污染的胶片文字识别方法。
本发明解决上述问题的技术方案是:一种被污染的胶片文字识别方法,包括以下步骤:
1)将胶片文字图片进行二值化处理;
2)获得正常字符块的大小和字符块之间的间隔像素;
3)将所有可能出现的字符块的黑底白字和白底黑字模板均作为特征模板并进行标注;
4)从待识别文字图片中随机选取一个字符块与所有特征模板进行匹配,找到完全匹配点;
5)从完全匹配点开始进行双向的字符分割,得到若干待识别的字符块;
6)将所有待识别的字符块与特征模板进行模板匹配,得到待识别的识别结果;
7)按次序将每个待识别字符块对应的标注连接起来即为待识别文字图片所识别的整个字符串。
上述被污染的胶片文字识别方法,所述步骤2)中,由于胶片文字是机器自动打印的印刷体字符,因此用一个m*n点阵表示字符块,并确定字符块间隔是k个像素。
上述被污染的胶片文字识别方法,所述步骤3)中,得到的所有特征模板用CHR[w]*[m]*[n]点阵表示出来并进行标记,其中w=1,2,3…v,v为特征模板的总数量。
上述被污染的胶片文字识别方法,所述步骤4)中,首先将待识别图片看作是一个大小为a*b的点阵,am,bn,然后从[a]*[b]点阵中随机选取一个大小为m*n的点阵作为匹配点阵,并记为OCR[m]*[n],然后将匹配点阵与各特征模板进行字符匹配,以寻找完美匹配点。
上述被污染的胶片文字识别方法,所述步骤4)中,完全匹配点的寻找公式为:
若存在某个w能使sum=0,则所选取的匹配点阵即为完全匹配点,若不存在,则重新选取匹配点阵。
上述被污染的胶片文字识别方法,所述步骤4)中,在[a]*[b]点阵中可供选取的匹配点阵的总数量为(a-m+1)*(b-n+1)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南开启时代电子信息技术有限公司,未经湖南开启时代电子信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810429064.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种新闻标题检测方法及装置
- 下一篇:一种手写数字的识别方法