[发明专利]基于连接体和模板的字符识别方法在审
申请号: | 201810093945.0 | 申请日: | 2018-01-31 |
公开(公告)号: | CN108388898A | 公开(公告)日: | 2018-08-10 |
发明(设计)人: | 向保松;王井俊;唐武斌;简刚 | 申请(专利权)人: | 宁波市科技园区明天医网科技有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34;G06K9/38;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 毛翔威 |
地址: | 315040 浙江省宁波市高新区创苑路80*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 连接体 字符识别 字符模板 图像二值化 自定义模板 常规字符 多个模板 灰度图像 模板匹配 输出识别 算法实现 图像识别 字符分割 字符图像 不规则 加载 字体 合并 转化 | ||
本发明公开了一种基于连接体和模板的字符识别方法,通过获取字符图像→转化灰度图像→图像二值化→连接体算法实现字符分割→字符模板加载→模板匹配→输出识别结果,从而实现了数字和图像识别。本发明所得到的基于连接体和模板的字符识别方法,能够支持常规字符识别的同时,解决非常规,即超大的或者超小,或字体不规则的字符无法识别问题。并让自定义模板变得简单易操作,字符模板直接在原有模板上增加,也可以方便实现多个模板合并。
技术领域
本发明涉及光学识别以及医学影像处理领域,特别是基于连接体和模板的字符识别方法。
背景技术
在医院的电子胶片打印系统中,需用到字符识别技术,识别出电子胶片上的患者编号和检查编号,根据识别出来的信息匹配患者信息,进行后续的患者自助胶片打印服务。
目前,识别引擎有tesseract、office document image、ABBYY,它们的识别字符的特征是常规的字体风格、常规字体大小方面,能够满足90%的识别场景需要;但是在医学影像设备中,有一些影像设备在影像上产生的很多字符形状不规则,字符特别小,在放大很多倍情况下肉眼才勉强看得清楚,并且放大之后字符有明显的锯齿状。这种情况下,普通识别引擎无法精准识别,准确率较低,无法满足程序识别要求。另外,很多医疗设备是从国外进口,价格十分昂贵,技术支持难以联系和沟通,很难从调整或更换设备的方式来解决问题。在电子胶片识别中,任何一个字符无法识别都意味着巨大的人工成本,甚至引起医患纠纷,因此保证所有字符的准确识别就显的尤为重要。因此,在这种背景下,提高软件对影像的字符识别率,尤其是对非常规字符的识别准确率,是解决该问题的一种廉价可行的方法。
目前,解决此场景方案有a、字符分割:基于投影直方图极值点作为候选分割点并使用分类器+Beam Search (束搜索)搜索最佳分割点 ,对单个文字进行分割;b、特征提取:LBP(局部二值模式)提取文字特征;c、模板匹配。
但是上述解决方案的缺点是对于超大的或者超小的字符无法识别,模板的自定义和模板叠加特别麻烦,且效果不好。程序包庞大臃肿,维护和使用繁琐。
发明内容
本发明的目的是为了解决上述现有技术的不足而提供一种基于连接体和模板的字符识别方法,提高字符识别准确率。
为了实现上述目的,本发明所设计的基于连接体和模板的字符识别方法,包括以下步骤:
a、获取字符图像:在指定区域内获取需要识别的字符图像;
b、转化灰度图像:将彩色图像转换为灰度图像,即将彩色图像的数据结构转换换成YUV数据结构,同时去除YUV数据结构中的UV色度块,保留Y数据块,即亮度块;
c、图像二值化:设定阈值,将计算机内存中大于设定阈值的亮度值设置成255,小于这个值的就设置成0,通常,亮度值为0的代表黑色,亮度值为255代表白色,从而得到只保留纯白的字符和纯黑背景的图像;
d、连接体算法实现字符分割:首先在扫描之前需准备好两个队列,一个当做暂存队列,一个当做字符队列;然后开始扫描,扫描从左上角开始,记录坐标为iCol=0,iRow=0,逐行扫描,通过for循环判断图像矩阵坐标位置byPicture[iCol][ iRow]处的字符亮度值是否等于255;
当扫描到字符存在的时候,首先将这个坐标放入暂存队列,然后通过while循环获取暂存队列的第一个坐标,存放到字符队列,同时执行上中下三行,而对于每行又执行左中右三列扫描,判断是否存在字符亮度值为255的点,如果存在则将当前坐标放入暂存队列;
如此循环就会将连着的所有位置找出来,然后把这些连接成字符的字符矩阵缓存在一个字符矩阵队列中,要求在每次扫描完都记录当前字符的右上角位置,作为下一个字符左上角开始扫描的位置,如此循环切割出所有字符矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波市科技园区明天医网科技有限公司,未经宁波市科技园区明天医网科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810093945.0/2.html,转载请声明来源钻瓜专利网。