[发明专利]一种字符分割方法及装置在审
申请号: | 201310274340.9 | 申请日: | 2013-07-02 |
公开(公告)号: | CN103400132A | 公开(公告)日: | 2013-11-20 |
发明(设计)人: | 周龙沙;邵诗强 | 申请(专利权)人: | TCL集团股份有限公司 |
主分类号: | G06K9/34 | 分类号: | G06K9/34 |
代理公司: | 深圳中一专利商标事务所 44237 | 代理人: | 张全文 |
地址: | 516001 广东省惠州市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字符 分割 方法 装置 | ||
技术领域
本发明属于文字处理技术领域,尤其涉及一种字符分割方法及装置。
背景技术
字符包括汉字、字母和数字,常规的字符分割方法一般基于图像灰度的直方图投影,或者基于直方图投影后计算一个平均的字符宽度进行,或者基于直方图投影后计算一个平均字符宽度进行,或者对于每个灰度直方图得到的点进行分析,采用一些特定措施来处理,但是上述方法这些都只是具有一定的适用范围,只能用于对汉字或者字母中一种进行分割,如果同时对汉字、字母和数字进行分割,经常出现错误,效果不佳。
发明内容
本发明实施例的目的在于提供一种字符分割方法及装置,以解决现有技术存在的,同时对汉字、字母和数字进行分割时,经常出现错误和效果不佳的问题。
本发明的实施例是这样实现的,一种字符分割方法,所述方法包括以下步骤:
对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;
对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;
按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;
根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度;
当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。
本发明的另一实施例的目的在于提供一种字符分割装置,所述装置包括:
预处理模块,用于对包含字符的图像进行预处理得到处理后的二值化图像,所述预处理包括中值滤波、直方图均衡化和图像二值化;
处理模块,用于对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组;
所述处理模块,还用于按照预设的合并条件,对第i行字符的第一矩形框组进行合并处理,得到第i行字符的第二矩形框组;
计算单元,用于根据第i行字符的第二矩形框组的水平长度,采用预设定方法确定第i行字符的平均宽度;
所述处理单元,还用于当第i行字符的第二矩形框组的宽度与第i行字符的平均宽度差值小于预设宽度差值时,保留所述第i行字符的第二矩形框组,否则,保留所述第i行字符的第一矩形框组。
本发明实施例通过将字符所在矩形框进行绝对值运算,将误分割的汉字合并,并且通过汉字与数字及字母的宽度不一样,将汉字与数字及字符分割开,解决了现有技术存在的,同时对汉字、字母和数字进行分割时,经常出现错误和效果不佳的问题。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一种字符分割方法第一实施例提供的实现流程图;
图2是本发明一种字符分割方法第一实施例提供的二值化图像在y方向统计得到的曲线图;
图3是本发明一种字符分割装置第一实施例提供的模块结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明第一实施例提供了字符分割方法,所述方法如图1所示,具体步骤包括:
在步骤S101中,对包含字符的图像进行预处理得到处理后的二值化图像。
需要说明的是,字符包括汉字、字母和数字等,包含字符的图像是指照相机或者扫描仪等设备拍摄纸质文本获取的图像,在拍摄过程中由于拍照条件可能造成字符粘连或者断笔等,所述图像中的字符可能只有一行,也可能有多行;所述预处理包括但不限于中值滤波、直方图均衡化和图像二值化,通过所述预处理将包含字符的图像转换为体现文字特征的图像。
进一步需要说明的是,对于预处理后的二值化图像,在y(y轴)方向上进行二值化数据统计,得到文字在y方向上的分布情况,根据方向上的分布情况,根据y方向的波峰数量可以确定该图像中有多少行字符。图2示出了对汉字、字母和数字的二值化图像在y方向统计得到的曲线图。
在步骤S102中,对所述二值化图像的第i行字符进行n连通域的搜索,得到第i行字符的第一矩形框组。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于TCL集团股份有限公司,未经TCL集团股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201310274340.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种治疗阳痿的中药组合物
- 下一篇:一种新型电脑绣花线的加工方法