[发明专利]一种基于汉字笔画特征的中文文本图像倒置判别方法有效
申请号: | 201710695383.2 | 申请日: | 2017-08-15 |
公开(公告)号: | CN107609482B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王建;庞彦伟 | 申请(专利权)人: | 天津大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/40;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 程毓英 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 汉字 笔画 特征 中文 文本 图像 倒置 判别 方法 | ||
本发明涉及一种基于汉字笔画特征的中文文本图像倒置判别方法,包括用I表示输入扫描文本图的灰度图像;对灰度图像I进行去噪、对比度增强以及二值化处理,得到的二值化处理结果用B表示;将B划分为大小相等的36个子区域,选择靠近中心位置的16个子区域作为候选文本区域表示;对于每个候选文本区域,计算其相应的中文本点的数目并做归一化处理:选取特征提取所用的文本区域;选择两个模板,模板1为用于描述汉字中左撇和右捺组成结构的“人”形笔画检测模板2为用于描述汉字中的横折笔画的形的笔画检测模板;使用笔画特征提取算法,计算文本区域所对应的特征值;文本图像倒置检测。
技术领域
本发明涉及文本图像处理技术,尤其是针对中文文本图像的倒置判别技术。
背景技术
随着计算机技术的不断发展,基于OCR的文本图像数字化技术得到了广泛地应用。在完成OCR过程中,文本图像中的文字方向对字符识别性能有很大影响。当文字出现倾斜时,如果不加以校正,会严重影响文字的识别率。特别是当文字发生倒置时(即与正常方向偏差180°左右),此时现有的OCR技术几乎完全失效。因此,在对文本图像进行OCR之前,有必要判断文本图像是否存在倒置情况,以便于后续识别过程正常执行。
现有针对中文文本图像的倒置判别方法主要分为四种:基于OCR识别结果的方法、基于图像投影特征的方法、基于文本标点符号的方法和基于笔画特征的方法。(1)基于OCR识别结果方法是分别对原始图像和旋转图像进行两次OCR识别,通过比较两次识别结果的差异来判断原始图像是否存在倒置。由于需要两次OCR识别,这种方法的执行效率很低。(2)基于投影特征的方法对图像进行投影处理,对投影数据进行归类分析或者利用字符行与正方向数据模板的相似度来确定文本图像的方向。但当文本图像中含有噪声或复杂背景时,检测的准确率会明显降低。(3)基于文本标点符号的方法是根据文本排版中标点与文本行的相对位置属性来判断文本的方向,此法在一定程度上提高了文本图像倒置判断的效率与准确率,但当文本扭曲引起的文本行中字和标点相对错位时,该方法的检测准确率较低。另外,该方法只使用标点特征,对于标点符号较少的文本图像,方法无效。(4)基于汉字笔画特征的文本图像倒置判断方法,根据撇笔画的轮廓与走向特征来判断文本的正反方向。该方法较好的克服了基于标点方法的不足,对文本图像倾斜情况效果良好。但是该方法需要提取出单个汉字,再分析每个汉字的笔画特征,处理速度较慢。另外,如果文本图像的分辨率较低,或者扫描质量较差时,该方法的检测效果有所下降。
专利方面,朱敏等人(专利申请号2012103138349)提出一种基于标点符号的文本上下方向检测方法。该专利所提方法根据标点符号与文本行的相对位置属性来判断文本的方向。这类基于标点符号的方法完全依靠标点特征,对于标点符号较少的文本图像无效,因此这类方法适用范围有限。王建等人(专利申请号2017100902409)提出了基于文本行分类的文本图像倒置快速检测方法。该方法将文本行分为三类:“左缩进文本行”,“右缩进文本行”和“非缩进文本行”,并根据左缩进文本行和右缩进文本行的相对数目,判断文本图像是否存在倒置。但是对于双栏或者多栏排版的文本图像,该方法检测效果不佳。
发明内容
本发明的目的是克服现有技术的上述不足,提供一种处理速度快,适用性强的中文文本图像倒置判别方法。技术方案如下
一种基于汉字笔画特征的中文文本图像倒置判别方法,包括下列步骤:
(1)判断输入扫描文本图像类型,如果是灰度图像,则保持不变;如果是彩色图像,则将将其转换为灰度图像,用I表示灰度图像;
(2)对灰度图像I进行去噪、对比度增强以及二值化处理,得到的二值化处理结果用B表示;
(3)将B划分为大小相等的36个子区域,选择靠近中心位置的16个子区域作为候选文本区域,用Ti(i=1,2,...,16)表示;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710695383.2/2.html,转载请声明来源钻瓜专利网。