[发明专利]一种多语种倾斜文档图像的自动语言判别方法有效

申请号：	201610053497.2	申请日：	2016-01-27
公开（公告）号：	CN105760901B	公开（公告）日：	2019-01-04
发明（设计）人：	王恺	申请（专利权）人：	南开大学;天津神州浩天科技有限公司
主分类号：	G06K9/68	分类号：	G06K9/68;G06K9/32
代理公司：	天津盛理知识产权代理有限公司 12209	代理人：	王利文
地址：	300071***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语种倾斜文档图像自动语言判别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种多语种倾斜文档图像的自动语言判别方法，其技术特点是包括以下步骤：对于采集的文档图像，利用Gabor滤波方法进行文档图像语种的自动判别，将文档图像分为亚洲语种文档图像和拉丁语种文档图像；针对不同语种的文档图像使用相应的倾斜校正算法，得到校正后的文档图像，然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别，从而实现文档图像的语言自动判别功能。本发明设计合理，其采用Gabor滤波和关键词匹配相结合的方法实现了文档图像的自动语言判别功能，并且通过分块投票方式保证了方法的鲁棒性，提高了识别的准确率，准确率满足了实际应用的需求。

技术领域

本发明属于信息技术领域，尤其是一种多语种倾斜文档图像的自动语言判别方法。

背景技术

光学字符识别(简称OCR)技术已经被广泛地应用于文档图像的数字化工作，其作用是将通过照相机拍摄或扫描仪扫描得到的文档图像转化为可编辑、可搜索的电子文档。随着国际化程度的不断提高，具有多种语言的文档图像往往混杂在一起。目前的OCR技术多是针对某种特定语言的文档图像进行处理，根据人为指定的语言对文档图像进行版面分析和文字识别、将其转化为可编辑和可搜索的电子文档。通过文档图像自动语言判别方法，可以自动将待做OCR处理的文档图像按语言分类，根据语言判别结果将文档图像送入不同的OCR引擎或使用不同的语言选项进行处理，从而减少人工干预、降低人工成本。由于某些语言使用的字符结构相似，以及图像采集过程中经常遇到的噪音多、分辨率不高等问题，难以设计出一种能够满足实际应用需要的具有高准确率的文档图像自动语言判别方法。

目前，在文档图像自动语言判别方法的研究工作中，主要是利用纹理特征和文字形状特征来做语言判别，其存在的主要问题是：(1)纹理特征对于字形相似的语言难以达到实用的效果，如英/德/法语言判别等；(2)对于字形差异较大的语言，使用单一语言区域的纹理特征也会造成判别结果不稳定、准确率偏低等问题；(3)与纹理特征相比，文字形状特征更适用于区分文字结构相似的语言，但在分辨率不高的情况下利用文字形状特征也难以达到满足实际应用需要的准确率；(4)待处理文档图像可能存在倾斜等问题，而对于不同语种的文档图像需要应用不同的倾斜校正方法，如由于字符结构差异较大、中文文档图像和英文文档图像的倾斜校正方法完全不同。另外，不同语种文档图像的文字切分方法也完全不同。因此，在未知语种的情况下无法在文档图像中提取正确的文字形状特征、从而使基于文字形状特征的自动语言判别方法失效。综上所述，现有的文档图像自动语言判别方法虽然取得了一定的效果，但由于某些语言文字在纹理和形状上都非常相似，以及图像采集过程中引入的噪音多、分辨率不高、倾斜等问题，其准确率难以满足实际应用的需求。

发明内容

本发明的目的在于克服现有技术的不足，提供一种设计合理、准确率高且适应性强的多语种倾斜文档图像的自动语言判别方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种多语种倾斜文档图像的自动语言判别方法，包括以下步骤：

步骤1、对于采集的文档图像，利用Gabor滤波方法进行文档图像语种的自动判别，将文档图像分为亚洲语种文档图像和拉丁语种文档图像；

步骤2、针对不同语种的文档图像使用相应的倾斜校正算法，得到校正后的文档图像，然后在校正后的文档图像上应用关键词匹配方法进行文档图像语言的自动判别，从而实现文档图像的语言自动判别功能。

进一步，所述步骤1的具体实现方法包括以下步骤：

(1)对采集的文档图像使用数学形态学的方法进行滤噪处理；

(2)对于存在倾斜的文档图像，从中选取适合于做自动语言判别的一定数量的文字区域；

(3)对选出的每个文字区域分别做Gabor滤波，并根据提取到的Gabor特征、应用分类器对每个文字区域的语种进行自动判别；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载