[发明专利]识别图像块中文字的方向的方法和装置有效
申请号: | 201110209832.0 | 申请日: | 2011-07-20 |
公开(公告)号: | CN102890783A | 公开(公告)日: | 2013-01-23 |
发明(设计)人: | 孙俊;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/32 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;陈炜 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 图像 文字 方向 方法 装置 | ||
技术领域
本发明一般地涉及文档图像处理。具体而言,本发明涉及一种识别图像块中文字的方向的方法和装置。
背景技术
当用户使用扫描仪等设备对一叠文档进行扫描时,理想的输入是每个文档的每一页都以正向放置。以正向放置文档时,用户能够轻松阅读该文档,扫描出的文档图像也无需用户调整方向即可阅读。然而,实际使用中,用户要扫描的文档往往是以正向0°、反向180°、横向90°和270°交叠放置。如果用户需要在扫描时对文档的放置方向进行逐页的检查和调整,工作是繁重而耗时的。因此,扫描仪设计有自动文档图像方向判别的功能。基于自动文档图像方向判别功能,扫描得到的文档图像可以被调整为正向,从而减轻了用户的负担,提高了用户的使用效率。
传统的文档图像自动判别方法是:找到文档图像中的文本行,在4个可能的方向上分别做光学字符识别OCR(Optical Character Recognition)处理,得到4个可能方向上的识别字符及对应的置信度或识别距离,并计算文本行的平均置信度或平均识别距离。平均置信度最大或平均识别距离最小的方向被判别为文本行的方向。进而根据文本行的方向判断文档图像的方向。文本行的方向是指文本行的正向,文档图像的方向是指文档图像的正向。下文中,文字(的)方向是指文字的正向。
发明内容
在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
如图1所示,输入文本行“TIP AMOUNT”的图像块,设该方向为0°方向,将该文本行图像块旋转180°得到180°方向的文本行图像块。由于90°和270°方向与0°和180°方向的处理类似,因此这里仅以0°和180°为例进行说明。分别对0°和180°上的文本行图像块进行光学字符识别OCR处理,得到如图1中所示的两个方向上的子图像块、子图像块对应的识别字符及其置信度。
采用传统的方法,0°方向上识别字符的平均置信度=(0.54+0.36+0.48+0.61+0.62+0.61+0.58+0.65)/8=0.55625,180°方向上识别字符的平均置信度=(0.62+0.58+0.65+0.62+0.46+0.50+0.61)/7=0.5771。由于0.55625小于0.5771,传统的方法会将180°方向(即平均置信度高的方向)错误地判断为文本行图像块中文字的方向。
产生上述错误的原因之一是采用支持多语种的OCR引擎时,OCR引擎给出的识别字符有时会属于不同的语种。这一点是容易理解的。因为属于一个语种的字符在其被正向放置时容易被识别为属于正确语种的字符,而其经过旋转90°、180°、270°之后不总能够被识别为同语种的字符,反而可能会与其它语种中的字符形似。
现有技术中,缺乏对语种一致性的考虑。本发明的发明人意识到文字经多个角度旋转后得到的各个方向的OCR识别结果中,正向的文字被OCR引擎误判为其它语种字符的概率最低,因而该方向的各个识别字符的语种一致性更高,因此,对包含文字的图像块分别以不同的方向作为假设文字方向进行OCR处理,得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量时,能够在其中的至少一个方向上判断出图像块中的文字所属的语种,并且识别结果中与所判断的语种不同的识别字符更有可能对应不是正向的文字。
在传统的利用平均识别置信度来判断文本行方向的方法中,由于没有考虑到语种的一致性,造成了一定的性能下降。
本发明的目的是针对上述问题,提出了一种能够正确识别图像块中文字的方向的方法和装置。该方案通过考虑识别字符的语种一致性并据此对子图像块对应的正确性度量(置信度或识别距离)进行调整,能够提高自动文档图像方向判别的正确率。
为了实现上述目的,根据本发明的一个方面,提供了一种识别图像块中文字的方向的方法,包括:分别以不同的方向作为假设文字方向对所述图像块进行光学字符识别处理,以得到在各个所述假设文字方向上的子图像块、子图像块对应的识别字符及其正确性度量;判断图像块中文字所属的语言组;调整各个所述假设文字方向上不属于所判断的语言组的识别字符所对应的子图像块对应的正确性度量;基于调整后的正确性度量计算各个所述假设文字方向上的累积正确性度量;以及根据所述累积正确性度量识别图像块中文字的方向。
根据本发明的一个具体实施例,所述正确性度量包括置信度和识别距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110209832.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种铝硅基锂离子电池负极材料的制备方法
- 下一篇:一种太阳能热水器
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序