[发明专利]文档图像识别方法和设备在审

申请号：	201210583676.9	申请日：	2012-12-28
公开（公告）号：	CN103902993A	公开（公告）日：	2014-07-02
发明（设计）人：	李建杰;李献	申请（专利权）人：	佳能株式会社
主分类号：	G06K9/20	分类号：	G06K9/20
代理公司：	中国国际贸易促进委员会专利商标事务所 11038	代理人：	康建忠
地址：	日本***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文档图像识别方法设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及用于识别文档图像的方法和设备。特别地，本发明涉及用于通过辨识（distinguish）从文档图像分割出的长字符串中的各部分的语言来识别文档图像的方法和设备。

背景技术

在光学字符识别（OCR）领域中，大多数OCR系统常常需要应对一些多语言混合的文档图像。已经开发出了许多用于这样的具有多种语言的混合的文档的辨别（distinction）或者分类（categorization）的技术。一些技术在对于包含不同语言的文档进行OCR之前实现对该文档的分类。

例如，文献1和2中公开了用于区分这种类型的文档的方法，该文献1和2通过引用将全文并入此。在此方法中，已经开发出了如下这样的系统，即该系统可识别二十三种基于拉丁语的语言（英语、法语等）以及三种基于汉语的语言（汉语、日语和韩语）。首先，该系统使用向上凹度（upward concavity）的分析来区分基于拉丁语的脚本与基于汉语的脚本。然后，该系统通过分析字符单元的光学密度来辨识基于汉语的语言。对于基于拉丁语的语言，系统通过分析语言的单词形状标志来对它们进行辨识。

文献3和4公开了其它的分类方法，文献3和4通过引用将全文并入此。在此方法中，已经开发了如下系统，该系统可识别阿拉伯语、表意字和拉丁语脚本。系统通过使用各种属性（行的高度分布、字符密度和水平投影）来归类（classify）出这三种主要的脚本（阿拉伯语、表意字和拉丁语脚本）。

这些方法的缺陷在于它们不能区分包含具有相同或相似形状的字符（character）的语言，例如基于汉语的语言中的简体中文和繁体中文；俄语（希腊语）和拉丁语等。将以具有混合的俄语（希腊语）/拉丁语字母的文档图像为例来描述出现不正确的结果的原因，并且该表述“混合的俄语（希腊语）/拉丁语字母”指的是混合的俄语和拉丁语字母或者混合的希腊语和拉丁语字母。出现不正确的结果的原因在于为了识别具有混合的俄语（希腊语）/拉丁语字母的文档图像中的字符，OCR系统需要基于俄语（希腊语）字符集和拉丁语字符集两者来实现识别。拉丁语的字符集由两部分构成：ASCII字符集和扩展字符集。而且，对于拉丁语，基本上，它们的ASCII字符集部分中定义的字符全部与扩展字符集部分中定义的字符一起被用于拉丁语单词中。对于俄语和希腊语字符集，ASCII字符集中定义的字符没有被用于俄语（希腊语）单词中。在俄语（希腊语）字符集中，存在许多具有与拉丁语字母中的字符相似的形状、但是具有不同的代码的字符。例如，其代码在ISO-8859-7（俄语字符集）中定义为0xB0的俄语字符的形状与在ISO-8859中定义为0x41的拉丁字符‘A’的形状相同。OCR系统不能基于它们的形状特征区分俄语（希腊语）和拉丁语字母中定义的这些相似的字符。因此，这些相似字符的识别结果常常是不正确的。

为了应对包括具有相同或相似形状和不同代码的字符的这类文档图像，中国专利申请No.200810108571.1中公开了基于OCR结果的分类方法，该中国专利申请通过引用将全文并入此。该方法用于区分简体中文和繁体中文。首先，通过基于大量的已知语言文档的训练处理来生成简体中文和繁体中文两者中的识别置信度范围。然后，通过简体中文OCR和繁体中文OCR分别识别未知语言文档。基于该识别置信度范围，选择简体中文或者繁体中文识别结果中的特殊字符。该方法通过对这些特殊字符的在简体中文和繁体中文两者中的平均识别置信度进行比较，来确定文档的语言。

该方法的缺陷在于其执行了整个文档的语言的辨别，但是不能区分文档的句子中的不同语言的单词。图1A示出了与此情况类似的示例性句子，其包括许多具有混合的不同语言的单词。在该句子中根据不同语言的特殊字符确定该句子的语言可能是不可靠的。

通过引用而将全文并入此的文献5中公开的方法通过计算一个单词中的各字符的候选的分值以用于确定是否由其它语言字符进行替换来实现混合字母文档中的语言确定。为了替换类似的字符，该方法生成拉丁－西里尔（西里尔－拉丁）变换表。此方法的缺陷在于需要字符的各候选的三重频率（trigam frequency）和Levenstein距离。因此，该方法的过程费时并且具有巨大的开销。此外，这些数据的生成依赖于可能是互联网的大的子集的大的文档。因此，文献5中公开的方法不能快速且高效地准确识别混合字母文档图像。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于佳能株式会社，未经佳能株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210583676.9/2.html，转载请声明来源钻瓜专利网。

上一篇：一种带挂钩的牛奶箱
下一篇：一种基于平衡型Vector Boosting算法的人眼状态检测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]文档图像识别方法和设备在审

专利文献下载