[发明专利]彩色文档图像的分层方法和装置有效

申请号：	200810081557.7	申请日：	2008-02-29
公开（公告）号：	CN101520845A	公开（公告）日：	2009-09-02
发明（设计）人：	何源;孙俊;藤井勇作;藤本克仁;直井聪	申请（专利权）人：	富士通株式会社
主分类号：	G06K9/20	分类号：	G06K9/20;G06K9/34;H04N1/56
代理公司：	北京三友知识产权代理有限公司	代理人：	黄纶伟
地址：	日本神奈***	国省代码：	日本;JP
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	彩色文档图像分层方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及彩色文档图像的分层方法和装置，更具体地，涉及具有单一背景色的彩色文档图像的分层方法和装置。

背景技术

光学字符识别(OCR)是一种通过计算机自动识别点阵形式文档图像的内容的技术，目前已经被成功的应用于日常生活及办公等领域中。

一般来说，一幅文档图像的识别包括版面分析和字符识别两个步骤，前者是指将图像分割为各个语义结构，包括段落、行、字、图片等，后者是将单个字符的信息输入至识别器中进行处理。版面分析的结果直接将直接影响最终的识别准确率。

人眼在灰度图像上只能识别出几十种灰度等级，却能从彩色图像中识别出成千上万种色彩，因此彩色图像相对灰度图像而言，能够提供更多的信息。近十几年来，随着计算机和光学等科技的发展，彩色图像的打印、扫描、存储和传输能力得到了极大的提高，使得我们日常使用的文档也逐渐的从灰度图像转变到彩色图像。通常在一副彩色文档图像中，不同的内容(包括预打印的表格、后打印的内容、手写的内容，以及印章等)用不同的颜色来表示，以便于人们阅读。

如果我们能根据颜色特征将彩色文档图像分解为若干层，使得每层对应于文档中某一特定内容，然后分别对各层进行处理和识别，那么该输入文档的识别过程将会得到有效的简化，识别的准确率也能大大提高。

在非专利文献1中公开了一种直接对各像素颜色中红、绿、蓝分量进行线性计算的分类方法。该方法首先预定义若干种颜色，然后通过实验归纳总结出根据各颜色分量进行线性计算来分类的准则。这种方法的优点是简单、快速，但是适用范围太窄，往往需要针对不同的文档、不同的扫描仪设置不同的分类准则。

非专利文献2和3公开了基于在RGB颜色空间上进行聚类的分类方法。该方法将每一个采样点的颜色视为RGB颜色空间中的一个样本，然后用一些常用的聚类算法，例如k-均值算法、图聚类算法等，对其进行分类。这种方法原理非常直观，但是没有考虑彩色文档图像中颜色分布的产生原因，而用一种通用的三维数据分类算法进行处理，在应用上受到一些条件的局限：某些算法需要事先设定类别数量等先验知识，而且各类样本在空间中符合某一特定的分布特征，而通常这些条件是不满足的。

专利文献1和2公开了基于在亮度分量上进行分类的方法。这类方法首先将输入彩色文档图像从RGB颜色空间转化到亮度-色度形式的颜色空间，然后仅仅根据亮度分量进行分层的处理，类似于对灰度图像进行分层。通常这类算法将亮度图像分割为文字、线、普通图片、半调色图片等属性的区域，然后再根据各区域的不同属性进行不同的处理。由于这些算法仅仅考虑了亮度信息，没有利用颜色信息，造成了信息缺失，因此导致其适用范围受到了很大的限制。

非专利文献4公开了基于在RGB颜色空间上进行线型聚类的分类方法。观察结果表明，彩色文档图像在RGB颜色空间中表现为一系列线段型的聚类，其中每一条线段的两个端点分别为该层的背景色和理想情况下的前景色。因此，该方法首先根据颜色空间中样本分布密度的大小来选择一系列背景色和前景色的候选，然后找出这些背景色和前景色所构成的线段，并对其进行合并、排除等操作，最终将所得到的一系列线段作为分类结果，并对输入图像进行分层。该方法较以上两类方法而言，充分考虑了彩色文档图像的形成机理及其在颜色空间的分布特征，提高了分层结果的正确，并且可以处理多背景区域的彩色文档。其缺点在于在候选颜色的选取以及对线段进行分析的过程中，需要预定义多个参数，参数设置将直接影响分层效果；并且，由于在选择候选颜色时只考虑了样本在颜色空间中的分布密度，使得一些像素数量很小的图层很可能会被忽略。

非专利文献1：Tony Allen，Nasser Sherkat，Seong Wong，“Use of colour for hand-filled form analysis and recognition”，Pattern Analysis & Applications，v.8，n.1，pp.163-180，2005.

非专利文献2：J.Zhou and D.Lopresti，“Extracting Text from WWW Images，”Proceedings of the 4th ICDAR，Ulm，Germany，v.1，pp.248-252， 1997.

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于富士通株式会社，未经富士通株式会社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200810081557.7/2.html，转载请声明来源钻瓜专利网。

上一篇：数据事件发送方法和装置以及事件处理系统
下一篇：基于小生境免疫算法的电力系统动态等值方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]彩色文档图像的分层方法和装置有效

专利文献下载