[发明专利]彩色文档图像的分层方法和装置有效
| 申请号: | 200810081557.7 | 申请日: | 2008-02-29 |
| 公开(公告)号: | CN101520845A | 公开(公告)日: | 2009-09-02 |
| 发明(设计)人: | 何源;孙俊;藤井勇作;藤本克仁;直井聪 | 申请(专利权)人: | 富士通株式会社 |
| 主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;H04N1/56 |
| 代理公司: | 北京三友知识产权代理有限公司 | 代理人: | 黄纶伟 |
| 地址: | 日本神奈*** | 国省代码: | 日本;JP |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 彩色 文档 图像 分层 方法 装置 | ||
技术领域
本发明涉及彩色文档图像的分层方法和装置,更具体地,涉及具有 单一背景色的彩色文档图像的分层方法和装置。
背景技术
光学字符识别(OCR)是一种通过计算机自动识别点阵形式文档图 像的内容的技术,目前已经被成功的应用于日常生活及办公等领域中。
一般来说,一幅文档图像的识别包括版面分析和字符识别两个步骤, 前者是指将图像分割为各个语义结构,包括段落、行、字、图片等,后 者是将单个字符的信息输入至识别器中进行处理。版面分析的结果直接 将直接影响最终的识别准确率。
人眼在灰度图像上只能识别出几十种灰度等级,却能从彩色图像中 识别出成千上万种色彩,因此彩色图像相对灰度图像而言,能够提供更 多的信息。近十几年来,随着计算机和光学等科技的发展,彩色图像的 打印、扫描、存储和传输能力得到了极大的提高,使得我们日常使用的 文档也逐渐的从灰度图像转变到彩色图像。通常在一副彩色文档图像中, 不同的内容(包括预打印的表格、后打印的内容、手写的内容,以及印 章等)用不同的颜色来表示,以便于人们阅读。
如果我们能根据颜色特征将彩色文档图像分解为若干层,使得每层 对应于文档中某一特定内容,然后分别对各层进行处理和识别,那么该 输入文档的识别过程将会得到有效的简化,识别的准确率也能大大提高。
在非专利文献1中公开了一种直接对各像素颜色中红、绿、蓝分量 进行线性计算的分类方法。该方法首先预定义若干种颜色,然后通过实 验归纳总结出根据各颜色分量进行线性计算来分类的准则。这种方法的 优点是简单、快速,但是适用范围太窄,往往需要针对不同的文档、不 同的扫描仪设置不同的分类准则。
非专利文献2和3公开了基于在RGB颜色空间上进行聚类的分类方 法。该方法将每一个采样点的颜色视为RGB颜色空间中的一个样本,然 后用一些常用的聚类算法,例如k-均值算法、图聚类算法等,对其进行 分类。这种方法原理非常直观,但是没有考虑彩色文档图像中颜色分布 的产生原因,而用一种通用的三维数据分类算法进行处理,在应用上受 到一些条件的局限:某些算法需要事先设定类别数量等先验知识,而且 各类样本在空间中符合某一特定的分布特征,而通常这些条件是不满足 的。
专利文献1和2公开了基于在亮度分量上进行分类的方法。这类方 法首先将输入彩色文档图像从RGB颜色空间转化到亮度-色度形式的颜 色空间,然后仅仅根据亮度分量进行分层的处理,类似于对灰度图像进 行分层。通常这类算法将亮度图像分割为文字、线、普通图片、半调色 图片等属性的区域,然后再根据各区域的不同属性进行不同的处理。由 于这些算法仅仅考虑了亮度信息,没有利用颜色信息,造成了信息缺失, 因此导致其适用范围受到了很大的限制。
非专利文献4公开了基于在RGB颜色空间上进行线型聚类的分类方 法。观察结果表明,彩色文档图像在RGB颜色空间中表现为一系列线段 型的聚类,其中每一条线段的两个端点分别为该层的背景色和理想情况 下的前景色。因此,该方法首先根据颜色空间中样本分布密度的大小来 选择一系列背景色和前景色的候选,然后找出这些背景色和前景色所构 成的线段,并对其进行合并、排除等操作,最终将所得到的一系列线段 作为分类结果,并对输入图像进行分层。该方法较以上两类方法而言, 充分考虑了彩色文档图像的形成机理及其在颜色空间的分布特征,提高 了分层结果的正确,并且可以处理多背景区域的彩色文档。其缺点在于 在候选颜色的选取以及对线段进行分析的过程中,需要预定义多个参数, 参数设置将直接影响分层效果;并且,由于在选择候选颜色时只考虑了 样本在颜色空间中的分布密度,使得一些像素数量很小的图层很可能会 被忽略。
非专利文献1:Tony Allen,Nasser Sherkat,Seong Wong,“Use of colour for hand-filled form analysis and recognition”,Pattern Analysis & Applications,v.8,n.1,pp.163-180,2005.
非专利文献2:J.Zhou and D.Lopresti,“Extracting Text from WWW Images,”Proceedings of the 4th ICDAR,Ulm,Germany,v.1,pp.248-252, 1997.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/200810081557.7/2.html,转载请声明来源钻瓜专利网。
- 彩色图像和单色图像的图像处理
- 图像编码/图像解码方法以及图像编码/图像解码装置
- 图像处理装置、图像形成装置、图像读取装置、图像处理方法
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像解密方法、图像加密方法、图像解密装置、图像加密装置、图像解密程序以及图像加密程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序以及图像解码程序
- 图像编码方法、图像解码方法、图像编码装置、图像解码装置、图像编码程序、以及图像解码程序
- 图像形成设备、图像形成系统和图像形成方法
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序
- 图像编码装置、图像编码方法、图像编码程序、图像解码装置、图像解码方法及图像解码程序





