[发明专利]通过用字符的形状特征来比较字符而检测文档变化的方法在审
申请号: | 201210075911.1 | 申请日: | 2012-03-21 |
公开(公告)号: | CN102722729A | 公开(公告)日: | 2012-10-10 |
发明(设计)人: | 俞颂阳;明伟 | 申请(专利权)人: | 柯尼卡美能达美国研究所有限公司 |
主分类号: | G06K9/64 | 分类号: | G06K9/64;G06T7/00 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 陈炜;李德山 |
地址: | 美国加利*** | 国省代码: | 美国;US |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 用字 形状 特征 比较 字符 检测 文档 变化 方法 | ||
技术领域
本发明涉及一种用于检测目标文档中相对于原始文档的变化的方法,并且本发明特别地涉及一种使用字符的形状特征来检测变化的变化检测方法。
背景技术
闭环处理指的是打印原始数字文档(其可以包含文本、图形、图像等)、使用文档的打印的硬拷贝(诸如分发硬拷贝、复印硬拷贝等)、接着将文档的硬拷贝扫描回数字格式。鉴定经扫描的数字文档指的是确定经扫描的文档是否为原始数字文档的真正副本,即文档处于硬拷贝格式中时是否已经发生变化。已经提出了各种类型的文档鉴定和变化检测方法。许多文档鉴定方法中的目的是检测变化(增加和删除)是什么。一种类型的文档鉴定方法执行经扫描文档与原始数字文档的图像比较。这种方法有时被称为基于像素的变化检测方法。在另一类型的文档鉴定方法中,将表示文档内容或者与文档内容有关的数据编码在条形码中,并将条形码打印在文档自身上以帮助后来的文档鉴定。
在传统的基于像素的变化检测方法中,逐像素地比较原始数字图像和经扫描的图像(目标图像),以确定经扫描的图像中是否有变化。打印机和扫描仪两者的高空间分辨率导致高分辨率的经扫描图像。传统变化检测方法中的整个图像的全面图像比较处理是计算密集的。
此外,基于像素的图像比较有时产生错误的肯定检测。举例而言,对于位于原始图像和目标图像的相同位置处的两个字符,即使这两个字符是相同的(即,字符没有变化),目标图像和原始图像之间也可以存在像素级差异。这些由产生目标文档的打印和扫描过程而引起的像素级差异可能导致对变化的错误的肯定检测。
发明内容
本发明涉及一种用于通过将经扫描的文档图像与原始数字文档图像进行图像比较来对文档进行鉴定的改进方法。
本发明的目标是提供基于图像比较的变化检测方法,该方法降低了错误的肯定检测。
下文的描述将给出本发明的其他特征和优点,并且这些特征和优点将根据该描述而变得至少部分地明显或者可以通过本发明的实践来习得。通过本发明的说明书、权利要求书以及附图中特别指出的结构,可以实现和获得本发明的目标和其他优点。
为了达到这些和/或其他目标,作为体现或广泛地描述,本发明提供了一种在数据处理设备中实现的用于检测原始图像和目标图像之间的变化的方法,所述原始图像和所述目标图像是二进制位图图像,所述方法包括以下步骤:(a)在所述原始图像和所述目标图像中定义多个边框,每个边框包围一个字符的一个或多个连接的像素组;(b)在所述原始图像和所述目标图像中识别多对匹配边框,其中,每对匹配边框在所述原始图像和所述目标图像中分别具有基本上相同的位置;(c)针对每对匹配边框:(c1)计算多个形状特征,所述多个形状特征包括:(1)该对边框所包围的一对字符中的每一个字符的欧拉数,(2)该对边框中的每一个边框的高宽比,(3)该对边框中的每一个边框的像素密度,其中,边框的像素密度被定义为属于该边框的字符的像素数量除以该边框的总像素数量,以及(4)该对字符之间的豪斯多夫距离;以及(c2)通过评估(1)该对字符的欧拉数是否相等,(2)该对边框的高宽比之间的差是否小于第一预定阈值,(3)该对边框的像素密度之间的差是否小于第二预定阈值,以及(4)该对字符之间的豪斯多夫距离是否小于第三预定阈值,确定该对边框所包围的该对字符是相同字符还是不同字符。
在一个示例中,步骤(c2)包含:如果(1)该对字符的欧拉数相等,(2)该对边框的高宽比之间的差小于第一预定阈值,(3)该对边框的像素密度之间的差小于第二预定阈值,并且(4)该对字符之间的豪斯多夫距离小于第三预定阈值,那么确定该对字符是相同字符;以及,否则,确定该对字符为不同字符。
在另一方面,本发明提供了一种在数据处理设备中实现的用于比较分别位于原始图像和目标图像中的两个字符的方法,所述原始图像和所述目标图像是二进制位图图像,每个字符是包围在各自的边框中的一个或多个连接的像素组,所述方法包括以下步骤:(a)计算多个形状特征,所述多个形状特征包括:(1)该对边框所包围的该对字符中的每一个字符的欧拉数,(2)该对边框中的每一个边框的高宽比,(3)该对边框中的每一个边框的像素密度,其中,边框的像素密度被定义为属于该边框的字符的像素数量除以该边框的总像素数量,以及(4)该对字符之间的豪斯多夫距离;以及(b)通过评估(1)该对字符的欧拉数是否相等,(2)该对边框的高宽比之间的差是否小于第一预定阈值,(3)该对边框的像素密度之间的差是否小于第二预定阈值,以及(4)该对字符之间的豪斯多夫距离是否小于第三预定阈值,确定该对边框所包围的该对字符是相同字符还是不同字符。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于柯尼卡美能达美国研究所有限公司,未经柯尼卡美能达美国研究所有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210075911.1/2.html,转载请声明来源钻瓜专利网。