[发明专利]用于从文档图象抽取标题的标题抽取装置及其方法无效
申请号: | 01135946.3 | 申请日: | 1996-09-04 |
公开(公告)号: | CN1365080A | 公开(公告)日: | 2002-08-21 |
发明(设计)人: | 胜山裕;直井聪 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/34;G06T3/40;G06T11/60;H04N1/387 |
代理公司: | 中国国际贸易促进委员会专利商标事务所 | 代理人: | 吴丽丽 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 文档 图象 抽取 标题 装置 及其 方法 | ||
本申请是申请号为“96111897.0”,发明名称为“用于从文档图象抽取标题的标题抽取装置及其方法”,申请日为1996年9月4日的分案申请。
本发明涉及图象数据识别过程,特别涉及用于从作为文档数据所获得的文档图象抽取标题区域的标题抽取装置及其方法。
用于从文档图象,即通过诸如扫描仪等光电转换装置从普通文档所获得的图象数据,抽取诸如文档标题之类的局部区域这样的相关技术的对照有:
(1)从带有固定区域的一文档抽取一标题(如Japanese PatentLaid-Open Publication No.64-46873中所透露的)。
(2)利用诸如颜色标记或者轮廓线这种特定的标记手段标记文档的标题部分。通过扫描仪扫描文档并抽取标题部分(如JapanesePatent Laid-Open Publication No.01-150974中所透露的)。
(3)诸如文档的字符串或者照片的物理结构表示为树结构等等。通过对树结构作为逻辑结构匹配,物理结构被标记有“标题”、“作者姓名”等等(如同Japanese Patent Laid-Open Publication No.01-183784,05-342326等中所透露的)。
(4)指定文档图象部分的区域。对区域内部进行投影并产生黑色象素的直方图。获得被投影的黑色象素数值在两个预定的阈值之间连续的区域。连续的部分的长度超过另一预定阈值的部分被抽取为标题(如同Japanese Patent Laid-Open Publication No.05-274471中所透露的)。
此外,用于从包括一个表的文档图象抽取诸如标题的部分区域的以下相关技术对照是已知的。
(5)从包括一个表的格式化文档中抽取一个标题(如同JapanesePatent Laid-Open Publication No.07-093348中所透露的)。
(6)对文档图象进行投影并产生黑色象素的直方图。从直方图的分布抽取轮廓线。由轮廓线所围绕的字符串被抽取作为标题(如同Japanese Patent Laid-Open Publication No.05-274367中所透露的)。
(7)识别文档图象中的所有字符区域的字符。对于所获得的字符代码按语言及逻辑进行诸如关键字对照和模式基本分析的知识处理。从知识处理的结果抽取看上去是标题的字符串(如同Japanese Patent Laid-OpenPublication No.03-276260中所透露的)。
(8)由文档图象中白色象素连接部分所围绕的区域被抽取作为表部分。从表的内部抽取定界线。获得由该定界线所围绕的区域。在所获得的区域中的一个图象与预定的字符串(模板)进行模板匹配。于是,抽取相同的字符串作为标题(如同Japanese Patent Laid-Open Publication No.03-74728中所透露的)。
然而,这些相关技术对照具有以下问题。
在方法(1)和(5)中,只能处理格式化的文档。当格式改变时,要被抽取的部分的赋值也将改变。
在方法(2)中标记原始文档是麻烦的。
在方法(3)中,要准备一个以三种结构等表示的逻辑结构的辞典。当文档的逻辑结构不包含在该辞典中时,则标题不能被精确地抽取。
在方法(4)中,如果这一方法用于文档图象的所有区域,虽然该方法用于分配文档图象的区域是不清楚的,诸如表或者字符大块象素部分不能正确地被抽取作为标题。而且,在仅包含字符的文档中,大字模的字符串是不总是标题。于是标题可能不能正确地被抽取。
在方法(6)中,如果包含标题的表由单定界线围绕,则标题能够被抽取。然而由于一个表包含复杂的定界线,标题区域就不能被精确地区分。
在方法(7)中,当前可用的字符识别过程占用的时间长。于是,这一方法基本上用作为批处理。此外,由于识别率不是100%,除非使用标题位置的信息,否则会抽取不正确的部分作为标题。
在方法(8)中,对于图象的模板匹配处理要用时间。此外,该处理受到模板中所使用的字模的形状和规格的不良影响。并且这一方法中,只能抽取预定的字符串作为标题。于是在这一方法中,可处理的文档类型是有限制的。
于是在传统的标题抽取方法中,需要特定的准备或者特定的操作。此外,可由这些方法处理的文档和标题是有限制的。
本发明的一个目的是提供易于从文档图象抽取标题部分的标题抽取装置及其方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/01135946.3/2.html,转载请声明来源钻瓜专利网。