[发明专利]文档文件种类识别装置以及文档文件种类识别方法无效
申请号: | 201010292914.1 | 申请日: | 2010-09-20 |
公开(公告)号: | CN102054171A | 公开(公告)日: | 2011-05-11 |
发明(设计)人: | 富沢肇 | 申请(专利权)人: | 株式会社东芝;东芝泰格有限公司 |
主分类号: | G06K9/20 | 分类号: | G06K9/20;G06K9/46 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 余刚;吴孟秋 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 文件 种类 识别 装置 以及 方法 | ||
相关申请的参考
本申请基于并要求2009年10月30日提交的美国临时申请No.61/256515的优先权权益,其全部内容结合于此作为参考。
技术领域
本发明涉及一种文档文件种类识别装置,用于识别通过例如扫描读取而取得的文档图像的种类以及与文档图像的种类相对应的特征信息。
背景技术
在记录纸张等记录介质上所记录的文档文件有多种。多种文档文件分别被扫描器读取而成为各文档图像。各文档图像分别适用根据各文档种类而预定的处理。当输入文档种类未知的文档图像时,文档处理装置识别文档图像的文档种类,并根据识别结果,对文档图像进行预定的处理。
自动识别文档种类的方法是预先收集多个文档种类的特征,例如记录介质的大小、字符数等,并保存在数据库中。当输入文档种类未知的文档图像时,通过该方法,比较输入的文档图像中包括的特征与数据库中保存的文档种类的特征,并检索符合的文档种类。文档识别方法的技术公布在例如日本专利特开2001-318941号公报中。
发明内容
本发明涉及一种文档文件种类识别装置,其包括:提取部,用于提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价部,用于评价所述文档特征信息提取部所提取的所述文档特征信息的妥当性;以及文档种类识别部,当所述文档特征信息具有妥当性时,所述文档种类识别部识别与所述文档特征信息提取部所提取的所述文档特征信息相对应的所述文档文件的种类。
本发明还涉及一种文档文件种类识别方法,其包括:提取表示文档文件中包含的文档的特征性信息的文档特征信息;评价所提取的所述文档特征信息的妥当性,以及在所述文档特征信息具有妥当性的情况下,识别与所提取的所述文档特征信息相对应的所述文档文件的种类。
本发明还涉及一种记录介质,存储计算机可读的文档文件种类识别程序,包括:根据保存在提取方法保存部中的提取方法信息,从文档文件中提取表示所述文档文件中包含的文档的特征性信息的文档特征信息,所述提取方法信息记载用于从所述文档文件中提取所述文档特征信息的按所述文档文件的种类而不同的多种方法;根据特征信息保存部中保存的参照文档特征信息,评价所提取的所述文档特征信息的妥当性,所述参照文档特征信息分种类作为应从所述文档文件提取的所述文档特征信息的参照;以及在所述文档特征信息具有妥当性的情况下,识别与提取的所述文档特征信息对应的所述文档文件的种类。
附图说明
图1是表示第一实施方式的文档文件种类识别装置的功能块构成图。
图2是表示通过本装置识别的A国申请委托书格式的示例图。
图3是表示通过本装置识别的来自cc专利事务所的原稿校阅委托书格式的示例图。
图4是表示通过本装置识别的驳回对应讨论委托书格式的示例图。
图5是表示用于通过本装置的提取部提取文档中的文档特征信息的提取方法信息的示例图。
图6是表示本装置中特征信息保存部中保存的参照文档特征信息的示意图。
图7是表示适用了本装置的文档(document)系统的构成图。
图8是本装置的文档文件种类识别流程图。
图9是表示一例通过本装置的提取部提取的文档特征信息的示例图。
图10是表示一例本装置的文档文件保存部中保存的文档文件保存信息的示例图。
图11是示出本装置的文档文件种类识别流程的变形例示意图。
具体实施方式
以下,参照附图说明实施方式。
图1表示文档文件种类的识别装置的功能块构成图。本装置包括扫描文件取得部1、文档种类识别部2、文档特征信息提取部(以下简称提取部)3、文档特征信息提取方法保存部(以下简称提取方法保存部)4、文档特征信息评价部(以下简称评价部)5、文档特征信息保存部6、文档文件登记部7、文档文件保存部8、文档文件显示部9。
扫描文件取得部1扫描记录有文档的记录介质,并取得扫描图像,通过解析扫描图像取得包括文档特征信息的文档文件。记录有文档的记录介质包括例如记录有文档的记录纸张。文档特征信息表示文档文件中包括的文档的特征性信息。文档特征信息是清楚地表示例如文档的标题等文档内容的信息。文档文件包括字符信息、字符的布局信息。文档文件例如可包括PDF(portable document format)文件等。
文档种类识别部2从扫描文件取得部1输入文档文件,并识别文档文件种类。文档文件种类包括例如专利申请的申请委托书、专利申请的原稿校阅委托书、用于应对专利申请的驳回理由的讨论委托书(驳回应对讨论委托书)。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社东芝;东芝泰格有限公司,未经株式会社东芝;东芝泰格有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201010292914.1/2.html,转载请声明来源钻瓜专利网。