[发明专利]文档数据处理装置有效

专利信息
申请号: 201080028233.2 申请日: 2010-07-23
公开(公告)号: CN102473176A 公开(公告)日: 2012-05-23
发明(设计)人: 松本俊子 申请(专利权)人: 株式会社日立解决方案
主分类号: G06F17/21 分类号: G06F17/21;G06F12/00;G06F17/30;G06T1/00
代理公司: 北京银龙知识产权代理有限公司 11243 代理人: 曾贤伟;范胜杰
地址: 日本*** 国省代码: 日本;JP
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文档 数据处理 装置
【说明书】:

技术领域

本发明涉及文档数据处理装置,涉及例如用于高效管理大量存在的业务文档的文件数据的技术。

背景技术

对于用于高效处理组织内文档的技术的要求正在提高。例如,伴随着日本版SOX法(金融商品交易法)的施行,企业营业活动中凭证的管理需求正在提高。另外,例如企业内的信息、其中尤其是不保存在相关数据库(非定型)的文档数据正在急剧增加(正产生被称作信息爆炸的现象)。基于该种状况,希望通过标题、生成日、生成人等元数据(meta data)来管理和检索文档的需求正在提高。例如,对于营业文档,如果能够通过文档名称、顾客名称、生成日、定购编号等业务ID进行检索,则进行内部控制的监查时能够迅速地找出所需文档。另外,对于设计文档,如果能够通过文档名称、生成方部门、生成日、产品代码等进行检索,则对于有效灵活运用技术信息具有效果。并且,对于索赔、缺陷信息的记录文档,如果能够通过发生日、采取对策日、产品名称、损失金额、部件名称等进行检索,则对于发生类似缺陷时的迅速应对具有效果。另外,对于业务规定、通告等文档,如果能够通过文档的类别、生成日、实施期间等进行检索,则对于遵照规则高效贯彻业务具有效果。

提出了许多对非定型文档进行解析并自动取得元数据的技术(例如参照专利文献1至3、非专利文献1以及2)。这些文献设想事先确定作为对象的文档的种类,详细调查该种类文档中记述的元数据的特征,保持为作为对象的种类的文档的“模型”(model)。在该基础上,进行文档中出现的字符串和模型的匹配,推测哪个字符串为模型中的哪个结构要素(哪个字符串为元数据)。作为特征,使用版式(layout)上的特征(例如“标题多为居中”等)、临近元数据记载的字符串的特征(例如“订购编号多临近‘订购编号:’这一字符串右侧记载”等)、元数据的部分字符串的特征(例如“顾客名称多起始于‘独立行政法人’”)。

另外,如专利文献4至6以及非专利文献3至8所示,用于自动准备用于元数据取得的模型的解决方案也已经展开。

现有技术文献

专利文献

专利文献1:日本特开平11-184894号公报

专利文献2:日本专利第3425834号公报

专利文献3:日本专利第3425408号公报

专利文献4:美国专利7,149,347B1公报

专利文献5:日本特开2000-90117号公报

专利文献6:日本特开平11-328306号公报

非专利文献

非专利文献1:盛山、直井、武部,以商务文档为对象的关键字自动提取技术,FUJITSU,49,5,pp.404-409(1998-09)

非专利文献2:Ishitani,Y.,Document Transoformation System from Papers to XML Data Based on Pivot XML Document Method,Proceedings of the Seventh International Conference on Document Analysis and Recognition(2003)

非专利文献3:F.Esposito,D.Malerba,G.Semeraro,S.Ferilli,O.Altamura,T.M.A.Basile,M.Berardi,M.Ceci,N.Di Mauro,“Machine Learning methods for automatically processing historical documents:from paper acquisition to XML transformation”,Proceedings of the First Inernational Workshop on Document Image Analysis for Libraries,2004.

非专利文献4:M.Kramer,H.Kaprykowsky,D.Keysers,T.Breuel,“Bibliographic  Meta-Data Extraction Using Probabilistic Finite State Transducers”,Proceedings of International Conference on Document Analysis and Recognition,Vol.2,pp.609-613,2007

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立解决方案,未经株式会社日立解决方案许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201080028233.2/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top