[发明专利]文档数据处理装置有效
申请号: | 201080028233.2 | 申请日: | 2010-07-23 |
公开(公告)号: | CN102473176A | 公开(公告)日: | 2012-05-23 |
发明(设计)人: | 松本俊子 | 申请(专利权)人: | 株式会社日立解决方案 |
主分类号: | G06F17/21 | 分类号: | G06F17/21;G06F12/00;G06F17/30;G06T1/00 |
代理公司: | 北京银龙知识产权代理有限公司 11243 | 代理人: | 曾贤伟;范胜杰 |
地址: | 日本*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 数据处理 装置 | ||
技术领域
本发明涉及文档数据处理装置,涉及例如用于高效管理大量存在的业务文档的文件数据的技术。
背景技术
对于用于高效处理组织内文档的技术的要求正在提高。例如,伴随着日本版SOX法(金融商品交易法)的施行,企业营业活动中凭证的管理需求正在提高。另外,例如企业内的信息、其中尤其是不保存在相关数据库(非定型)的文档数据正在急剧增加(正产生被称作信息爆炸的现象)。基于该种状况,希望通过标题、生成日、生成人等元数据(meta data)来管理和检索文档的需求正在提高。例如,对于营业文档,如果能够通过文档名称、顾客名称、生成日、定购编号等业务ID进行检索,则进行内部控制的监查时能够迅速地找出所需文档。另外,对于设计文档,如果能够通过文档名称、生成方部门、生成日、产品代码等进行检索,则对于有效灵活运用技术信息具有效果。并且,对于索赔、缺陷信息的记录文档,如果能够通过发生日、采取对策日、产品名称、损失金额、部件名称等进行检索,则对于发生类似缺陷时的迅速应对具有效果。另外,对于业务规定、通告等文档,如果能够通过文档的类别、生成日、实施期间等进行检索,则对于遵照规则高效贯彻业务具有效果。
提出了许多对非定型文档进行解析并自动取得元数据的技术(例如参照专利文献1至3、非专利文献1以及2)。这些文献设想事先确定作为对象的文档的种类,详细调查该种类文档中记述的元数据的特征,保持为作为对象的种类的文档的“模型”(model)。在该基础上,进行文档中出现的字符串和模型的匹配,推测哪个字符串为模型中的哪个结构要素(哪个字符串为元数据)。作为特征,使用版式(layout)上的特征(例如“标题多为居中”等)、临近元数据记载的字符串的特征(例如“订购编号多临近‘订购编号:’这一字符串右侧记载”等)、元数据的部分字符串的特征(例如“顾客名称多起始于‘独立行政法人’”)。
另外,如专利文献4至6以及非专利文献3至8所示,用于自动准备用于元数据取得的模型的解决方案也已经展开。
现有技术文献
专利文献
专利文献1:日本特开平11-184894号公报
专利文献2:日本专利第3425834号公报
专利文献3:日本专利第3425408号公报
专利文献4:美国专利7,149,347B1公报
专利文献5:日本特开2000-90117号公报
专利文献6:日本特开平11-328306号公报
非专利文献
非专利文献1:盛山、直井、武部,以商务文档为对象的关键字自动提取技术,FUJITSU,49,5,pp.404-409(1998-09)
非专利文献2:Ishitani,Y.,Document Transoformation System from Papers to XML Data Based on Pivot XML Document Method,Proceedings of the Seventh International Conference on Document Analysis and Recognition(2003)
非专利文献3:F.Esposito,D.Malerba,G.Semeraro,S.Ferilli,O.Altamura,T.M.A.Basile,M.Berardi,M.Ceci,N.Di Mauro,“Machine Learning methods for automatically processing historical documents:from paper acquisition to XML transformation”,Proceedings of the First Inernational Workshop on Document Image Analysis for Libraries,2004.
非专利文献4:M.Kramer,H.Kaprykowsky,D.Keysers,T.Breuel,“Bibliographic Meta-Data Extraction Using Probabilistic Finite State Transducers”,Proceedings of International Conference on Document Analysis and Recognition,Vol.2,pp.609-613,2007
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立解决方案,未经株式会社日立解决方案许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201080028233.2/2.html,转载请声明来源钻瓜专利网。