[发明专利]计算机、文档识别方法以及系统有效
申请号: | 201810160384.1 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108984578B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 渡边恭男;大河内俊夫;新庄广;本林正裕;铃木康文 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06V20/62;G06V30/10 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 刘慧群 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 文档 识别 方法 以及 系统 | ||
本发明的课题在于从记载于纸的文档高精度地提取在电子申请中需要的字符串。一种提取表示记载于纸的文档的特征的字符串即属性的计算机,计算机保持模板信息以及词典信息,对记载于纸的文档的图像数据执行字符识别处理,使用字符识别处理的结果以及多个模板,提取与在多个模板的各模板中定义的属性的类型对应的属性,针对多个模板的每一个计算与提取出的属性相关的得分,基于得分选择属性的提取精度最高的模板,生成包含使用所选择的模板而提取出的属性的输出信息。
技术领域
本发明涉及识别文档的计算机、方法以及系统。
背景技术
伴随数字化的进展,利用电子申请的机会增加。在电子申请中,很多情况下,对象的文档等不能完全数字化,而使用基于纸的文档或者通过对纸进行扫描而生成的图像。
在本说明书中,将电子化的文档记载为电子基文档,也将基于纸的文档以及对纸进行扫描而生成的图像记载为纸基文档。此外,在不对电子基文档以及纸基文档区别的情况,也简单记载为文档。
例如,在企业的出纳业务中,(1)申请者从请求者接收请求书,(2)申请者利用电子申请向财务部门提出记载了对请求者的请求金额的支付的请求书,(3)财务部门所属的人员对请求书中记载的属性进行确认,在判断为电子申请适当的情况下,执行从企业向请求者支付请求金额这样的手续。
在此,所谓属性,是审查对象,并且是表示文档的特征的字符串。例如,在出纳业务的情况下,请求金额、请求金额的存入目的地的银行账户编号等相当于属性。
在处理纸基文档的电子申请的情况下,由于需要人来确认纸基文档,因此,存在业务的效率低并且业务所需的成本大这样的问题。
针对前述的问题,已知使用光学字符识别(OCR:Optical CharacterRecognition)的技术从纸基文档读出属性的方法。例如,已知专利文献1记载的技术。
在专利文献1中,记载了“一种以电子方式提示顾客的请求书的方法,从顾客接收电子的请求书以及纸的请求书,从纸的请求书生成电子图像信息,通过进行扫描来从电子图像信息中提取第一OCR数据,从第一OCR数据中检索被扫描的纸币的种类的至少1个数值标识符,根据数值标识符的比较结果确定被扫描的纸的请求书的类型,使用与所确定出的类型对应的模板从电子图像信息中提取第二OCR数据,并从第二OCR数据中提取请求书信息,将请求书信息与已知的信息进行比较,提示将电子的请求书以及请求书信息进行了组合的顾客请求提示”。
通过使用记载于专利文献1的技术,能够在电子申请的业务中削减人进行的处理的工时,因此能够改善业务的效率,此外,能够削减业务所需的成本。
在先技术文献
专利文献
专利文献1:美国专利第8630949号说明书
专利文献2:JP特开2004-171316号公报
非专利文献
非专利文献1:F.Kimura et.al.“Modified quadratic discriminant functionsand the application to chinese character recognition”IEEETransaction onPattern Analysis and Machine Intelligence,vol.9,pP.149-153
非专利文献2:高桥等,“利用递归转换网络的字符路径探索方式的开发”,电子信息通信学会技术研究报告Vol.109No.418pp.141-146
发明内容
发明想要解决的课题
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810160384.1/2.html,转载请声明来源钻瓜专利网。