[发明专利]计算机、文档识别方法以及系统有效
申请号: | 201810160384.1 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108984578B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 渡边恭男;大河内俊夫;新庄广;本林正裕;铃木康文 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06V20/62;G06V30/10 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 刘慧群 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 计算机 文档 识别 方法 以及 系统 | ||
1.一种计算机,提取表示记载于纸的文档的特征的字符串即属性,其特征在于,
所述计算机具备处理器以及与所述处理器连接的存储装置,
所述存储装置存放模板信息以及词典信息,所述模板信息对定义了至少一个以上的属性的类型的多个模板进行管理,所述词典信息对作为所述属性而提取的字符串进行定义,
所述模板信息包含多个条目,所述条目由所述模板的识别信息、表示所述属性的类型的识别信息、以及表示与所述属性的类型对应的属性的纸面上的位置的位置信息构成,
所述处理器,
针对记载于所述纸的文档的图像数据执行字符识别处理,
使用所述字符识别处理的结果以及所述多个模板,提取与所述多个模板各自定义的所述属性的类型对应的属性,
使用所述词典信息、所述模板信息以及所提取出的所述属性,针对所述多个模板的每一个,计算与所提取出的所述属性相关的得分,
基于所述得分,从所述多个模板之中选择属性的提取精度最高的模板,
生成包含使用所选择的所述模板而提取出的属性的输出信息,
使用所选择的所述模板的所述得分,生成表示记载于所述纸的文档的特征的特征向量,
使用所述特征向量,计算表示所述输出信息的可靠性的评价值,
基于所述评价值以及阈值的比较结果,判定是否需要进行所述输出信息的修正或者新的输出信息的生成。
2.根据权利要求1所述的计算机,其特征在于,
所述处理器,
参照所述词典信息,计算表示所提取出的所述属性与登记于所述词典信息的字符串一致的程度的第1得分,
参照所述模板信息,计算评价所述位置信息与所提取出的所述属性的纸面上的位置的偏差的第2得分,
生成以所提取出的所述属性的所述第1得分以及所述第2得分作为分量的所述特征向量。
3.根据权利要求2所述的计算机,其特征在于,
所述处理器,
计算评价所提取出的所述属性的纸面上的范围的大小的第3得分,
计算评价所述属性的类型相同的属性间的距离的第4得分,
生成以所提取出的所述属性的所述第1得分、所述第2得分、所述第3得分、以及所述第4得分作为分量的所述特征向量。
4.一种文档识别方法,由提取表示记载于纸的文档的特征的字符串即属性的计算机执行,其特征在于,
所述计算机具备处理器以及与所述处理器连接的存储装置,
所述存储装置存放模板信息以及词典信息,所述模板信息对定义了至少一个以上的属性的类型的多个模板进行管理,所述词典信息对作为所述属性而提取的字符串进行定义,
所述模板信息包含多个条目,所述条目由所述模板的识别信息、表示所述属性的类型的识别信息、以及表示与所述属性的类型对应的属性的纸面上的位置的位置信息构成,
所述文档识别方法包括:
第1步骤,所述处理器针对记载于所述纸的文档的图像数据执行字符识别处理;
第2步骤,所述处理器使用所述字符识别处理的结果以及所述多个模板,提取与所述多个模板各自定义的所述属性的类型对应的属性;
第3步骤,所述处理器使用所述词典信息、所述模板信息以及所提取出的所述属性,针对所述多个模板的每一个,计算与所提取出的所述属性相关的得分;
第4步骤,所述处理器基于所述得分,从所述多个模板之中选择属性的提取精度最高的模板;
第5步骤,所述处理器生成包含使用所选择的所述模板而提取出的属性的输出信息;
第6步骤,所述处理器使用所选择的所述模板的所述得分,生成表示记载于所述纸的文档的特征的特征向量;
第7步骤,所述处理器使用所述特征向量,计算表示所述输出信息的可靠性的评价值;以及
第8步骤,所述处理器基于所述评价值以及阈值的比较结果,判定是否需要进行所述输出信息的修正或者新的输出信息的生成。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810160384.1/1.html,转载请声明来源钻瓜专利网。