[发明专利]计算机、文档识别方法以及系统有效
申请号: | 201810160384.1 | 申请日: | 2018-02-26 |
公开(公告)号: | CN108984578B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 渡边恭男;大河内俊夫;新庄广;本林正裕;铃木康文 | 申请(专利权)人: | 株式会社日立制作所 |
主分类号: | G06F16/13 | 分类号: | G06F16/13;G06V20/62;G06V30/10 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 刘慧群 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的课题在于从记载于纸的文档高精度地提取在电子申请中需要的字符串。一种提取表示记载于纸的文档的特征的字符串即属性的计算机,计算机保持模板信息以及词典信息,对记载于纸的文档的图像数据执行字符识别处理,使用字符识别处理的结果以及多个模板,提取与在多个模板的各模板中定义的属性的类型对应的属性,针对多个模板的每一个计算与提取出的属性相关的得分,基于得分选择属性的提取精度最高的模板,生成包含使用所选择的模板而提取出的属性的输出信息。 | ||
搜索关键词: | 计算机 文档 识别 方法 以及 系统 | ||
【主权项】:
1.一种计算机,提取表示记载于纸的文档的特征的字符串即属性,其特征在于,所述计算机具备处理器以及与所述处理器连接的存储装置,所述存储装置存放模板信息以及词典信息,所述模板信息对定义了至少一个以上的属性的类型的多个模板进行管理,所述词典信息对作为所述属性而提取的字符串进行定义,所述模板信息包含多个条目,所述条目由所述模板的识别信息、表示所述属性的类型的识别信息、以及表示与所述属性的类型对应的属性的纸面上的位置的位置信息构成,所述处理器,针对记载于所述纸的文档的图像数据执行字符识别处理,使用所述字符识别处理的结果以及所述多个模板,提取与所述多个模板各自定义的所述属性的类型对应的属性,使用所述词典信息、所述模板信息以及所提取出的所述属性,针对所述多个模板的每一个,计算与所提取出的所述属性相关的得分,基于所述得分,从所述多个模板之中选择属性的提取精度最高的模板,生成包含使用所选择的所述模板而提取出的属性的输出信息。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于株式会社日立制作所,未经株式会社日立制作所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810160384.1/,转载请声明来源钻瓜专利网。