[发明专利]用于从实体文档提取信息的系统和方法在审

专利信息
申请号: 201980081095.5 申请日: 2019-01-28
公开(公告)号: CN113168527A 公开(公告)日: 2021-07-23
发明(设计)人: R.艾耶;L.阮 申请(专利权)人: 谷歌有限责任公司
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 北京市柳沈律师事务所 11105 代理人: 金玉洁
地址: 美国加利*** 国省代码: 暂无信息
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 实体 文档 提取 信息 系统 方法
【说明书】:

提供了用于从文档提取信息的系统和方法。在一个示例实施例中,一种计算机实现的方法包括从文档的图像获得一个或多个文本单元。该方法包括从一个或多个文本单元确定一个或多个被注释的值,并确定每个被注释值的一组候选标签。该方法通过至少部分地基于与文档关联的语言和每个被注释的值的位置执行对候选标签的搜索来确定每组候选标签。该方法包括至少部分地基于关联的候选标签确定每个被注释的值的规范标签,以及至少部分地基于与被注释的值关联的规范标签将至少一个被注释的值映射到呈现给用户的动作。

优先权要求

本申请要求于2018年11月6日提交的标题为“用于从实体文档提取信息的系统和方法(Systems and Methods for Extracting Information from a PhysicalDocument)”的美国临时专利申请第62/756,262号的优先权的权益。通过引用将上述专利申请并入本文。

技术领域

本公开总体上涉及从源提取信息。更具体地,本公开涉及从实体文档(physicaldocument)自动提取有用信息。

背景技术

世界上有很大一部分仍生产纸质文档(例如,身份证、账单、收据、成绩单等),该纸质文档包括有用的信息(例如,有效期数据、到期日、跟踪号等)。但是,由于这些文档可能不遵循相同的静态结构、布局和/或术语,可能很难自动从这些文档的图像提取有用的信息。例如,护照读取器在机场很常见,由于护照的已知和固定布局和结构,护照读取器能够从护照文档提取各种信息。类似地,由于信用卡的已知和固定的布局和结构,信用卡读取器(例如,基于图像的读取器)可以能够解析出信用卡号。但是,这些系统对于它们正在读取的信息源的结构、布局和/或术语的改变不具有鲁棒性,并且当然不能从不同于其目标文档(例如,护照或信用卡)的任意文档类型(例如,公共设施账单)提取信息。

此外,作为与从文档自动提取信息关联的另一示例性挑战,由不同实体产生的文档可能对同一数据项目使用不一致的术语。例如,虽然两个公共设施账单都可以提供支付到期日,但是由第一公共设施公司产生的第一帐单可能包括以第一方式格式化和/或表述的信息(例如,“请于以下之前支付:”),而由公共设施公司生产的第二账单可能包括以第二不同方式格式化和/或表述的信息(例如,“账单到期日:”)。大量不同的可能措辞或术语对自动处理/理解从文档提取的信息提出了重大挑战。

发明内容

本公开实施例的各方面和优点将在以下描述中部分阐述,或者可以从描述中获悉,或者可以通过实施例的实践获知。

本公开的一个示例方面涉及一种用于从文档提取信息的计算机实现的方法。该方法可以包括获得表示从文档的图像提取的一个或多个文本单元的数据。该方法可以包括从一个或多个文本单元确定一个或多个被注释的值。该方法可以包括确定一个或多个被注释的值中的每个被注释的值的标签。每个被注释的值的标签可以包含解释被注释的值的键。该方法可以包括:对于每个被注释的值,至少部分地基于被注释的值在文档内的位置,在一个或多个文本单元中执行对标签的搜索。该方法可以包括部分地基于与来自一个或多个被注释的值的至少一个被注释的值关联的标签将至少一个被注释的值映射到呈现给用户的动作。

本公开的另一示例方面涉及一种计算系统。该计算系统可以包括一个或多个处理器,以及其上存储有指令的计算机可读介质,该指令在由一个或多个处理器执行时使系统执行操作。该操作可以包括获得表示从文档的图像提取的一个或多个文本单元的数据。该操作可以包括从一个或多个文本单元确定一个或多个被注释的值。该操作可以包括确定一个或多个被注释的值中的每个被注释的值的标签。每个被注释的值的标签可以包含解释被注释的值的键。该操作可以包括:对于每个被注释的值,至少部分地基于被注释的值在文档内的位置,在一个或多个文本单元中执行对标签的搜索。该操作可以包括至少部分地基于与来自一个或多个被注释的值的至少一个被注释的值关联的标签将至少一个被注释的值映射到呈现给用户的动作。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于谷歌有限责任公司,未经谷歌有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201980081095.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top