[发明专利]用于从实体文档提取信息的系统和方法在审

申请号：	201980081095.5	申请日：	2019-01-28
公开（公告）号：	CN113168527A	公开（公告）日：	2021-07-23
发明（设计）人：	R.艾耶;L.阮	申请（专利权）人：	谷歌有限责任公司
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京市柳沈律师事务所 11105	代理人：	金玉洁
地址：	美国加利***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	用于实体文档提取信息系统方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种用于从文档提取信息的计算机实现的方法，所述方法包括：

在包括一个或多个处理器的计算系统处，获得表示从文档的图像提取的一个或多个文本单元的数据；

由所述计算系统从所述一个或多个文本单元确定一个或多个被注释的值；

由所述计算系统确定所述一个或多个被注释的值中的每个被注释的值的标签，其中，所述每个被注释的值的标签包括解释该被注释的值的键，并且其中，由所述计算系统确定每个被注释的值的标签包括：由所述计算系统针对每个被注释的值，至少部分地基于所述被注释的值在所述文档内的位置，在所述一个或多个文本单元中执行对所述标签的搜索；和

由所述计算系统至少部分地基于与来自所述一个或多个被注释的值的至少一个被注释的值关联的标签将所述至少一个被注释的值映射到呈现给用户的动作。

2.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统确定每个被注释的值的标签包括：

由所述计算系统基于所述搜索，确定每个被注释的值的一组一个或多个候选标签；和

由所述计算系统至少部分地基于与所述被注释的值关联的该组一个或多个候选标签确定每个被注释的值的规范标签。

3.根据权利要求2所述的计算机实现的方法，其中，确定每个被注释的值的规范标签包括：

由所述计算系统产生针对这样的被注释的值确定的一个或多个候选标签中的每一个的嵌入；

由所述计算系统确定所述一个或多个候选标签中的每一个的嵌入和与多个规范标签关联的相应嵌入之间的相应距离；和

由所述计算系统至少部分地基于所述一个或多个候选标签中的每一个的嵌入和与多个规范标签关联的相应嵌入之间的相应距离，从所述多个规范标签选择被注释的值的规范标签。

4.根据权利要求3所述的计算机实现的方法，其中，由所述计算系统至少部分地基于所述相应距离从所述多个规范标签选择被注释的值的规范标签包括：由所述计算系统从所述多个规范标签选择规范标签，使得所述规范标签和所述一个或多个候选标签的相应嵌入之间的距离为最小距离且高于指定阈值。

5.根据权利要求3或4所述的计算机实现的方法，其中，所述多个规范标签包括以下中的一个或多个：到期日期、应付金额或有效日期。

6.根据前述权利要求中任一项所述的计算机实现的方法，其中，由所述计算系统至少部分地基于被注释的值在所述文档内的位置对标签执行搜索包括对于每个被注释的值：

由所述计算系统限定相对于被注释的值在与所述文档关联的坐标空间内的位置的搜索空间，所述搜索空间至少部分地基于与所述文档的语言关联的定向语言约定来限定；和