[发明专利]文档处理有效
申请号: | 201810691975.1 | 申请日: | 2018-06-28 |
公开(公告)号: | CN109213870B | 公开(公告)日: | 2022-04-29 |
发明(设计)人: | J·R·普里斯塔斯;T·L·奥加拉;B·萨卡莱努;U·博万;M·考克兰;P·萨里斯丹;J·弗德;T·D·佩里;T·M·加夫尼;M·H·福托普洛斯 | 申请(专利权)人: | 埃森哲环球解决方案有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 酆迅;黄捷 |
地址: | 爱尔兰*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 处理 | ||
一种文档处理系统接收电子文档,该电子文档包括从各种源生成的具有不同格式的组件文档。除了格式化信息和结构化信息之外,还可以从电子文档中提取纯文本数据。纯文本数据被划分为区段,并从这些区段中提取和链接各种实体。根据样式信息对显示包括纯文本数据的内容的交互式图形用户界面(GUI)进行格式化,并且从所链接的实体确定注释实体关系。GUI使得能够对注释实体关系进行用户编辑。
本申请是于2018年1月24日提交的美国非临时专利申请序列号15/879,031的部分继续申请,其又要求于2017年6月30日提交的美国临时专利申请序列号62/527,441的优先权,这些申请的公开内容明确地通过引用整体并入本文。
背景技术
各种类型的表单或文档被广泛用于收集用于各种目的的信息。医疗、商业、教育和政府组织使用各种格式的文档来收集信息和用于保存记录的目的。计算机和通讯网络的出现导致文档被移到网上,使得人们不再需要在纸张上填写表单。另外,现在包括纸质文档的电子副本和经扫描副本在内的数字化记录使用计算机生成。这些电子文档通过通信网络共享,从而节省了生成和交换纸质文档可能所需的时间和资源。
这些文档可以包含结构化和非结构化格式的数据。结构化文档可以具有嵌入代码,其使得能够以指定格式安排信息。非结构化文档包括自由形式的布置,其中原始文档中的信息的结构、样式和内容可能无法得以保留。对于保存记录的实体来说,创建并存储可能包括来自多个源的内容的大型非结构化电子文档并不少见。
通常,各种企业系统希望利用来自电子文档的信息以执行操作。以编程方式从具有明确定义或组织的数据模型的结构化文档中提取信息相对容易,诸如从表单中的字段提取数据(例如,表格式布置中的数据),其中这些字段位于表单中的已知位置中。然而,当电子文档包括大型非结构化文档(诸如上文所讨论的非结构化文档的类型)时,提取执行企业系统或其他类型系统的操作可能需要的信息在技术上很困难。这种类型的非结构化文档通常没有明确定义的数据模型,因此难以可靠地以编程方式解析并从文档中提取所需的信息。
附图说明
通过以下附图中所示的示例对本公开的特征进行说明。在以下附图中,相同的数字指示相同的元件,其中
图1是示出了按照本文中所描述的示例的文档处理系统的框图。
图2是示出了按照本文中所描述的示例的文档处理器的细节的框图。
图3示出了按照本文中所公开的示例的实体处理器的框图。
图4是详述了按照本文中所公开的示例的导出实体关系的方法的流程图。
图5示出了详述了按照本文中所描述的示例的将非结构化文档转换为标记文档的方法的流程图。
图6是详述了按照本文中所描述的示例的处理文档并从所处理的文档中提取信息的方法的流程图。
图7示出了详述了按照本文中所描述的示例的生成经过滤的分段文档的方法的流程图。
图8至图10示出了按照本文中所描述的示例的文档处理系统的图形用户界面(GUI)。
图11示出了按照本文中所描述的示例的可以用于实现文档处理系统的计算机系统。
具体实施方式
出于简单和说明的目的,本公开主要参照其示例来进行描述。在以下描述中,阐述了许多具体细节以提供对本公开的透彻理解。然而,显而易见的是,可以实践本公开而不限于这些具体细节。在其他实例中,一些方法和结构尚未被详细描述以免不必要地模糊本公开。贯穿本公开,术语“一”和“一个”旨在表示特定元件中的至少一个。如本文中所使用的,术语“包括(includes)”意指包括但不限于,术语“包括(including)”意指包括但不限于。术语“基于”意指至少部分地基于。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于埃森哲环球解决方案有限公司,未经埃森哲环球解决方案有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810691975.1/2.html,转载请声明来源钻瓜专利网。