[发明专利]基于机器学习的实体识别在审
申请号: | 202210917270.3 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115700587A | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | R·耶尔;N·K·艾姆;E·加内桑 | 申请(专利权)人: | 尤帕斯公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 丁君军 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 实体 识别 | ||
本文的部分实施例涉及基于机器学习的实体识别。本文公开了一种系统。该系统包括存储器和处理器。存储器存储用于识别引擎的处理器可执行指令。处理器被耦合到存储器。处理器执行处理器可执行以使系统定义要从工作流中的文档中被标识的多个基线实体,并数字化一个或多个文档以生成对应的文档对象模型。识别引擎还使系统通过使用对应的文档对象模型和带标签文件作为输入来训练模型,并使用该模型从目标文档确定多个目标实体。
背景技术
本文中的公开内容涉及机器人过程自动化(RPA)领域,并且更具体地涉及相对于RPA的基于机器学习(ML)的实体识别。
通常,文档可以以多种方式构造。例如,用于保险索赔过程的文档可以包括字段布局(其中可以被提取的字段被不同地放置在文档中、内容和细节结构、关键字变化(即,从承保人到承保人)等。传统的预定义提取器不能一致地准确和正确地评估文档,因为文档的高度变化及其布局、结构、变化等(例如,文档被结构化的方式的数目)。因此,目前,人们手动评估文档、布局、结构、变化等,以确定逻辑意义并提取相关字段。对文档的人工评估(和验证)是耗时的并且易于出错,这两者都可能延迟进一步的文档处理。需要通过减少周转时间来改进文档处理,以及具有最佳效率。
发明内容
根据一个或多个实施例,系统包括存储器和至少一个处理器。存储器存储用于识别引擎的处理器可执行指令。至少一个处理器被耦合到存储器,并且执行处理器可执行指令以使系统定义要从工作流中的一个或多个文档中被标识的多个基线实体,并且将一个或多个文档数字化以生成一个或多个相应的文档对象模型。识别引擎还使系统通过使用一个或多个相应的文档对象模型和带标签文件作为输入来训练模型,并且使用该模型从一个或多个目标文档确定多个目标实体。
根据一个或多个实施例,上述计算系统实施例可以被实现为方法、装置、设备、和/或计算机程序产品。
附图说明
从以下结合附图以示例方式给出的描述中可以得到更详细的理解,其中附图中相同的附图标记表示相同的元件,并且其中:
图1描绘了示出根据一个或多个实施例的机器人过程自动化(RPA)的开发、设计、操作、和/或执行的环境;
图2是根据一个或多个实施例的计算系统的图示;
图3是示出根据一个或多个实施例的由一个或多个处理器执行的方法的框图;
图4是根据一个或多个实施例的示例用户界面;
图5是根据一个或多个实施例的示例用户界面;
图6是根据一个或多个实施例的示例用户界面;以及
图7是根据一个或多个实施例的示例用户界面。
具体实施方式
本文公开了基于ML的实体识别和RPA引擎(“识别引擎”)。识别引擎包括用于文档处理的软件和/或硬件。更具体地,识别引擎包括用于文档的鲁棒和有效的自定义命名实体识别以及显示其预测实体的软件和/或硬件。识别引擎可以通过硬件和软件(例如,必须以硬件为根的处理器可执行代码)的组合在计算系统中被实现。
识别引擎的一个或多个技术效果、优点、和益处包括通过增加准确性和减少周转时间来改进文档处理,以及提供最佳效率。
与本文描述的识别引擎相比,传统文档处理(诸如本文提到的预定义提取器)在特定数据集上被训练以从文档提取最小数量(例如,18个预定义字段)的不同字段。无论通过ML和/或用户输入,这些数据集都不能适应反馈。此外,传统的文档处理仅在这些不同的字段被清楚地定义在文档内时起作用。例如,传统的文档处理不能区分包含“$3千万”和“$30m”的两个“货币”条目。此外,即使“$3千万”被正确地识别为“货币”字段并从文档中提取,“$30m”也可能被错误地提取或错误分类为另一字段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于尤帕斯公司,未经尤帕斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210917270.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电子管芯测试器件和方法
- 下一篇:一种手势识别方法、装置及系统