[发明专利]基于机器学习的实体识别在审
申请号: | 202210917270.3 | 申请日: | 2022-08-01 |
公开(公告)号: | CN115700587A | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | R·耶尔;N·K·艾姆;E·加内桑 | 申请(专利权)人: | 尤帕斯公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/289;G06N20/00 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 丁君军 |
地址: | 美国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 实体 识别 | ||
1.一种系统,包括:
存储器,被配置为存储用于识别引擎的处理器可执行指令;以及
至少一个处理器,被耦合到所述存储器,并且被配置为执行所述处理器可执行以使得所述系统:
由所述识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体;
由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型;
由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型;以及
由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。
2.根据权利要求1所述的系统,其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。
3.根据权利要求1所述的系统,其中所述处理器可执行还使得所述系统:
接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记,以获得所述带标签文件。
4.根据权利要求3所述的系统,其中所述标记由机器人过程自动化或用户输入提供。
5.根据权利要求1所述的系统,其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。
6.根据权利要求1所述的系统,其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。
7.根据权利要求6所述的系统,其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。
8.根据权利要求1所述的系统,其中所述识别的特征增强算法或机器人过程自动化实现所述模型的所述训练。
9.根据权利要求1所述的系统,其中所述多个目标实体被提供以用于在所述识别引擎的反馈回路中进一步训练所述模型。
10.根据权利要求1所述的系统,其中所述一个或多个文档的所述数字化包括标识针对所述一个或多个文档的所述实体的至少行号、字体大小和语言。
11.一种方法,包括:
由作为由至少一个处理器执行的处理器可执行指令而被存储在存储器上的识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体;
由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型;
由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型;以及
由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。
12.根据权利要求11所述的方法,其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。
13.根据权利要求11的方法,其中所述方法还包括:
接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记,以获得所述带标签文件。
14.根据权利要求13所述的方法,其中所述标记由机器人过程自动化或用户输入提供。
15.根据权利要求11所述的方法,其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。
16.根据权利要求11所述的方法,其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。
17.根据权利要求16所述的方法,其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于尤帕斯公司,未经尤帕斯公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210917270.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:电子管芯测试器件和方法
- 下一篇:一种手势识别方法、装置及系统