[发明专利]基于机器学习的实体识别在审

申请号：	202210917270.3	申请日：	2022-08-01
公开（公告）号：	CN115700587A	公开（公告）日：	2023-02-07
发明（设计）人：	R·耶尔;N·K·艾姆;E·加内桑	申请（专利权）人：	尤帕斯公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/289;G06N20/00
代理公司：	北京市金杜律师事务所 11256	代理人：	丁君军
地址：	美国***	国省代码：	暂无信息
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于机器学习实体识别
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种系统，包括：

存储器，被配置为存储用于识别引擎的处理器可执行指令；以及

至少一个处理器，被耦合到所述存储器，并且被配置为执行所述处理器可执行以使得所述系统：

由所述识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体；

由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型；

由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型；以及

由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。

2.根据权利要求1所述的系统，其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。

3.根据权利要求1所述的系统，其中所述处理器可执行还使得所述系统：

接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记，以获得所述带标签文件。

4.根据权利要求3所述的系统，其中所述标记由机器人过程自动化或用户输入提供。

5.根据权利要求1所述的系统，其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。

6.根据权利要求1所述的系统，其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。

7.根据权利要求6所述的系统，其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。

8.根据权利要求1所述的系统，其中所述识别的特征增强算法或机器人过程自动化实现所述模型的所述训练。

9.根据权利要求1所述的系统，其中所述多个目标实体被提供以用于在所述识别引擎的反馈回路中进一步训练所述模型。

10.根据权利要求1所述的系统，其中所述一个或多个文档的所述数字化包括标识针对所述一个或多个文档的所述实体的至少行号、字体大小和语言。

11.一种方法，包括：

由作为由至少一个处理器执行的处理器可执行指令而被存储在存储器上的识别引擎定义要从工作流中的一个或多个文档中被标识的多个基线实体；

由所述识别引擎数字化所述一个或多个文档以生成一个或多个对应的文档对象模型；

由所述识别引擎通过使用所述一个或多个对应的文档对象模型和带标签文件作为输入来训练模型；以及

由所述识别引擎使用所述模型从一个或多个目标文档确定多个目标实体。

12.根据权利要求11所述的方法，其中所述识别引擎的一个或多个机器人过程自动化定义所述多个基线实体、数字化所述一个或多个文档、训练所述模型或确定所述多个目标实体。

13.根据权利要求11的方法，其中所述方法还包括：

接收所述一个或多个对应的文档对象模型内的感兴趣实体的标记，以获得所述带标签文件。

14.根据权利要求13所述的方法，其中所述标记由机器人过程自动化或用户输入提供。

15.根据权利要求11所述的方法，其中所述模型实现以特征增强算法构建的自定义命名实体识别框架。

16.根据权利要求11所述的方法，其中所述识别引擎通过从一个或多个目标文档中提取或预测所述多个目标实体来确定所述多个目标实体。

17.根据权利要求16所述的方法，其中置信度度量被生成以用于提取或预测的实体以触发审查或验证。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于尤帕斯公司，未经尤帕斯公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202210917270.3/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载