[发明专利]识别模型训练方法及装置在审
申请号: | 202110595230.7 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113361253A | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 王安;李长亮 | 申请(专利权)人: | 北京金山数字娱乐科技有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/284;G06F40/295;G06Q50/18 |
代理公司: | 北京智信禾专利代理有限公司 11637 | 代理人: | 李晓庆 |
地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 识别 模型 训练 方法 装置 | ||
本申请提供识别模型训练方法及装置,其中,所述方法包括获取多个目标样本文档,并将每个目标样本文档输入解析模型,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
技术领域
本申请涉及计算机技术领域,特别涉及一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质。
背景技术
目前的合同信息抽取,一般采用的是传统的NER(实体识别)方法,识别预先定义好的实体类型,比如预先定义人名、组织名等实体类型,通过大量数据训练BRET网络,预测实体BIO标签与文本的关系;但是当合同中出现新的感兴趣的实体类型时,之前的BRET网络就需要重新训练,BRET网络的推广性较差,用户体验不好。
发明内容
有鉴于此,本申请实施例提供了一种识别模型训练方法。本申请同时涉及一种识别模型训练装置,一种文档识别方法,一种文档识别装置,一种计算设备,以及一种计算机可读存储介质,以解决现有技术中存在的网络的推广性较差,用户体验不好的技术问题。
根据本申请实施例的第一方面,提供了一种识别模型训练方法,包括:
对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
根据本申请实施例的第二方面,提供了一种文档识别方法,包括:
接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
将所述多个目标文本以及每个目标文本的实体类型输入识别模型,获得所述目标文本的每个目标文本以及与所述每个目标文本对应的关联目标文本。
根据本申请实施例的第三方面,提供了一种识别模型训练装置,包括:
目标样本文档获取模块,被配置为对获取的目标样本文档进行解析,获得每个目标样本文档的多个目标文本以及每个目标文本的实体类型;
关联关系确定模块,被配置为基于每个目标文本的实体类型,以及每个目标文本与其他目标文本之间的距离,确定每个目标文本与其他目标文本之间的关联关系;
训练样本数据构建模块,被配置为将所述目标文本作为目标样本文本,将所述目标文本与其他目标文本之间的关联关系作为所述目标样本文本的目标样本标签;
识别模型训练模块,被配置为基于所述目标样本文本以及所述目标样本文本对应的目标样本标签对识别模型进行训练,以获得训练后的所述识别模型。
根据本申请实施例的第四方面,提供了一种文档识别装置,包括:
文档接收模块,被配置为接收携带有目标文档的文档识别请求,将所述目标文档输入解析模型,获得所述目标文档的多个目标文本以及每个目标文本的实体类型;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京金山数字娱乐科技有限公司,未经北京金山数字娱乐科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110595230.7/2.html,转载请声明来源钻瓜专利网。