[发明专利]文档处理、识别模型训练方法、装置、设备及存储介质在审
| 申请号: | 202210159137.6 | 申请日: | 2022-02-21 |
| 公开(公告)号: | CN114547301A | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 李硕;陈禹燊;韩光耀 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06K9/62 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;臧建明 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 处理 识别 模型 训练 方法 装置 设备 存储 介质 | ||
本公开提供一种文档处理、识别模型训练方法、装置、设备及存储介质,涉及数据处理技术领域,尤其涉及深度学习、自然语言处理、深度搜索技术领域。其中,文档处理方法包括:对获取到的待处理文档进行处理,得到待处理文档中的识别对象集合,根据该识别对象集合中对象类别包括的识别对象的识别得分,确定待处理文档的识别结果。识别模型训练方法包括:将获取到的文本样本集的文本样本输入到预设网络,得到该文本样本的对象识别结果,进而结合该文本样本携带的对象标注信息,调整预设网络的参数,得到对象识别模型。该技术方案可以准确的识别出文档中的对象类别以及对象类别对应的识别对象,提高了文档的信息抽取效果。
技术领域
本公开涉及数据处理中的深度学习、自然语言处理、深度搜索技术领域,尤其涉及一种文档处理、识别模型训练方法、装置、设备及存储介质。
背景技术
文档智能是指计算机自动阅读理解及分析文档的过程,深度学习技术的普及极大地推动了以文档信息抽取为代表的文档智能领域的发展。文档信息抽取是指从文档中识别或抽取关键信息。
相关技术中,文档信息的抽取方法主要使用命名实体识别(named entityrecognition,NER)方案和机器阅读理解(machine reading comprehension,MRC)方式从文档中抽取关键信息。但是,上述方法对处理的文档长度有要求,而且在文档中存在实体嵌套时可能存在训练和预测结果不一致的现象,导致信息抽取效果差。
发明内容
本公开提供了一种文档处理、识别模型训练方法、装置、设备及存储介质。
根据本公开的第一方面,提供了一种文档处理方法,包括:
获取待处理文档;
对所述待处理文档进行处理,得到所述待处理文档中的识别对象集合,所述识别对象集合包括:对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分;
根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分,确定所述待处理文档的识别结果。
根据本公开的第二方面,提供了一种识别模型训练方法,包括:
获取文本样本集,所述文本样本集中的文本样本携带有对象标注信息;
将所述文本样本集中的文本样本输入到预设网络,得到所述文本样本的对象识别结果,所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的;
根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果,调整所述预设网络的参数,得到对象识别模型。
根据本公开的第三方面,提供了一种文档处理装置,包括:
获取单元,用于获取待处理文档;
处理单元,用于对所述待处理文档进行处理,得到所述待处理文档中的识别对象集合,所述识别对象集合包括:对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分;
确定单元,用于根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分,确定所述待处理文档的识别结果。
根据本公开的第四方面,提供了一种识别模型训练装置,包括:
获取单元,用于获取文本样本集,所述文本样本集中的文本样本携带有对象标注信息;
处理单元,用于将所述文本样本集中的文本样本输入到预设网络,得到所述文本样本的对象识别结果,所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的;
调整单元,根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果,调整所述预设网络的参数,得到对象识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210159137.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工装夹具
- 下一篇:一种重载列车进站曲线优化方法及系统





