[发明专利]文档处理、识别模型训练方法、装置、设备及存储介质在审
| 申请号: | 202210159137.6 | 申请日: | 2022-02-21 |
| 公开(公告)号: | CN114547301A | 公开(公告)日: | 2022-05-27 |
| 发明(设计)人: | 李硕;陈禹燊;韩光耀 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/295;G06F40/30;G06K9/62 |
| 代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;臧建明 |
| 地址: | 100085 北京市*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 文档 处理 识别 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种文档处理方法,包括:
获取待处理文档;
对所述待处理文档进行处理,得到所述待处理文档中的识别对象集合,所述识别对象集合包括:对象类别、所述对象类别包括的识别对象以及所述识别对象的识别得分;
根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分,确定所述待处理文档的识别结果。
2.根据权利要求1所述的方法,其中,所述对所述待处理文档进行处理,得到所述待处理文档中的识别对象集合,包括:
对所述待处理文档对应的文本序列进行拆分,得到至少一条待处理文本;
将所述至少一条待处理文本输入到预先训练的对象识别模型,确定所述待处理文档中的识别对象集合,所述对象识别模型的训练原理包括:基于转换器的双向编码表征BERT和全局指针。
3.根据权利要求2所述的方法,其中,所述对所述待处理文档对应的文本序列进行拆分,得到至少一条待处理文本,包括:
基于预置的滑窗长度和滑动步长,对所述待处理文档对应的文本序列进行拆分,得到至少一条待处理文本,所述滑窗长度大于或等于所述滑动步长。
4.根据权利要求1至3任一项所述的方法,其中,所述根据所述识别对象集合中所述对象类别包括的识别对象以及所述识别对象的识别得分,确定所述待处理文档的识别结果,包括:
确定所述对象类别包括的识别对象个数;
响应于所述对象类别包括至少两个识别对象,根据所述至少两个识别对象的识别得分,确定出所述至少两个识别对象中目标识别对象;
确定所述待处理文档的识别结果包括所述对象类别中的所述目标识别对象。
5.根据权利要求1至4任一项所述的方法,还包括:
确定所述识别结果包括的识别对象中是否存在整体对象,所述整体对象包括具有相同上下文语境的至少两个子对象;
响应于所述识别对象中存在整体对象,对所述整体对象进行对象切分,得到所述待处理文档的最终识别结果。
6.根据权利要求1至5任一项所述的方法,在对所述待处理文档进行处理,得到所述待处理文档中的识别对象集合之前,还包括:
确定所述待处理文档是否为纯文本文档;
响应于所述待处理文档为非纯文本文档,对所述待处理文档进行解析,得到所述待处理文档对应的纯文本文档;
对所述纯文本文档进行处理,得到所述待处理文档对应的文本序列。
7.一种识别模型训练方法,包括:
获取文本样本集,所述文本样本集中的文本样本携带有对象标注信息;
将所述文本样本集中的文本样本输入到预设网络,得到所述文本样本的对象识别结果,所述对象识别结果中对象识别类别对应的目标识别对象是基于识别得分确定的;
根据所述文本样本携带的对象标注信息和所述文本样本的对象识别结果,调整所述预设网络的参数,得到对象识别模型。
8.根据权利要求7所述的方法,所述预设网络包括:基于转换器的双向编码表征BERT部分和全局指针部分;
所述将所述文本样本集中的文本样本输入到预设网络,得到所述文本样本的对象识别结果,包括:
利用所述基于转换器的双向编码表征BERT部分对所述文本样本集中的文本样本进行对象识别,确定出所述文本样本包括的所有识别对象;
基于所述全局指针部分对所述文本样本包括的所有识别对象进行分类,确定出所述文本样本包括的对象识别类别以及所述对象识别类别包括的至少一个识别对象;
根据所述对象识别类别中所述至少一个识别对象的识别得分,确定所述对象识别类别对应的目标识别对象。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210159137.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种工装夹具
- 下一篇:一种重载列车进站曲线优化方法及系统





