[发明专利]一种实体标签预测方法、装置、设备及存储介质在审
申请号: | 202210175061.6 | 申请日: | 2022-02-23 |
公开(公告)号: | CN114462390A | 公开(公告)日: | 2022-05-10 |
发明(设计)人: | 南海顺 | 申请(专利权)人: | 平安普惠企业管理有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 陈燕 |
地址: | 518000 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 标签 预测 方法 装置 设备 存储 介质 | ||
1.一种实体标签预测方法,其特征在于,包括:
获取待预测语句;
将所述待预测语句输入m个第一分类模型以进行标签预测,通过所述m个第一分类模型中每个第一分类模型输出所述待预测语句中每个字符被预测为多种实体标签中每种实体标签的概率值;
获取预存的难分实体标签集合;
根据所述难分实体标签集合以及所述待预测语句中每个字符被预测为多种实体标签中每种实体标签的概率值,从所述待预测语句中确定出目标难分字符集合;
将所述目标难分字符集合输入第二分类模型以进行标签预测,得到对所述目标难分字符集合中每个字符的标签预测结果。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取数据集,所述数据集包括多条语句,所述多条语句中每条语句中每个字符携带对应的真实实体标签;
对所述数据集进行划分,得到第一数据集和第二数据集,所述第一数据集包括第一数量条语句,所述第二数据集包括第二数量条语句;
利用所述第一数量条语句以及所述第一数量条语句中每条语句包括的各个字符携带的真实实体标签训练初始的第三深度学习模型,得到训练后的第三深度学习模型以作为第三分类模型;
利用所述第三分类模型对所述第二数量条语句中每条语句包括的各个字符进行标签预测,得到对所述第二数量条语句中每条语句包括的各个字符的标签预测结果;
根据所述第二数量条语句中每条语句包括的各个字符的标签预测结果以及所述第二数量条语句中每条语句包括的各个字符的真实实体标签,构建混淆矩阵;
根据所述混淆矩阵从多种真实实体标签中确定出难分实体标签集合。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第二数量条语句中每条语句包括的各个字符的标签预测结果以及所述第二数量条语句中每条语句包括的各个字符的真实实体标签,构建混淆矩阵,包括:
根据所述第二数量条语句中每条语句包括的各个字符的真实实体标签,从所述第二数量条语句中每条语句中确定出多种真实实体标签中每种真实实体标签对应的字符集合;
根据所述第二数量条语句中每条语句包括的各个字符的标签预测结果,统计所述每种真实实体标签对应的字符集合在多种标签预测结果中每种标签预测结果对应的字符数量;
利用所述每种真实实体标签对应的字符集合在多种标签预测结果中每种标签预测结果对应的字符数量,构建混淆矩阵。
4.根据权利要求2或3所述的方法,其特征在于,所述混淆矩阵的每一行对应一种真实实体标签,每一列对应一种标签预测结果,所述多种真实实体标签中的真实实体标签i以及所述多种标签预测结果中的标签预测结果j在所述混淆矩阵中对应的元素,为所述真实实体标签i对应的字符集合在所述标签预测结果j对应的字符数量,所述根据所述混淆矩阵从多种真实实体标签中确定出难分实体标签集合,包括:
从所述混淆矩阵中每一行对应的多个元素中确定出至少一个目标元素,所述目标元素对应的真实实体标签与所述目标元素对应的标签预测结果不相同;
当所述混淆矩阵存在目标行对应的至少一个目标元素存在任一个或多个目标元素满足预设条件时,获得包括所述目标行对应的真实实体标签的难分实体标签集合,所述目标元素满足预设条件包括所述目标元素大于预设的第一数值或所述目标元素与第二数值之间的比值大于预设比值,所述第二数值为所述目标行对应的多个元素之和。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安普惠企业管理有限公司,未经平安普惠企业管理有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210175061.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种椭圆印花机控制系统
- 下一篇:一种可调式倾斜多柔性杆滚筒菠萝采收器