[发明专利]语料标注的校正方法、装置、终端设备及介质在审
| 申请号: | 202011601152.9 | 申请日: | 2020-12-29 |
| 公开(公告)号: | CN112667811A | 公开(公告)日: | 2021-04-16 |
| 发明(设计)人: | 任小芹 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
| 主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/205 |
| 代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 冷仔 |
| 地址: | 518000 广东省深圳市福田*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语料 标注 校正 方法 装置 终端设备 介质 | ||
本申请适用于语料分析技术领域,尤其涉及一种语料标注的校正方法、装置、终端设备及介质。该方法通过对已经标注的语料集进行意图分析,得到语料的第一意图,根据意图分析的结果对语料集的语料的特征向量进行聚类,得到语料的第二意图,确定每个语料中第一意图与第二意图不同的语料,并通过该语料的第二意图对该语料的标注进行校正,实现对语料集中语料的标注的校正,使得语料集的标注更加统一,提高了标注的质量。
技术领域
本申请属于语料分析技术领域,尤其涉及一种语料标注的校正方法、装置、终端设备及介质。
背景技术
目前,语料的意图分类模型并不能保证做到对语料的准确识别,意图分类模型输出的结果需要通过人工进行标注处理,以达到对分类结果修正的目的。在通过人工对语料进行标注的过程中,由于不同的标注人员对于相同或相近语料的理解可能会存在偏差,故可能导致标注不统一,出现标注质量较差的问题。
发明内容
本申请实施例提供了一种语料标注的校正方法、装置、终端设备及介质,可以解决现有的标注质量较差的问题。
第一方面,本申请实施例提供了一种语料标注的校正方法,所述校正方法包括:
获取已标注的语料集;
根据所述语料集中N个语料的标注,确定所述N个语料的k个第一意图,N为大于1的整数,k为大于1的整数;
获取所述N个语料各自的特征向量;
根据所述k个第一意图,对所述N个语料的所有特征向量进行聚类,得到所述N个语料各自的第二意图;
若所述N个语料中存在第一意图与第二意图不同的语料,则确定该语料为目标语料,并根据所述目标语料的第二意图,校正所述目标语料的标注。
第二方面,本申请实施例提供了一种语料标注的校正装置,所述校正装置包括:
语料集获取模块,用于获取已标注的语料集;
第一意图确定模块,用于根据所述语料集中N个语料的标注,确定所述N个语料的k个第一意图,N为大于1的整数,k为大于1的整数;
向量获取模块,用于获取所述N个语料各自的特征向量;
第二意图确定模块,用于根据所述k个第一意图,对所述N个语料的所有特征向量进行聚类,得到所述N个语料各自的第二意图;
校正模块,用于若所述N个语料中存在第一意图与第二意图不同的语料,则确定该语料为目标语料,并根据所述目标语料的第二意图,校正所述目标语料的标注。
第三方面,本申请实施例提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如第一方面所述的校正方法。
第四方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面所述的校正方法。
第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面所述的校正方法。
本申请实施例与现有技术相比存在的有益效果是:本申请通过对已经标注的语料集进行意图分析,得到语料的第一意图,根据意图分析的结果对语料集的语料的特征向量进行聚类,得到语料的第二意图,确定每个语料中第一意图与第二意图不同的语料,并通过该语料的第二意图对该语料的标注进行校正,实现对语料集中语料的标注的校正,使得语料集的标注更加统一,提高了标注的质量。
附图说明
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011601152.9/2.html,转载请声明来源钻瓜专利网。





