[发明专利]一种语料标注反馈方法及装置有效
| 申请号: | 201910138259.5 | 申请日: | 2019-02-25 |
| 公开(公告)号: | CN110032714B | 公开(公告)日: | 2023-04-28 |
| 发明(设计)人: | 刘佳;崔恒斌;顾江涛 | 申请(专利权)人: | 创新先进技术有限公司 |
| 主分类号: | G06F40/117 | 分类号: | G06F40/117;G06F16/35 |
| 代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
| 地址: | 开曼群岛大开曼岛*** | 国省代码: | 暂无信息 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 语料 标注 反馈 方法 装置 | ||
本说明书实施例提供一种语料标注反馈方法及装置。所述方法包括:首先获取多个语料,其中,每个语料具有预先标注的标注类别;然后基于所述多个语料依次进行N轮类别识别模型的训练,并根据每轮训练得到的类别识别模型,预测所述多个语料中的各个语料的类别,以得到各个语料的N个预测类别;N为正整数;再基于各个语料的标注类别和N个预测类别,确定各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数;之后基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息;所述语料标注反馈信息包括所述多个语料中的标注错误的候选语料。
技术领域
本说明书一个或多个实施例涉及计算机信息处理领域,尤其涉及一种语料标注反馈方法及装置。
背景技术
在外呼项目以及机器人项目中,业务人员根据场景,将用户说的各种文本的归类作为语料,并通过算法学习语料得到类别识别模型。
类别识别模型完全通过学习业务人员人工标注的语料来得到,如果语料的标注有误,则对类别识别模型的效果造成非常大的影响。
在实践中,经常发现业务人员把语料分错类的情况。因此,需要一种能够发现标注错误的语料,并向业务人员反馈的方法。
发明内容
本说明书一个或多个实施例描述了一种语料标注反馈方法及装置,可以发现并输出可能标注错误的语料,以向相关人员反馈可能标注错误的语料。
根据第一方面,提供一种语料标注反馈方法,包括:
获取多个语料,其中,每个语料具有预先标注的标注类别;
基于所述多个语料依次进行N轮类别识别模型的训练,并根据每轮训练得到的类别识别模型,预测所述多个语料中的各个语料的类别,以得到各个语料的N个预测类别;N为正整数;
基于各个语料的标注类别和N个预测类别,确定各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数;
基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息;所述语料标注反馈信息包括所述多个语料中的标注错误的候选语料。
在一个实施例中,所述基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息包括:
将预测失败的次数大于第一阈值的语料,作为所述候选语料,或者;
将预测失败的次数相对于N的占比大于第二阈值的语料,作为所述候选语料;或者,
将预测正确的次数小于第三阈值的语料,作为所述候选语料;或者,
将预测正确的次数相对于N占比小于第四阈值的语料,作为所述候选语料。
在一个实施例中,所述基于各个语料对应的预测失败的次数,或各个语料对应的预测正确的次数,确定语料标注反馈信息包括:
按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序;
根据排序的结果确定所述候选语料。
在一个示例中,所述方法还包括:
对于所述多个语料中的第一语料,基于所述第一语料的N个预测类别中的第一类别的置信度,计算所述第一语料对应的预测失败时的平均置信度,其中,所述第一类别为所述第一语料的N个预测类别中与所述第一语料的标注类别不一致的类别;
所述按照各个语料对应的预测失败的次数或各个语料对应的预测正确的次数,对所述多个语料进行排序包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于创新先进技术有限公司,未经创新先进技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910138259.5/2.html,转载请声明来源钻瓜专利网。





