[发明专利]训练分类模型的方法与装置在审
申请号: | 201710608188.1 | 申请日: | 2017-07-24 |
公开(公告)号: | CN110019770A | 公开(公告)日: | 2019-07-16 |
发明(设计)人: | 王雅圣;张旸;毕舒展;颜友亮 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06K9/62 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 王龙华;毛威 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 训练集 分类模型 负样本 样本集 语料 样本 准确度 训练分类 标注 目标分类 正样本 申请 剔除 更新 | ||
1.一种训练分类模型的方法,其特征在于,包括:
获取正训练集与第一负训练集,所述正训练集包括语料中正例集的样本,所述第一负训练集包括所述语料中未标注样本集的样本,所述正例集表示所述语料中属于词典的样本集,所述未标注样本集表示所述语料中的不属于所述词典的样本集;
利用所述正训练集与所述第一负训练集,训练得到第一分类模型;
利用所述第一分类模型确定所述第一负训练集中的伪负样本,所述伪负样本表示所述第一负训练集中被视为正样本的样本;
剔除所述第一负训练集中的伪负样本,更新所述第一负训练集为第二负训练集;
利用所述正训练集与所述第二负训练集,训练得到第二分类模型,所述第二分类模型为目标分类模型。
2.根据权利要求1所述的方法,其特征在于,所述利用所述第一分类模型,确定所述第一负训练集中的伪负样本,包括:
利用所述第一分类模型,对所述第一负训练集中的每个样本进行打分;
将所述第一负训练集中打分超过阈值的样本确定为所述第一负训练集中的伪负样本。
3.根据权利要求2所述的方法,其特征在于,所述第一负训练集还包括至少一个间谍样本,所述间谍样本为间谍集中的样本,所述间谍集为所述正例集中的一部分样本构成的样本集,所述正训练集不包括所述间谍集,
其中,所述阈值是根据所述第一负训练集包括的间谍样本的打分的概率分布拟合参数确定的,或者,所述阈值是所述第一负训练集包括的间谍样本中打分从高到底排名前k1%的样本的打分最低值,k1为正整数。
4.根据权利要求2所述的方法,其特征在于,所述阈值是所述第一负训练集包括的未标注样本中打分从高到底排名前k2%的样本的打分最低值,k2为正整数;或
所述阈值是所述第一负训练集中打分从高到底排名前k3%的样本的打分最低值,k3为正整数。
5.根据权利要求1至4中任一项所述的方法,其特征在于,所述获取正训练集与第一负训练集,包括:
获取所述词典与所述语料,并根据所述词典与所述语料,确定所述语料中的所述正例集与所述未标注样本集;
将所述正例集中的一部分样本作为间谍样本,构成间谍集,由所述正例集中的剩余部分样本构成所述正训练集,由所述未标注样本集与所述间谍集,构成初始负训练集,所述初始负训练集表示基于所述语料直接得到的、未经过更新的负训练集;
基于所述初始负训练集,获取所述第一负训练集,所述第一负训练集为所述初始负训练集,或者,所述第一负训练集为所述初始负训练集经过更新之后的得到的负训练集。
6.根据权利要求1至5中任一项所述的方法,其特征在于,所述利用所述正训练集与所述第一负训练集,训练得到第一分类模型,包括:
判断终止条件不满足,利用所述正训练集与所述第一负训练集,训练得到所述第一分类模型;
所述利用所述正训练集与所述第二负训练集,训练得到第二分类模型,包括:
判断所述终止条件满足,利用所述正训练集与所述第二负训练集,训练得到所述第二分类模型,
其中,所述终止条件表示终止对当前负训练集进行更新的条件,所述当前负训练集表示在判断所述终止条件时所获得的最新的负训练集。
7.根据权利要求6所述的方法,其特征在于,在所述当前负训练集包括至少一个间谍样本的情形下,所述终止条件为所述当前负训练集中所包括的间谍样本的样本容量不足预设值,其中,所述间谍样本为间谍集中的样本,所述间谍集为所述正例集中的一部分样本构成的样本集,所述正训练集不包括所述间谍集。
8.根据权利要求7所述的方法,其特征在于,所述预设值为所述间谍集中N%的样本的样本容量,N%为所述间谍集的噪声值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710608188.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种智能企业分类算法
- 下一篇:文本处理的方法及装置