[发明专利]一种模型训练方法及相关装置在审
申请号: | 202210005754.0 | 申请日: | 2022-01-04 |
公开(公告)号: | CN114359635A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 邓金涛 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 罗晓敏 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 训练 方法 相关 装置 | ||
本申请实施例公开了一种人工智能领域的模型训练方法及相关装置,其中该方法包括:基于负样本衡量机制,确定未标记样本集合中各未标记样本各自对应的负样本置信度;根据各未标记样本各自对应的负样本置信度,从未标记样本集合中选出目标负样本;基于目标负样本和目标正样本构建第一训练样本集;根据未标记样本集合中除目标负样本外的未标记样本各自对应的负样本置信度,选出参考正样本和参考负样本;基于目标负样本和参考负样本、以及目标正样本和参考正样本构建第二训练样本集;基于第一训练样本集和第二训练样本集,训练目标分类模型。该方法能够使训练得到的模型可以更全面准确地识别各种输入数据。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法及相关装置。
背景技术
在实际应用中,存在许多只有正样本以及大量未标记样本的情况,出现这种情况通常是因为负样本的获取难度较高、或者负样本过于多样化且动态变化。
对于上述情况,目前通常采用半监督学习中的PU learning(Positive andUnlabeled data learning)来解决。PU learning通常基于两步法实现;第一步是采用预设的分类方法,从未标记样本中选出置信度较高的负样本;第二步是利用所选出的负样本和本身就正确的正样本组成训练样本集,进而,利用该训练样本集进行模型训练。
然而,经本申请发明人研究发现,上述PU learning的实现方法存在以下缺陷:在第二步中仅利用通过第一步选出的负样本和正样本进行模型训练,而丢弃其余没有被选出作为负样本的未标记样本,将会导致训练得到的模型存在局限性,难以全面准确地识别各种输入数据;其原因在于,没有被选出作为负样本的未标注样本往往占比较大,其中蕴含着丰富的关键信息,在模型训练过程中放弃学习此部分关键信息,将会导致训练得到的模型难以准确地识别包括此类关键信息的输入数据。
发明内容
本申请实施例提供了一种模型训练方法及相关装置,能够使训练得到的模型可以更全面准确地识别各种输入数据。
有鉴于此,本申请第一方面提供了一种模型训练方法,所述方法包括:
基于负样本衡量机制,确定未标记样本集合中各未标记样本各自对应的负样本置信度;
根据所述未标记样本集合中各未标记样本各自对应的负样本置信度,从所述未标记样本集合中选出目标负样本;基于所述目标负样本和目标正样本,构建第一训练样本集;
根据参考未标记样本集合中各未标记样本各自对应的负样本置信度,从所述参考未标记样本集合中选出参考正样本和参考负样本,所述参考未标记样本集合包括所述未标记样本集合中除所述目标负样本以外的未标记样本;基于所述目标负样本和所述参考负样本、以及所述目标正样本和所述参考正样本,构建第二训练样本集;
基于所述第一训练样本集和所述第二训练样本集,训练目标分类模型。
本申请第二方面提供了一种模型训练装置,所述装置包括:
置信度确定模块,用于基于负样本衡量机制,确定未标记样本集合中各未标记样本各自对应的负样本置信度;
第一样本集构建模块,用于根据所述未标记样本集合中各未标记样本各自对应的负样本置信度,从所述未标记样本集合中选出目标负样本;基于所述目标负样本和目标正样本,构建第一训练样本集;
第二样本集构建模块,用于根据参考未标记样本集合中各未标记样本各自对应的负样本置信度,从所述参考未标记样本集合中选出参考正样本和参考负样本,所述参考未标记样本集合包括所述未标记样本集合中除所述目标负样本以外的未标记样本;基于所述目标负样本和所述参考负样本、以及所述目标正样本和所述参考正样本,构建第二训练样本集;
模型训练模块,用于基于所述第一训练样本集和所述第二训练样本集,训练目标分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210005754.0/2.html,转载请声明来源钻瓜专利网。