[发明专利]图片神经网络模型的训练方法以及装置在审
| 申请号: | 202110286611.7 | 申请日: | 2021-03-17 |
| 公开(公告)号: | CN115114467A | 公开(公告)日: | 2022-09-27 |
| 发明(设计)人: | 陈少华;余亭浩;张绍明;侯昊迪 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06F16/535 | 分类号: | G06F16/535;G06F16/583;G06F16/58;G06N3/04;G06N3/08 |
| 代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 江舟 |
| 地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 图片 神经网络 模型 训练 方法 以及 装置 | ||
本发明公开了一种图片神经网络模型的训练方法以及装置。其中,该方法包括:通过循环迭代的样本图片集合对训练待训练的图片神经网络模型,当前训练的样本图片集合是上次训练使用的样本集合与当前获取到的样本集合的合并,当前获取的样本集合与使用上次训练的样本图片训练的图片神经网络模型的结果有关系,达到了将样本图片收集和图片神经网络模型训练结合起来,根据当前图片神经网络模型的不足,针对性地补充训练样本图片的目的,进而解决了现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
技术领域
本发明涉及图片识别技术领域,具体而言,涉及一种图片神经网络模型的训练方法以及装置。
背景技术
随着信息流的快速发展,出现大量的自媒体,自媒体中生产内容,质量参差不齐。图片作为内容中不可或缺的组成部分,在实际业务场景中,图片种类错综复杂。其中不乏一些容易引起人们反感、不适的case,例如惊悚、皮肤病、蛇、虫子等等,这类case可以定义为不适图片。这类图片严重影响了用户阅读体验,比如睡前刷到鬼脸、怪物、蛇,或者吃饭时刷到恶心吃播、恶心牙齿,一定会体验很差。如果采用人工审核的方式,会大大增加审核成本并且由于标准的复杂性容易导致人工漏判。因此需要通过机器自动识别图片不适,提升用户体验并降低审核成本。
现有技术中,机器自动识别图片任务或人工智能识别图片任务中通常的做法是:先随机抽取待标注数据,进行人工标注得到训练集;再使用标注训练集训练常用分类模型。其中,存在如下不足:1)训练集标注和模型训练流程分离:无法针对当前模型的不足挖掘困难样本;2)训练集标注成本高:标注样本通常的做法是随机抽取业务数据后进行人工标注。然而不适图片实际占比很低,平均1000张图片中只能标注出4张,绝大部分都是正常图片。使用随机抽取标注的方法会消耗大量标注人力,标注效率低下。3)模型表征能力不足:由于不适图片种类复杂,包含很多子类型,例如惊悚、恶心痘痘、活物宰杀、恶心吃播等等。这些子类场景不同、特征粒度不同,学习难度较大。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种图片神经网络模型的训练方法以及装置,以至少解决现有技术中,获取训练图片神经网络模型的样本图片的方式单一的技术问题。
根据本发明实施例的一个方面,提供了一种图片神经网络模型的训练方法,包括:获取第一样本图片集合;通过所述第一样本图片集合对第一图片神经网络模型进行训练,得到所述第一样本图片集合中每个样本图片的第一预测类型和第二图片神经网络模型;在所述每个样本图片的标注类型和所述第一预测类型之间的损失值不满足目标预设条件的情况下,获取第二样本图片集合,其中,所述第二样本图片集合中的部分样本图片是根据所述第一预测类型获取到的图片;将所述第一样本图片集合和所述第二样本图片集合合并,得到第三样本图片集合;通过所述第三样本图片集合对所述第二图片神经网络模型进行训练,得到所述第三样本图片集合中每个样本图片的第二预测类型和第三图片神经网络;在所述第三样本图片集合中的所述每个样本图片的标注类型和所述第二预测类型之间的损失值满足所述目标预设条件的情况下,将所述第三图片神经网络模型确定为目标图片神经网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110286611.7/2.html,转载请声明来源钻瓜专利网。





