[发明专利]分类模型训练方法、分类方法、装置、设备以及介质在审
申请号: | 202111127320.X | 申请日: | 2021-09-26 |
公开(公告)号: | CN113822362A | 公开(公告)日: | 2021-12-21 |
发明(设计)人: | 杨志科;曹文龙;蒋秋明 | 申请(专利权)人: | 上海上实龙创智能科技股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 李彩玲 |
地址: | 200436 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 分类 模型 训练 方法 装置 设备 以及 介质 | ||
本发明实施例公开了一种分类模型训练方法、分类方法、装置、设备以及介质。该方法包括:在初始样本数据中确定当前次迭代的第一抽样样本数据和第二抽样样本数据,其中,所述第一抽样样本数据为首次迭代中预设数量的随机抽样数据或上一次迭代中第一抽样样本数据和第二抽样样本数据的合集,各次迭代中的第二抽样样本数据的分类结果基于对应的第一抽样样本数据的分类结果确定;基于所述第一抽样样本数据和第二抽样样本数据,以及各样本数据的分类结果对当前分类模型进行训练,并得到当前次迭代更新后的分类模型,得到训练后的目标分类模型。通过本发明实施例公开的技术方案,实现了提高分类模型训练的效率及准确性。
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种分类模型训练方法、分类方法、装置、设备以及介质。
背景技术
目前在深度学习领域,一般有两种方式可以进行对数据的分类,全监督分割和弱监督分类。全监督分类效果较好,但是需要大量精确标记的数据进行训练,这些数据需要大量专业人员耗费大量时间进行标记。
目前的数据标注方式大多是借助于人工标注,工作任务重,标记结果出错也比较多,费时费力。
发明内容
本发明提供一种分类模型训练方法、分类方法、装置、设备以及介质,以实现基于少量标注数据训练网络模型,减小数据标注的工作量,提高模型训练效率,并且基于不同的样本数据对应不同的权重设置损失函数,提高模型训练的准确性。
第一方面,本发明实施例提供了一种分类模型训练方法,该方法包括:
在初始样本数据中确定当前次迭代的第一抽样样本数据和第二抽样样本数据;其中,所述第一抽样样本数据和所述第二抽样样本数据的样本数据量相同,且样本数据不重叠,所述第一抽样样本数据为首次迭代中预设数量的随机抽样数据或上一次迭代中第一抽样样本数据和第二抽样样本数据的合集,各次迭代中的第二抽样样本数据的分类结果基于对应的第一抽样样本数据的分类结果确定;
基于所述第一抽样样本数据和第二抽样样本数据,以及各样本数据的分类结果对当前分类模型进行训练,并得到当前次迭代更新后的分类模型,直到满足迭代停止条件,得到训练后的目标分类模型。
可选的,若当前次迭代为首次迭代,则所述在初始样本数据中确定当前次迭代的第一抽样样本数据和第二抽样样本数据,包括:
将初始样本数据中抽取预设数量的样本数据作为第一抽样样本数据;
将所述初始样本数据中除所述第一抽样样本数据之外的样本数据中抽取预设数量的样本数据作为第二抽样样本数据。
可选的,在初始样本数据中确定当前次迭代的第一抽样样本数据和第二抽样样本数据之后,还包括:
将所述第一抽样样本数据的人工标注数据作为所述第一抽样样本数据的分类结果;
基于所述第一抽样样本数据的分类结果确定所述初始样本数据的分类结果,并基于所述初始样本数据的分类结果确定所述第二抽样样本数据的分类结果。
可选的,所述基于所述第一抽样样本数据和第二抽样样本数据,以及各样本数据的分类结果对当前分类模型进行训练,并得到当前次迭代更新后的分类模型,直到满足迭代停止条件,得到训练后的目标分类模型,包括:
获取当前次迭代的所述第一抽样样本数据和第二抽样样本数据,并将所述第一抽样样本数据和第二抽样样本数据输入至所述当前分类模型,得到所述当前分类模型的输出结果;
将所述当前次迭代的各样本数据的分类结果作为各样本数据的数据标签,基于所述当前次迭代的数据标签以及所述当前分类模型的输出结果生成损失函数,基于所述损失函数对对所述当前分类模型进行参数调节;
当所述当前分类模型的训练过程满足训练停止条件,得到训练完成的目标分类模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海上实龙创智能科技股份有限公司,未经上海上实龙创智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111127320.X/2.html,转载请声明来源钻瓜专利网。