[发明专利]一种模型训练方法及相关装置在审
| 申请号: | 202210452459.X | 申请日: | 2022-04-27 |
| 公开(公告)号: | CN115130650A | 公开(公告)日: | 2022-09-30 |
| 发明(设计)人: | 李廷天;孙子荀 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
| 主分类号: | G06N3/04 | 分类号: | G06N3/04;G06N3/08;G06K9/62 |
| 代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 林志鹏 |
| 地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 模型 训练 方法 相关 装置 | ||
本申请实施例公开了一种人工智能领域的模型训练方法及相关装置,其中该方法包括:获取多个包括视频片段和音频片段的训练样本;通过第一编码网络根据各训练样本中的第一片段,确定各训练样本对应的第一预测特征;基于各训练样本对应的第一预测特征进行聚类处理,确定各训练样本中第一片段所属的类别,根据训练样本中第一片段所属的类别,为训练样本中第二片段配置伪标签;通过第二编码网络根据各训练样本中的第二片段,确定各训练样本对应的第二预测特征,并确定各训练样本中的第二片段对应的类别预测结果;基于各训练样本中的第二片段对应的类别预测结果和伪标签,训练第二编码网络。该方法能够提高视频编码网络和音频编码网络的特征编码能力。
技术领域
本申请涉及人工智能技术领域,尤其涉及一种模型训练方法及相关装置。
背景技术
在实际应用中,视觉和听觉的交互作用能够使人类的感知功能更完整和精确;例如,人们观看视频时,通常需要借助声音来理解视频画面中的内容。基于此,针对视频执行相关任务(如分类任务等)时,往往需要综合考虑该视频的图像特征和音频特征;目前主要通过视频编码网络根据视频画面确定视频的图像特征,通过音频编码网络根据视频的音频确定视频的音频特征。
相关技术中,通常采用对比学习的方式,训练上述视频编码网络和音频编码网络。具体的,可以将一段视频中同步的视频片段和音频片段作为正样本,将不同视频中的视频片段和音频片段、或同一视频中不同步的视频片段和音频片段作为负样本;然后,训练用于识别正样本和负样本的二分类模型,该二分类模型中包括的视频编码网络和音频编码网络在此过程中也会得到相应的训练。
然而,通过上述方式训练得到的视频编码网络和音频编码网络所具备的特征编码能力并不理想,二者编码得到的图像特征和音频特征往往难以很好地应用于下游任务。原因在于,上述训练方法中使用的正样本与负样本之间的区别通常非常明显,在模型训练的过程中,所训练的二分类模型很容易就能准确地分辨出正样本和负样本,而其中的视频编码网络和音频编码网络并没有得到充分的训练。
发明内容
本申请实施例提供了一种模型训练方法及相关装置,能够保证训练得到的视频编码网络和音频编码网络具备较优的特征编码能力,从而更好地应用于下游任务。
有鉴于此,本申请第一方面提供了一种模型训练方法,所述方法包括:
获取多个训练样本;所述训练样本中包括视频片段及其对应的音频片段;
针对每个所述训练样本,通过第一编码网络,根据所述训练样本中的第一片段,确定所述训练样本对应的第一预测特征;所述第一编码网络为视频编码网络和音频编码网络中的任一个;
基于所述多个训练样本各自对应的第一预测特征进行聚类处理,确定每个所述训练样本中的第一片段所属的类别;并针对每个所述训练样本,根据所述训练样本中的第一片段所属的类别,为所述训练样本中的第二片段配置对应的伪标签;所述第二片段与所述第一片段不同;
针对每个所述训练样本,通过第二编码网络,根据所述训练样本中的第二片段,确定所述训练样本对应的第二预测特征;根据所述训练样本对应的第二预测特征,确定所述训练样本中的第二片段对应的类别预测结果;所述第二编码网络为所述视频编码网络和所述音频编码网络中的任一个,且不同于所述第一编码网络;
基于所述多个训练样本中的第二片段各自对应的类别预测结果和伪标签,训练所述第二编码网络。
本申请第二方面提供了一种模型训练装置,所述装置包括:
训练样本获取模块,用于获取多个训练样本;所述训练样本中包括视频片段及其对应的音频片段;
第一特征预测模块,用于针对每个所述训练样本,通过第一编码网络,根据所述训练样本中的第一片段,确定所述训练样本对应的第一预测特征;所述第一编码网络为视频编码网络和音频编码网络中的任一个;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210452459.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:高维生素C含量的精华液
- 下一篇:一种图像处理方法、系统及存储介质和终端设备





