[发明专利]视频动作分类模型训练方法、装置及视频动作分类方法有效
申请号: | 201810292563.0 | 申请日: | 2018-03-30 |
公开(公告)号: | CN108647571B | 公开(公告)日: | 2021-04-06 |
发明(设计)人: | 孙源良;段立新;李长升;樊雨茂 | 申请(专利权)人: | 国信优易数据股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 金相允 |
地址: | 100000 北京市丰台区南四环*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 动作 分类 模型 训练 方法 装置 | ||
本发明提供一种视频动作分类模型训练方法、装置及视频动作分类方法,视频动作分类模型训练方法包括:获取多个带有标签的训练视频中的训练图像帧;使用目标神经网络模型为训练图像帧提取特征向量;对多个训练视频的训练图像帧的特征向量进行分布匹配,得到多个训练图像帧集合;按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序,对多个训练图像帧集合排序;并按排序依次使用每个训练图像帧集合对目标神经网络模型进行训练,获得视频动作分类模型。本申请实施例能够在学习到训练难度较小的训练视频帧特征的基础上,学习训练难度较大的训练图像帧与其他训练难度较小的训练图像帧之间的差异性特征,能够为训练视频进行更准确的分类。
技术领域
本发明涉及深度学习技术领域,具体而言,涉及一种视频动作分类模型训练方法、装置及视频动作分类方法。
背景技术
随着神经网络在图像、视频、语音、文本等领域的迅猛发展,推动了一系列智能产品的落地,用户对基于神经网络的各种模型的精度要求也越来越高。在基于神经网络构建视频动作分类模型的时候,为了让神经网络充分学习视频中图像的特征,以提升视频动作分类模型的分类,需要将大量的训练视频输入到神经网络中,对神经网络进行训练。
但是在实际中,在使用大量的训练视频对神经网络进行训练的过程中,由于视频与视频之间存在个体差异,导致神经网络对不同的视频进行学习的难度通常是不一样的。对于画面较为复杂的视频,神经网络往往无法学习到其中区别于其他视频的一些特征,进而导致最终生成的视频动作分类模型对视频进行动作检测时的精度低,分类结果的准确率差。
发明内容
有鉴于此,本发明实施例的目的在于提供一种视频动作分类模型训练方法、装置及视频动作分类方法,能够提高视频动作分类模型的精度,提升分类结果的准确率。
第一方面,本发明实施例提供了一种视频动作分类模型训练方法,该方法包括:
获取多个带有标签的训练视频中的训练图像帧;
使用目标神经网络模型为所述训练图像帧提取特征向量;
对多个所述训练视频的训练图像帧的特征向量进行分布匹配,得到多个训练图像帧集合;
按照多个训练图像帧集合中训练图像帧训练难度由小到大的顺序,对多个训练图像帧集合排序;并
按排序依次使用每个训练图像帧集合对所述目标神经网络模型进行训练,获得视频动作分类模型。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中:所述获取多个带有标签的训练视频中的训练图像帧,具体包括:
获取多个带有标签的训练视频;
按照预设采样频率,对所述训练视频进行采样;
将对每个训练视频采样得到的图像作为该训练视频中的训练图像帧。
结合第一方面,本发明实施例提供了第一方面的第二种可能的实施方式,其中:所述对多个所述训练视频的训练图像帧的特征向量进行分布匹配,具体包括:
分别对每个训练视频包括的训练图像帧的特征向量进行聚类,获得每个训练视频的第一聚类结果;对所有训练视频的第一聚类结果,进行二次聚类;
或者,对所有训练视频包括的训练图像帧的特征向量进行聚类。
结合第一方面,本发明实施例提供了第一方面的第三种可能的实施方式,其中:采用如下方式确定每个训练图像帧集合的训练难度:
从训练图像帧集合中确定基准特征向量;
确定该训练图像帧集合中其他特征向量与所述基准特征向量的距离;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国信优易数据股份有限公司,未经国信优易数据股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810292563.0/2.html,转载请声明来源钻瓜专利网。