[发明专利]一种用于视频分类的方法、设备、介质及程序产品在审
| 申请号: | 202110925266.7 | 申请日: | 2021-08-12 |
| 公开(公告)号: | CN113673588A | 公开(公告)日: | 2021-11-19 |
| 发明(设计)人: | 侯永杰 | 申请(专利权)人: | 连尚(北京)网络科技有限公司 |
| 主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06N3/04 |
| 代理公司: | 上海三和万国知识产权代理事务所(普通合伙) 31230 | 代理人: | 周建华 |
| 地址: | 100085 北京市海淀区*** | 国省代码: | 北京;11 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 用于 视频 分类 方法 设备 介质 程序 产品 | ||
1.一种用于视频分类的方法,其中,该方法包括:
将视频数据输入已训练的视频分类模型的转换层,输出所述视频数据对应的多个一维向量,其中,所述转换层包括全连接层,通过所述转换层将所述视频数据中的至少一帧图像切分为多个图像块,将所述多个图像块输入所述全连接层,输出得到所述多个一维向量;
将至少一个一维向量输入所述视频分类模型的自注意力层,输出所述视频数据对应的视频分类信息,其中,所述自注意力层是基于自注意力机制构建的。
2.根据权利要求1所述的方法,其中,所述将所述视频数据中的至少一帧图像切分为多个图像块,包括:
根据所述视频数据对应的图像尺寸信息,确定所述视频数据对应的切分配置信息;
根据所述切分配置信息,将所述视频数据中的至少一帧图像切分为多个图像块。
3.根据权利要求2所述的方法,其中,所述切分配置信息包括以下至少一项:
切分数量信息;
切分尺寸信息。
4.根据权利要求2所述的方法,其中,所述根据所述视频数据对应的图像尺寸信息,确定所述视频数据对应的切分配置信息,包括:
对于所述视频数据中的至少一帧图像中的每帧图像,通过对该帧图像进行图像识别,根据图像识别结果,根据所述视频数据对应的图像尺寸信息及所述图像识别结果,确定该帧图像对应的切分配置信息。
5.根据权利要求4所述的方法,其中,所述图像识别结果包括该帧图像对应的图像复杂度信息。
6.根据权利要求1所述的方法,其中,所述多个图像块中相邻的至少两个图像块存在预定大小的重叠区域。
7.根据权利要求1所述的方法,其中,所述方法还包括:
从所述多个一维向量中确定至少一个目标一维向量;
其中,所述将至少一个一维向量输入所述视频分类模型的自注意力层,输出所述视频数据对应的视频分类信息,包括:
将所述至少一个目标一维向量输入所述视频分类模型的自注意力层,输出所述视频数据对应的视频分类信息。
8.根据权利要求7所述的方法,其中,所述从所述多个一维向量中确定至少一个目标一维向量,包括:
对所述多个一维向量执行去重处理,得到去重后剩余的至少一个目标一维向量。
9.根据权利要求7所述的方法,其中,所述从所述多个一维向量中确定至少一个目标一维向量,包括:
从所述多个一维向量中确定至少一个目标一维向量,其中,所述至少一个目标一维向量中的每个目标一维向量在所述多个一维向量中对应的相似一维向量的个数大于或等于预定的个数阈值。
10.根据权利要求9所述的方法,其中,对于所述每个目标一维向量,该目标一维向量及该目标一维向量所对应的相似一维向量对应的多个图像块呈现在所述至少一帧图像中的至少一个预定帧数的连续帧图像序列上。
11.根据权利要求1所述的方法,其中,所述将至少一个一维向量输入所述视频分类模型的自注意力层,输出所述视频数据对应的视频分类信息,包括:
将至少一个一维向量输入所述视频分类模型的自注意力层,通过所述自注意力层对所述至少一个一维向量进行线性变换生成多个第一向量及第二向量,对所述多个第一向量进行归一化处理得到所述第二向量对应的自适应权重信息,根据所述第二向量及所述自适应权重信息,获得加权后的第二向量,通过对所述加权后的第二向量进行特征提取,输出所述视频数据对应的视频分类信息,其中,所述自注意力层是基于自注意力机制构建的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于连尚(北京)网络科技有限公司,未经连尚(北京)网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110925266.7/1.html,转载请声明来源钻瓜专利网。





