[发明专利]视频文件的分类方法、装置、介质及电子设备有效
申请号: | 202010224680.0 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111488489B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 潘跃;李政;常德丹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/783 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频文件 分类 方法 装置 介质 电子设备 | ||
1.一种视频文件的分类方法,其特征在于,包括:
当检测到上传的视频文件时,获取所述视频文件对应的描述信息和用户信息,解码所述视频文件,得到所述视频文件对应的音频内容以及视频帧集合;
对所述音频内容进行文本识别,得到所述音频内容对应的文本信息,并对所述文本信息和所述描述信息进行分词处理,得到分词集合;
根据所述视频帧集合和所述分词集合生成与所述视频文件对应的第一分类结果,根据所述音频内容生成与所述视频文件对应的第二分类结果,根据所述用户信息生成与所述视频文件对应的第三分类结果;
根据所述第一分类结果、所述第二分类结果以及所述第三分类结果对所述视频文件进行分类。
2.根据权利要求1所述的方法,其特征在于,获取所述视频文件对应的描述信息和用户信息,包括:
检测所述视频文件对应的信息输入区域内的输入内容,并将所述输入内容确定为描述信息;
根据所述视频文件的上传请求确定与所述上传请求对应的用户信息。
3.根据权利要求1所述的方法,其特征在于,解码所述视频文件,得到所述视频文件对应的音频内容以及视频帧集合,包括:
将流媒体协议的所述视频文件解析为封装格式的视频数据;
对所述视频数据进行解封装,得到音频压缩数据和视频压缩数据;
解码所述音频压缩数据得到所述音频内容,解码所述视频压缩数据得到所述视频帧集合。
4.根据权利要求1所述的方法,其特征在于,对所述音频内容进行文本识别,得到所述音频内容对应的文本信息,包括:
提取所述音频内容中的音频特征;
根据预训练的语言模型和预训练的声学模型识别所述音频特征对应的文本信息。
5.根据权利要求1所述的方法,其特征在于,根据所述视频帧集合和所述分词集合生成与所述视频文件对应的第一分类结果,包括:
将所述视频帧集合进行预处理得到目标视频帧集合;其中,所述目标视频帧集合中的视频帧数量小于所述视频帧集合中的视频帧数量;
将所述目标视频帧集合输入第一特征提取网络,通过所述第一特征提取网络提取所述目标视频帧集合对应的视觉特征;
将所述分词集合输入第二特征提取网络,通过所述第二特征提取网络提取所述分词集合对应的文本信息特征;
将所述视觉特征和所述文本信息特征进行拼接,并对拼接结果进行分类,得到所述视频文件对应的第一分类结果。
6.根据权利要求5所述的方法,其特征在于,将所述视频帧集合进行预处理得到目标视频帧集合,包括:
将所述视频帧集合中各视频帧的当前格式转换为目标格式;
对格式转换后的视频帧集合进行采样,得到目标视频帧集合。
7.根据权利要求1所述的方法,其特征在于,根据所述音频内容生成与所述视频文件对应的第二分类结果之前,所述方法还包括:
通过各预设类别标签下的样本音频训练所述音频分类网络;
抽取历史时段中的音频数据测试训练后的音频分类网络,得到测试结果;
根据所述测试结果将音频特征高于预设相似度的音频数据所对应的预设类别进行合并,并根据合并结果更新所述音频分类网络的参数。
8.根据权利要求7所述的方法,其特征在于,根据所述音频内容生成与所述视频文件对应的第二分类结果,包括:
将所述音频内容对应的频谱图输入参数更新后的音频分类网络,通过所述参数更新后的音频分类网络确定所述频谱图对应的音频特征序列;
对所述音频特征序列进行分类,得到所述视频文件对应的第二分类结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010224680.0/1.html,转载请声明来源钻瓜专利网。