[发明专利]视频文件的分类方法、装置、介质及电子设备有效
申请号: | 202010224680.0 | 申请日: | 2020-03-26 |
公开(公告)号: | CN111488489B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 潘跃;李政;常德丹 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G06F16/75 | 分类号: | G06F16/75;G06F16/783 |
代理公司: | 深圳市联鼎知识产权代理有限公司 44232 | 代理人: | 叶虹 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频文件 分类 方法 装置 介质 电子设备 | ||
本申请提供一种视频文件的分类方法、视频文件的分类装置、计算机可读存储介质及电子设备;涉及视频处理技术领域;包括:当检测到上传的视频文件时,获取视频文件对应的描述信息和用户信息,解码视频文件得到对应的音频内容以及视频帧集合;对音频内容进行文本识别得到音频内容对应的文本信息,对文本信息和描述信息进行分词得到分词集合;根据视频帧集合和分词集合生成视频文件对应的第一分类结果,根据音频内容生成视频文件对应的第二分类结果,根据用户信息生成视频文件对应的第三分类结果;根据上述分类结果对视频文件进行分类。上述方法可以通过视频文件的多维度信息对视频文件进行识别,以提升对于视频文件的识别准确率。
技术领域
本申请涉及视频处理技术领域,具体而言,涉及一种视频文件的分类方法、视频文件的分类装置、计算机可读存储介质及电子设备。
背景技术
随着科技的不断发展,计算机可以通过执行相关的算法识别图像、语音、视频等多媒体文件,还可以对多媒体文件进行分类,以减少人们手动分类的工作量,提升人们的工作效率。其中,对于视频分类的方法通常包括以下几个步骤:获取视频内容,根据对视频内容的识别确定该视频所属的类别,如,生活类、舞蹈类等。但是,视频内容有时与其所属的类别关联较弱,例如,视频内容中包括人手控制玩偶跳舞的内容,计算机容易将其识别为舞蹈类,但其实该视频属于生活类。因此,上述这种分类方式通常会存在分类不准确的问题。
需要说明的是,在上述背景技术部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。
发明内容
本申请的目的在于提供一种视频文件的分类方法、视频文件的分类装置、计算机可读存储介质及电子设备,可以通过视频文件的多维度信息对视频文件进行识别,以提升对于视频文件的识别准确率。
本申请的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本申请的实践而习得。
根据本申请的第一方面,提供一种视频文件的分类方法,包括:
当检测到上传的视频文件时,获取视频文件对应的描述信息和用户信息,解码视频文件,得到视频文件对应的音频内容以及视频帧集合;
对音频内容进行文本识别,得到音频内容对应的文本信息,并对文本信息和描述信息进行分词处理,得到分词集合;
根据视频帧集合和分词集合生成与视频文件对应的第一分类结果,根据音频内容生成与视频文件对应的第二分类结果,根据用户信息生成与视频文件对应的第三分类结果;
根据第一分类结果、第二分类结果以及第三分类结果对视频文件进行分类。
在本申请的一种示例性实施例中,获取视频文件对应的描述信息和用户信息,包括:
检测视频文件对应的信息输入区域内的输入内容,并将输入内容确定为描述信息;
根据视频文件的上传请求确定与上传请求对应的用户信息。
在本申请的一种示例性实施例中,解码视频文件,得到视频文件对应的音频内容以及视频帧集合,包括:
将流媒体协议的视频文件解析为封装格式的视频数据;
对视频数据进行解封装,得到音频压缩数据和视频压缩数据;
解码音频压缩数据得到音频内容,解码视频压缩数据得到视频帧集合。
在本申请的一种示例性实施例中,对音频内容进行文本识别,得到音频内容对应的文本信息,包括:
提取音频内容中的音频特征;
根据预训练的语言模型和预训练的声学模型识别音频特征对应的文本信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010224680.0/2.html,转载请声明来源钻瓜专利网。