[发明专利]一种视频描述数据处理方法、装置以及存储介质在审
申请号: | 202111637849.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114385856A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 蔡晓东;王湘晴 | 申请(专利权)人: | 桂林远望智能通信科技有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/783;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 尉保芳 |
地址: | 541004 广西壮族自治区桂林*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 描述 数据处理 方法 装置 以及 存储 介质 | ||
1.一种视频描述数据处理方法,其特征在于,包括如下步骤:
S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
2.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述编码器包括2D-CNN卷积神经网络和3D-CNN卷积神经网络,所述视频数据包括多个帧图像,所述步骤S2中,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵的过程包括:
通过所述2D-CNN卷积神经网络分别对各个所述帧图像进行二维特征提取,得到与所述帧图像对应的二维特征;
通过所述3D-CNN卷积神经网络对多个所述帧图像进行三维特征提取,得到三维特征;
对多个所述二维特征和所述三维特征进行拼接,得到视觉特征矩阵。
3.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S3中,依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息的过程包括:
S31:将所述真实词向量作为输入词向量,对所有LSTM长短期记忆网络的数量进行统计,得到LSTM长短期记忆网络总数;
S32:每组LSTM长短期记忆网络中,通过所述LSTM长短期记忆网络对所述输入词向量进行解码,得到待处理词向量,并将所述LSTM长短期记忆网络的排列位数作为训练执行次数;
S33:对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率;
S34:判断所述采样率是否大于预设判断值,若是,则将所述真实词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32;若否,则将所述待处理词向量和下一个视觉特征向量作为所述输入词向量,并返回步骤S32,直至处理完所有的LSTM长短期记忆网络,从而得到多个待处理词向量,并根据所有的待处理词向量得到视频描述信息。
4.根据权利要求3所述的视频描述数据处理方法,其特征在于,所述步骤S33的过程包括:
通过第一式对所述训练执行次数和所述LSTM长短期记忆网络总数进行采样率的计算,得到采样率,所述第一式为:
其中,P为采样率,epoch为训练执行次数,max_epoch为LSTM长短期记忆网络总数。
5.根据权利要求1所述的视频描述数据处理方法,其特征在于,所述步骤S4的过程包括:
利用Spacy Tagging Tool工具对所述视频描述信息进行序列标注,得到多个词性标签;
导入与所述词性标签对应的真实标签,并利用交叉熵损失算法计算所有的词性标签以及所有的真实标签的损失值,得到标签损失值;
根据所述标签损失值对多个所述LSTM长短期记忆网络进行更新,并返回步骤S2,直至达到预设迭代次数,将更新后的视频描述模型作为目标视频描述模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林远望智能通信科技有限公司,未经桂林远望智能通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111637849.6/1.html,转载请声明来源钻瓜专利网。