[发明专利]一种视频描述数据处理方法、装置以及存储介质在审
申请号: | 202111637849.6 | 申请日: | 2021-12-29 |
公开(公告)号: | CN114385856A | 公开(公告)日: | 2022-04-22 |
发明(设计)人: | 蔡晓东;王湘晴 | 申请(专利权)人: | 桂林远望智能通信科技有限公司 |
主分类号: | G06F16/78 | 分类号: | G06F16/78;G06F16/783;G06N3/04;G06N3/08 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 尉保芳 |
地址: | 541004 广西壮族自治区桂林*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 描述 数据处理 方法 装置 以及 存储 介质 | ||
本发明提供一种视频描述数据处理方法、装置以及存储介质,属于图像处理技术领域,方法包括:S1:导入视频数据,并构建编码器和多个顺序排列的LSTM长短期记忆网络;S2:通过编码器对视频数据进行编码得到视觉特征向量;S3:导入真实词向量,并将LSTM长短期记忆网络、视觉特征向量以及真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析得到视频描述信息;S4:对视频描述信息进行损失分析得到目标视频描述模型;S5:导入待测视频数据,通过目标视频描述模型对待测视频数据进行视频描述得到视频描述结果。本发明解决了数据分布不一致的问题,能够让生成的词更贴近真实标签,进而提高了生成描述的准确性。
技术领域
本发明主要涉及图像处理技术领域,具体涉及一种视频描述数据处理方法、装置以及存储介质。
背景技术
目前,基础的训练模型在训练时只会使用真实的标签作为数据输入,而测试的时候只能把生成值作为输入,这就造成了训练和测试间的不匹配问题。同时,现有的基础模型生成的描述与真实标签往往不够贴切,降低了模型的准确率。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种视频描述数据处理方法、装置以及存储介质。
本发明解决上述技术问题的技术方案如下:一种视频描述数据处理方法,包括如下步骤:
S1:导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
S2:通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
S3:导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
S4:对所述视频描述信息进行损失分析,得到目标视频描述模型;
S5:导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
本发明解决上述技术问题的另一技术方案如下:一种视频描述数据处理装置,包括:
模型构建模块,用于导入视频数据,并构建视频描述模型,所述视频描述模型包括编码器和多个顺序排列的LSTM长短期记忆网络;
编码器处理模块,通过所述编码器对所述视频数据进行编码,得到视觉特征矩阵,所述视觉特征矩阵包括分别与多个所述LSTM长短期记忆网络一一对应的视觉特征向量;
判断分析模块,用于导入与所述视觉特征向量对应的真实词向量,并将所述LSTM长短期记忆网络、所述视觉特征向量以及所述真实词向量为一组,并依次对每组LSTM长短期记忆网络进行判断分析,得到视频描述信息;
损失分析模块,用于对所述视频描述信息进行损失分析,得到目标视频描述模型;
视频描述结果获得模块,用于导入待测视频数据,通过所述目标视频描述模型对所述待测视频数据进行视频描述,得到视频描述结果。
本发明解决上述技术问题的另一技术方案如下:一种视频描述数据处理装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的视频描述数据处理方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的视频描述数据处理方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林远望智能通信科技有限公司,未经桂林远望智能通信科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111637849.6/2.html,转载请声明来源钻瓜专利网。