[发明专利]一种视频描述生成方法、装置以及存储介质在审
| 申请号: | 202111640894.7 | 申请日: | 2021-12-29 |
| 公开(公告)号: | CN114386260A | 公开(公告)日: | 2022-04-22 |
| 发明(设计)人: | 蔡晓东;王湘晴 | 申请(专利权)人: | 桂林电子科技大学 |
| 主分类号: | G06F30/20 | 分类号: | G06F30/20;G06F40/30;G06F119/02 |
| 代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 姜展志 |
| 地址: | 541004 广西*** | 国省代码: | 广西;45 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 视频 描述 生成 方法 装置 以及 存储 介质 | ||
本发明提供一种视频描述生成方法、装置以及存储介质,属于视频处理技术领域,方法包括:S1:导入待训练视频,并构建编码器、语义检测器和解码器;S2:通过编码器对待训练视频进行特征分析,得到待处理特征和视觉特征;S3:通过语义检测器对待处理特征进行语义分析,得到语义属性;S4:通过解码器对视觉特征进行解码,得到预测标签向量;S5:对语义属性和预测标签向量进行损失分析,得到视频描述生成模型;S6:通过视频描述生成模型对待描述视频进行视频描述,生成视频描述结果。本发明能够探索生成的描述和视觉内容之间的相关性,生成语义丰富的句子,充分地考虑了突出的特征,提高了模型的准确性。
技术领域
本发明主要涉及视频处理技术领域,具体涉及一种视频描述生成方法、装置以及存储介质。
背景技术
视频描述的目的是自动生成一个简洁准确的视频描述,它需要计算机视觉(CV)和自然语言处理(NLP)的技术。深度学习的序列-序列学习方法能够从离散的颜色数组学习到密集的向量,并在不受人为干扰的情况下生成自然语言序列。然而,现有的大多数方法都是将整个视频镜头或帧压缩成一个静态的表示,而不考虑突出的特征。此外,现有的翻译方法大多对翻译错误进行了建模,但忽略了句子语义与视觉内容之间的相关性。
发明内容
本发明所要解决的技术问题是针对现有技术的不足,提供一种视频描述生成方法、装置以及存储介质。
本发明解决上述技术问题的技术方案如下:一种视频描述生成方法,包括如下步骤:
S1:导入待训练视频,并构建训练模型,所述训练模型包括编码器、语义检测器和解码器;
S2:通过所述编码器对所述待训练视频进行特征分析,得到待处理特征和视觉特征;
S3:通过所述语义检测器对所述待处理特征进行语义分析,得到语义属性;
S4:通过所述解码器对所述视觉特征进行解码,得到预测标签向量;
S5:对所述语义属性和所述预测标签向量进行损失分析,得到视频描述生成模型;
S6:导入待描述视频,通过所述视频描述生成模型对所述待描述视频进行视频描述,生成视频描述结果。
本发明解决上述技术问题的另一技术方案如下:一种视频描述生成装置,包括:
模型构建模块,用于导入待训练视频,并构建训练模型,所述训练模型包括编码器、语义检测器和解码器;
特征分析模块,用于通过所述编码器对所述待训练视频进行特征分析,得到待处理特征和视觉特征;
语义分析模块,用于通过所述语义检测器对所述待处理特征进行语义分析,得到语义属性;
特征解码模块,用于通过所述解码器对所述视觉特征进行解码,得到预测标签向量;
损失分析模块,用于对所述语义属性和所述预测标签向量进行损失分析,得到视频描述生成模型;
视频描述结果生成模块,用于导入待描述视频,通过所述视频描述生成模型对所述待描述视频进行视频描述,生成视频描述结果。
本发明解决上述技术问题的另一技术方案如下:一种视频描述生成装置,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,当所述处理器执行所述计算机程序时,实现如上所述的视频描述生成方法。
本发明解决上述技术问题的另一技术方案如下:一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的视频描述生成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111640894.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种无源加压翻转式生态环保工程绿化装置
- 下一篇:一种智能床头柜





