[发明专利]一种视频描述方法及装置有效
申请号: | 202110476064.9 | 申请日: | 2021-04-29 |
公开(公告)号: | CN113191263B | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 蔡晓东;王湘晴 | 申请(专利权)人: | 桂林电子科技大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/74;G06V10/82;G06F16/71;G06F16/783;G06K9/62;G06N3/04 |
代理公司: | 北京轻创知识产权代理有限公司 11212 | 代理人: | 尉保芳 |
地址: | 541004 广西*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 描述 方法 装置 | ||
1.一种视频描述方法,其特征在于,包括如下步骤:
导入待测视频,对所述待测视频进行时序语义特征分割,得到多个镜头数据;
通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息;
对多个所述镜头描述信息进行语句融合分析,得到视频描述信息;
所述通过预设视频描述模型分别对各个所述镜头数据进行转换分析,得到与各个所述镜头数据对应的镜头描述信息的过程包括:
通过预设视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的待更新镜头描述信息;
利用交叉熵损失函数算法分别计算各个所述待更新镜头描述信息和与所述待更新镜头描述信息对应的预设标准描述信息的损失值,得到与各个所述镜头数据对应的交叉熵损失;
通过所述预设视频描述模型分别对各个所述交叉熵损失进行参数更新,得到与各个所述镜头数据对应的更新后视频描述模型;
通过所述更新后视频描述模型分别将各个所述镜头数据转换为与各个所述镜头数据对应的镜头描述信息;
所述对多个所述镜头描述信息进行语句融合分析,得到视频描述信息的过程包括:
S1:对多个所述镜头描述信息进行向量转换处理,得到镜头描述向量;
S2:获取当前时刻,并根据当前时刻LSTM的隐藏状态和所述镜头描述向量计算注意力分布,得到当前时刻注意力分布;
S3:计算所述镜头描述向量和所述当前时刻注意力分布的乘积,得到上下文向量;
S4:将所述上下文向量输入至预设语句融合模型中,通过所述预设语句融合模型进行语句融合处理,得到单词信息和下一时刻LSTM的隐藏状态;
S5:对所述当前时刻进行判断,若所述当前时刻小于预设时刻,则将所述下一时刻LSTM的隐藏状态作为当前时刻LSTM的隐藏状态,并返回步骤S2;若所述当前时刻等于预设时刻时,则根据多个所述单词信息得到视频描述信息。
2.根据权利要求1所述的视频描述方法,其特征在于,所述对所述待测视频进行时序语义特征分割,得到多个镜头数据的过程包括:
利用PyCharm工具对所述待测视频进行帧提取,得到多个视频帧图像,多个所述视频帧图像按照视频帧时间顺序排列;
分别对各个所述视频帧图像进行特征提取,得到与所述视频帧图像对应的特征向量;
将两两相邻的所述特征向量划分为一组,并对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度;
对所有的所述特征相似度进行相似度分析,得到多个待处理镜头数据;
分别对各个所述待处理镜头数据进行去噪处理,得到与所述待处理镜头数据对应的镜头数据。
3.根据权利要求2所述的视频描述方法,其特征在于,所述对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度的过程包括:
通过第一式对每组的两个所述特征向量进行相似度计算,得到与各个所述特征向量对应的特征相似度,所述第一式为:
sn=cos(fn,fn+1),
其中,fn为第n个特征向量,fn+1为与fn相邻的特征向量,sn为特征相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于桂林电子科技大学,未经桂林电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110476064.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种视频描述数据处理方法、装置及存储介质
- 下一篇:一种USB接头测试连接器