[发明专利]即插即用的手语词定位精修方法、系统、设备及存储介质在审
申请号: | 202310256444.0 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116229575A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 李厚强;周文罡;刘澜东 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06T7/73;G06V10/82;G06V10/74;G06V20/40;G06N3/048;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 即插即用 语词 定位 方法 系统 设备 存储 介质 | ||
1.一种即插即用的手语词定位精修方法,其特征在于,包括:
给定手语词查询视频与目标视频,使用手语词定位算法计算手语词查询视频每帧和目标视频每帧的余弦相似度,形成余弦相似度图,并从中取出置信度最高的区间作为初步定位结果;
将所述余弦相似度图在目标视频的维度,下采样不同倍数形成多尺度查找表;
利用循环神经网络对所述初步定位结果中的开始位置与结束位置分别进行迭代优化,当前次迭代过程中,取手语词查询视频的前一部分特征或者后一部分特征,上一次迭代得到的精修后的开始位置或结束位置邻域内的多尺度查找表特征,以及上一次迭代的循环神经网络的隐变量特征,生成当前次迭代的循环神经网络的隐变量特征,并以此获得当前次迭代的开始位置或结束位置的修正量,结合上一次迭代得到的精修后的开始位置或结束位置,获得当前次迭代次得到的精修后的开始位置或结束位置;对开始位置与结束位置分别进行多次迭代优化后,获得最终优化的开始位置与结束位置形成的优化的定位结果。
2.根据权利要求1所述的一种即插即用的手语词定位精修方法,其特征在于,使用手语词定位算法计算手语词查询视频每帧和目标视频每帧的余弦相似度,形成余弦相似度图,并从中取出置信度最高的区间作为初步定位结果包括:
计算手语词查询视频每帧和目标视频每帧的余弦相似度,得到余弦相似度图;余弦相似度计算方式如下:
其中,Tshort是手语词查询视频的总帧数,Tlong是目标视频帧数,Ft1表示手语词查询视频t1帧对应的特征,Ft2表示目标视频t2帧对应的特征,Sim[t1,t2]表示手语词查询视频t1帧和目标视频t2帧的余弦相似度;
使用动态规划算法,公式如下:
其中,f(.)是动态规划的状态,f(t1,t2)表示手语词查询视频从开始位置到t1帧,目标视频从开始位置到t2帧,得到余弦相似度的最大和;f(t1-1,t2-1)表示手语词查询视频从开始位置到t1-1帧,目标视频从开始位置到t2-1帧,得到余弦相似度的最大和;f(t1,t2-1)表示手语词查询视频从开始位置到t1帧,目标视频从开始位置到t2-1帧,得到余弦相似度的最大和;f(t1-1,t2)表示手语词查询视频从开始位置到t1-1帧,目标视频从开始位置到t2帧,得到余弦相似度的最大和;
枚举两个视频开始位置,选出最大的f(t1,t2),结合最大的f(t1,t2)中t2帧确定置信度最高的区间为[目标视频开始位置:t2],即初步定位结果中的开始位置为目标视频开始位置,结束位置为t2帧。
3.根据权利要求1所述的一种即插即用的手语词定位精修方法,其特征在于,所述将所述余弦相似度图在目标视频的维度,下采样不同倍数形成多尺度查找表包括:
将单个尺度的查找表记为Lm,其第t1行第t2列位置处的值通过下式计算:
其中,2m为平均池化的步长,表示对余弦相似度图下采样2m倍,m用于控制是否进行下采样以及下采样的倍数,m=0,1,2,3...,平均池化的邻域范围也是2m,p为枚举的邻域范围中的目标视频帧号,t2′表示下采样后目标视频的t2′帧,sim[t1,2mt2′+p]表示表示手语词查询视频t1帧和目标视频2mt2′+p帧的余弦相似度;
通过设置m的取值获得由若干单个尺度的查找表形成的多尺度查找表。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310256444.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动动物喂食器
- 下一篇:一种用于振动图像的语义分割方法、视觉定位方法