[发明专利]即插即用的手语词定位精修方法、系统、设备及存储介质在审
申请号: | 202310256444.0 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116229575A | 公开(公告)日: | 2023-06-06 |
发明(设计)人: | 李厚强;周文罡;刘澜东 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06T7/73;G06V10/82;G06V10/74;G06V20/40;G06N3/048;G06N3/0464;G06N3/0442;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 即插即用 语词 定位 方法 系统 设备 存储 介质 | ||
本发明公开了一种即插即用的手语词定位精修方法、系统、设备及存储介质,能够在传统方法的基础上,构建多尺度查找表对手语动作的开始和结束位置进行修正,可以使使开始和结束的边界更加准确,从而使得手语词定位方法能更加广泛的应用在手语数据集的标注上,进而提升连续手语识别的精确度。
技术领域
本发明涉及手语词定位技术领域,尤其涉及一种即插即用的手语词定位精修方法、系统、设备及存储介质。
背景技术
听障人士为了交流,主要使用手语来表达自己的想法。为了帮助他们更好地融入社会,研究人员使用计算机算法将手语翻译成文字,方便正常人的理解。为提升手语翻译算法的精确度,研究人员引入了手语词(gloss)这一辅助信息。手语词是手语的基本表意单元,它的顺序与手语视频顺序一致,且能很好地刻画出手语视频的特征,遗憾的是它需要专业人员手动标注,标注成本很高。
为了快速获得含有手语词标注的数据集,单样本手语词定位任务应运而生。单样本手语词定位任务目的是,定位某个手语词对应的查询短视频,在目标长视频里的开始和结束的位置。
传统方法大多是,对手语词查询视频(短视频)和目标视频(长视频)逐帧特征进行提取,然后,计算短视频每帧和长视频每帧的余弦相似度,再使用动态时间规整算法(Dynamic Time Warping,DTW),图论最长路算法(Longest Path),时间网络(TemporalNetwork)算法,霍夫投票(Hough Voting)算法等等,确定手语词出现的区间。由于相邻手语词衔接动作的存在,传统算法在边界处的划分并不准确。此外,听障人士打手语快慢不一,如果不引入多尺度信息,会导致边界划分不准,从而导致数据集标注存在偏差,进而影响模型训练后连续手语识别的精准度。
发明内容
本发明的目的是提供一种即插即用的手语词定位精修方法、系统、设备及存储介质,可以使使开始和结束的边界更加准确,从而使得手语词定位方法能更加广泛的应用在手语数据集的标注上,进而提升连续手语识别的精确度。
本发明的目的是通过以下技术方案实现的:
一种即插即用的手语词定位精修方法,包括:
给定手语词查询视频与目标视频,使用手语词定位算法计算手语词查询视频每帧和目标视频每帧的余弦相似度,形成余弦相似度图,并从中取出置信度最高的区间作为初步定位结果;
将所述余弦相似度图在目标视频的维度,下采样不同倍数形成多尺度查找表;
利用循环神经网络对所述初步定位结果中的开始位置与结束位置分别进行迭代优化,当前次迭代过程中,取手语词查询视频的前一部分特征或者后一部分特征,上一次迭代得到的精修后的开始位置或结束位置邻域内的多尺度查找表特征,以及上一次迭代的循环神经网络的隐变量特征,生成当前次迭代的循环神经网络的隐变量特征,并以此获得当前次迭代的开始位置或结束位置的修正量,结合上一次迭代得到的精修后的开始位置或结束位置,获得当前次迭代次得到的精修后的开始位置或结束位置;对开始位置与结束位置分别进行多次迭代优化后,获得最终优化的开始位置与结束位置形成的优化的定位结果。
一种即插即用的手语词定位精修系统,包括:
初步定位结果获取模块,用于给定手语词查询视频与目标视频,使用手语词定位算法计算手语词查询视频每帧和目标视频每帧的余弦相似度,形成余弦相似度图,并从中取出置信度最高的区间作为初步定位结果;
多尺度查找表构建模块,用于
将所述余弦相似度图在目标视频的维度,下采样不同倍数形成多尺度查找表;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310256444.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自动动物喂食器
- 下一篇:一种用于振动图像的语义分割方法、视觉定位方法