[发明专利]一种基于神经网络视频识别的连续手语识别方法及装置在审
申请号: | 202210251137.9 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114708650A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 薛万利;杜宝增;袁甜甜;陈胜勇 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 300384 天津市南*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 视频 识别 连续 手语 方法 装置 | ||
本发明提供了一种基于神经网络视频识别的连续手语识别方法及装置,涉及人工智能深度学习的技术领域,包括:获取原始视频,并将原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对第一视频增加注释标签以获取第二视频,发送第二指令以对第二视频进行特征提取,获取第二视频的分类特征以及时序特征;获取第二视频的分类特征,获取第二视频的时序特征并将第二视频的分类特征以及时序特征进行融合;构建与Softmax层相连KL散度损失函数模型以及CTC损失函数模型,并对Resnet18神经网络进行训练;利用测试视频对训练完成的Resnet18神经网络进行测试。通过本发明提供装置及方法可以缓解现有技术中对帧与相对应的注释对齐困难的技术问题。
技术领域
本发明涉及视频识别技术领域,尤其是涉及一种基于神经网络视频识别的连续手语识别方法及装置。
背景技术
手语作为聋哑人之间以及聋哑人与健听人之间的重要沟通桥梁,因此手语是非常重要的肢体语言。但是,在一般情况下,健听人是不懂手语的,那么就存在聋哑人和健听人之间的沟通障碍。发展自动化手语识别技术不仅可以为聋哑人带来在日常生活中的帮助,为他们提供沟通和交流的便利,还可以为社会创造出更大的经济价值。手语识别产品可以应用到手语教学,车站导航,自助咨询台等场景,这些场景在未来将成为手语识别产品的巨大的应用市场。
随着深度学习的理论和计算机硬件的发展,利用深度神经网络完成手语识别任务成为可能。但是在现有的手语识别深度模型中,往往存在帧与相对应的注释对齐困难的问题,以及缺乏对每一帧的分类特征的忽略。
发明内容
有鉴于此,本发明的目的在于提供一种基于神经网络视频识别的连续手语识别方法及装置,以缓解现有技术中对帧与相对应的注释对齐困难的技术问题,增强了对手语特征的描述,有效降低了错误识别的概率。
本发明提供了一种基于神经网络视频识别的连续手语识别方法,包括:
发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
构建Resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
构造全连接层和Softmax层以获取所述第二视频的分类特征,构建Transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
发送第三指令以构建KL散度损失函数模型以及CTC损失函数模型,所述KL散度损失函数模型以及CTC损失函数模型均与所述Softmax层相连,获取所述KL散度损失函数模型以及CTC损失函数模型的输出结果以对Resnet18神经网络进行训练;
利用测试视频对训练完成的Resnet18神经网络进行测试;
结合图3,其中CTC解码输出部分:使用Beam search算法进行解码;然后是移除多余注释输出部分:即根据扩充注释的映射关系,找到最终的输出结果。比如某个注释的标签为1,扩展倍数m=3,那么1则扩充为1,2,3,那么将1,2,3都输出成1对应的注释即可;
优选的,采用如下公式表示训练视频:
采用如下公式表述减少帧的训练视频:
其中T中元素个数小于n,即元素为0表示不被选择,选择序列S表示:
rate表示设置的概率值。
优选的,采用如下公式对所述第一视频增加注释标签以获取第二视频:
原始注释序列如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210251137.9/2.html,转载请声明来源钻瓜专利网。