[发明专利]一种基于神经网络视频识别的连续手语识别方法及装置在审
申请号: | 202210251137.9 | 申请日: | 2022-03-15 |
公开(公告)号: | CN114708650A | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 薛万利;杜宝增;袁甜甜;陈胜勇 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06N3/08;G06N3/04;G06K9/62;G06V10/764;G06V10/82 |
代理公司: | 天津才智专利商标代理有限公司 12108 | 代理人: | 庞学欣 |
地址: | 300384 天津市南*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 神经网络 视频 识别 连续 手语 方法 装置 | ||
1.一种基于神经网络视频识别的连续手语识别方法,其特征在于,包括:
发送第一指令以获取原始视频,并将所述原始视频分为训练视频以及测试视频,并减少训练视频的帧数以获取第一视频,并对所述第一视频增加注释标签以获取第二视频;
构建Resnet18神经网络,发送第二指令以对所述第二视频进行特征提取,获取所述第二视频的分类特征以及时序特征;
构造全连接层和Softmax层以获取所述第二视频的分类特征,构建Transformer模型以获取所述第二视频的时序特征并将所述第二视频的分类特征以及时序特征进行融合;
发送第三指令以构建KL散度损失函数模型以及CTC损失函数模型,所述KL散度损失函数模型以及CTC损失函数模型均与所述Softmax层相连,获取所述KL散度损失函数模型以及CTC损失函数模型的输出结果以对Resnet18神经网络进行训练;
利用测试视频对训练完成的Resnet18神经网络进行测试。
2.根据权利要求1所述的方法,其特征在于,
采用如下公式表示训练视频:
采用如下公式表述减少帧的训练视频:
其中T中元素个数小于n,即元素为0表示不被选择,选择序列S表示:
rate表示设置的概率值。
3.根据权利要求1所述的方法,其特征在于,采用如下公式对所述第一视频增加注释标签以获取第二视频:
原始注释序列如下:
扩展注释方法如下:
Gi→{Gi×m-(m-1),Gi×m-(m-2),…,Gi×m};
其中m为扩展倍数。
4.根据权利要求1所述的方法,其特征在于,所述Resnet18神经网络包括依次相连的第一卷积层、池化层、第一残差块、第二残差块、第三残差块、第四残差块、第五残差块、第六残差块、第七残差块以及第八残差块;
所述第一卷积层的用于向所述池化层进行过渡;
所述第一卷积层卷积核数为64,所述卷积核大小为7*7;
所述第一残差块用于实现所述第二残差块过渡;
所述第一残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
所述第二残差块用于实现所述第三残差块过渡;
所述第二残差块包括两个卷积层,每个卷积层的卷积核数为64,卷积核大小为3*3;
所述第三残差块用于实现所述第四残差块过渡;
所述第三残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为128,卷积核大小为1*1的卷积层;
所述第四残差块用于实现所述第五残差块过渡;
所述第四残差块包括两个卷积层,每个卷积层的卷积核数为128,卷积核大小为3*3;
所述第五残差块用于实现所述第六残差块过渡;
所述第五残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为256,卷积核大小为1*1的卷积层;
所述第六残差块用于实现所述第七残差块过渡;
所述第六残差块包括两个卷积层,每个卷积层的卷积核数为256,卷积核大小为3*3;
所述第七残差块用于实现所述第八残差块过渡;
所述第七残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3,其中为了保持维度一致,使用一层卷积核数为512,卷积核大小为1*1的卷积层;
所述第八残差块用于实现后续模块的过渡;
所述第八残差块包括两个卷积层,每个卷积层的卷积核数为512,卷积核大小为3*3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210251137.9/1.html,转载请声明来源钻瓜专利网。