[发明专利]基于ResNet34网络-注意力机制的连续手语识别方法及装置在审
申请号: | 202210709795.8 | 申请日: | 2022-06-23 |
公开(公告)号: | CN114943990A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 沈丛;杨甜;东天宇;幸高松;陆星元;袁甜甜;陈胜勇 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/774;G06V10/82;G06V10/762;G06V10/80;G06V10/764;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 resnet34 网络 注意力 机制 连续 手语 识别 方法 装置 | ||
1.一种基于ResNet34网络-注意力机制的连续手语识别方法,其特征在于,包括:
S1:获取第一视频数据训练集,所述第一视频数据集包括RGB视频以及深度视频,并采用KFE聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集,所述第二视频数据训练集具有标签;
S2:构建ResNet34网络拓扑,将PSA通道注意力机制和RCC空间注意力机制融合成PR注意力机制,并将PR注意力机制与所述ResNet34网络拓扑进行集成以提取所述第二视频数据集的特征信息;
S3:构建BiLSTM网络拓扑以对所述第二视频数据集的特征信息进行编码,采用LSTM-CTC端对端网络结构拓扑以及所述第二视频数据训练集的标签对编码后所述第二视频数据集进行解码;
S4:构建目标函数,以对所述ResNet34网络拓扑与所述PR注意力机制集成后的网络拓扑参数、所述BiLSTM网络拓扑参数以及所述LSTM-CTC端对端网络结构拓扑参数进行调整。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取第一视频数据测试集,对构建完成的所述ResNet34网络拓扑与所述PR注意力机制集成后的网络拓扑、所述BiLSTM网络拓扑以及所述LSTM-CTC端对端网络结构拓扑进行测试。
3.根据权利要求1所述的方法,其特征在于,所述采用KFE聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集的步骤包括:
获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心;
基于所述第一视频数据训练集的帧集合获取所述第一视频数据训练集的帧,并基于所述所有簇的簇质心以获取所述第一视频数据训练集的帧到簇质心的最近距离;
判定所述第一视频数据训练集的帧到簇质心的最近距离是否小于初始阈值;
若是,则将所述第一视频数据训练集的帧归至最近距离的簇质心的类中,将所述第一视频数据训练集的帧从所述第一视频数据训练集的帧集合剔除,并执行所述获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心的步骤;
若否,则将所述第一视频数据训练集的帧定义归至新的类别,将所述第一视频数据训练集的帧从所述第一视频数据训练集的帧集合剔除,并执行所述获取初始阈值、所述第一视频数据训练集的帧集合、所有簇的簇质心的步骤。
4.根据权利要求1所述的方法,其特征在于,所述ResNet34网络拓扑包括初始层、第一残差层、第二残差层、第三残差层、第四残差层以及全局平均池化层;
所述第一残差层的卷积核数为64,所述第一残差层的数量为3;
所述第二残差层的卷积核数为128,所述第二残差层的数量为4;
所述第三残差层的卷积核数为256,所述第三残差层的数量为6;
所述第四残差层的卷积核数为512,所述第四残差层的数量为3;
将PR注意力机制与所述ResNet34网络拓扑进行集成的步骤包括:
将所述第四残差层与全局平均池化层间引入所述PR注意力机制。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210709795.8/1.html,转载请声明来源钻瓜专利网。