[发明专利]基于ResNet34网络-注意力机制的连续手语识别方法及装置在审
申请号: | 202210709795.8 | 申请日: | 2022-06-23 |
公开(公告)号: | CN114943990A | 公开(公告)日: | 2022-08-26 |
发明(设计)人: | 沈丛;杨甜;东天宇;幸高松;陆星元;袁甜甜;陈胜勇 | 申请(专利权)人: | 天津理工大学 |
主分类号: | G06V40/10 | 分类号: | G06V40/10;G06V10/774;G06V10/82;G06V10/762;G06V10/80;G06V10/764;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 300384 *** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 resnet34 网络 注意力 机制 连续 手语 识别 方法 装置 | ||
本发明提供了一种基于ResNet34网络‑注意力机制的连续手语识别方法及装置,涉及人工智能识别技术领域,包括:S1:获取第一视频数据训练集,并采用KFE聚类算法获取第二视频数据训练集,S2:构建ResNet34网络拓扑,将PSA通道注意力机制和RCC空间注意力机制融合成PR注意力机制,并与ResNet34网络拓扑进行集成以提取第二视频数据集的特征信息;S3:构建BiLSTM网络拓扑以对第二视频数据集的特征信息进行编码,采用LSTM‑CTC端对端网络结构拓扑以对编码后第二视频数据集进行解码;S4:构建目标函数,以对ResNet34网络拓扑与PR注意力机制集成后的网络拓扑参数、BiLSTM网络拓扑参数以及LSTM‑CTC端对端网络结构拓扑参数进行调整。本发明可以缓解现有技术中视频冗余造成的神经网络结构过度拟合的技术问题。
技术领域
本发明涉及人工智能识别的技术领域,尤其是涉及一种基于ResNet34网络-注意力机制的连续手语识别方法及装置。
背景技术
手语作为聋哑人和听力障碍人群特定交流语言,融合了自然语言处理领域和计算机视觉领域的相关知识,而手语识别作为其中的一个子任务,也备受研究人员的关注。通常来说,手语识别分为孤立词识别和连续手语识别任务。尽管手语孤立词的识别任务已经取得了卓越的成果的,但是因其忽略了手语中的潜在语义关系以及一个手语句子中长期时序依赖关系,连续手语识别任务也逐渐被人们重视。
近年来,已经有各种各样的手语识别方法被设计出来,以提高连续手语识别的准确率。最初的手语识别研究常常依赖于数据手套和其他传感器设备来实时收集手势的运动变化和时间信息,并通过传统的隐马尔可夫模型对手语的时序信息进行建模,或是通过条件随机场提取手部信息。
后来随着深度学习(DL)的火热,越来越多的研究者通过使用神经网络进行连续手语的识别。神经网络的快速发展为手语识别、手语翻译、手语生成任务打开了新的研究大门。目前已经有研究人员使用卷积神经网络,循环卷积神经网络,图卷积神经网络结合骨架信息等模型识别手语,也有研究者通过使用连续时间分类的方法对手语视频与识别出的文本结果从而更好的收敛网络。但是目前的手语识别工作很少聚焦于多模态的输入上,对于一个神经网络而言,输入一个完全的手语序列,视频的冗余性很容易造成网络的过拟合,因此设计一个新型的连续手语识别方法是很有必要的。
发明内容
有鉴于此,本发明的目的在于提供一种基于ResNet34网络-注意力机制的连续手语识别方法及装置,以缓解视频冗余在成的神经网络结构过渡拟合的技术问题,提高了连续手语识别方法的泛化能力。
本发明一种基于ResNet34网络-注意力机制的连续手语识别方法,包括:
S1:获取第一视频数据训练集,所述第一视频数据集包括RGB视频以及深度视频,并采用KFE聚类算法提取所述第一视频数据训练集的关键帧以获取第二视频数据训练集,所述第二视频数据训练集具有标签;
S2:构建ResNet34网络拓扑,将PSA通道注意力机制和RCC空间注意力机制融合成PR注意力机制,并将PR注意力机制与所述ResNet34网络拓扑进行集成以提取所述第二视频数据集的特征信息;
S3:构建BiLSTM网络拓扑以对所述第二视频数据集的特征信息进行编码,采用LSTM-CTC端对端网络结构拓扑以对编码后所述第二视频数据集进行解码;
S4:构建目标函数,以对所述ResNet34网络拓扑与所述PR注意力机制集成后的网络拓扑参数、所述BiLSTM网络拓扑参数以及所述LSTM-CTC端对端网络结构拓扑参数进行调整。
优选的,所述方法还包括:
获取第一视频数据测试集,对构建完成的所述ResNet34网络拓扑与所述PR注意力机制集成后的网络拓扑、所述BiLSTM网络拓扑以及所述LSTM-CTC端对端网络结构拓扑进行测试。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津理工大学,未经天津理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210709795.8/2.html,转载请声明来源钻瓜专利网。