[发明专利]基于多语言协同的连续手语识别系统有效
申请号: | 202011060272.2 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112132094B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李厚强;周文罡;蒲俊福;胡鹤臻 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 协同 连续 手语 识别 系统 | ||
本发明公开了一种基于多语言协同的连续手语识别系统,使用一个公共的视觉特征编码器提取特征表达,对于不同的语种的手语,使用不同的时序建模网络(即目标序列模型)学习对应手语语言特性。使用一个共享的时序编码器(即共享序列模型)来表达不同手语语种之间相同的视觉模式,并由语种嵌入向量进行初始化,通过多语种协同训练,实现在单一框架下多语种手语识别,并充分挖掘不同手语之间的视觉共性,提升手语识别性能。
技术领域
本发明涉及计算机视觉中的动作识别技术领域,尤其涉及一种基于多语言协同的连续手语识别系统。
背景技术
在连续手语识别问题中,每一个手语视频由有序的手语单词序列进行标注,连续手语识别问题的本质可以看成是学习视频序列到标注文本序列之间映射关系的过程。通常来说,连续手语识别系统由视觉特征编码器和时序建模模型组成。视频的特征表达在连续手语识别中扮演非常重要的角色,早期使用诸如SIFT、HOG等手工特征表征手型和轨迹。随着深度学习在计算机视觉的成功应用,用于图像表征的二维卷积神经网络和视频表征的三维卷积神经网络被引入到手语识别中。有相关工作在端到端的系统中使用2D CNN提取RGB图像信息并取得了良好的性能;为了建模时序依赖关系,基于三维卷积核的手语识别方法也相继被提出。另一种视频特征表征方式时使用2D卷积网络和1D时序卷积对手语视频进行时空表达,在连续手语识别任务中,该方法所提取的视觉特征优于其他方法。
连续手语中的序列学习模型可以由连接时序分类、隐马尔可夫模型、编码器-解码器网络等方式实现。循环神经网络成功应用于众多序列学习任务中,并被引入到连续手语识别问题中来,双向LSTM-CTC结构更是成为手语之别中应用最广的基线方法之一。此外,也有工作将隐马尔可夫模型嵌入到神经网网络中进行手语识别。与机器翻译类似,基于注意力机制的编解码网络也被用于来学习视频和标注之间的映射关系,从而实现手语识别与手语翻译任务。
在机器翻译任务中,大多数方法也是专注于从源语言到目标语言的单一语种翻译问题,基于深度神经网络的端到端解决方案在该类问题中取得了重要进展。机器翻译系统可以通过多种方式将单一语种翻译方法扩展到多语言翻译任务中。通过在待翻译句子起始处添加语种标识符,通过简单的扩展,能够使单语种模型应用于多语言翻译。为了提升语料资源受限的问题,尝试使用端到端的孪生网络从语料中生成更多的句子用于扩充数据。此外,通过使用不同的参数共享策略,能够平衡在多语言系统中模型的大小问题。
现有技术主要存在如下缺陷:
1)与自然语言一样,不同国家和地区的手语也是不用的,它们有着各自独特的语法结构和词汇。换而言之,使用不同手语的人很难理解对方的手语语义。现有的视频手语识别方法往往用于解决单语种的手语识别问题,这使得手语识别系统在实际应用和部署时受到限制。
2)现有的多语言手语识别算法大多数方案都是基于不同的手语数据集,在相同的网络架构上训练若干个针对不同手语语种的模型参数。这种做法能够取得一定效果,但是它忽略了不同手语之间存在相似的视觉模式的问题,分开独立训练的做法也不利于模型对手语共性的挖掘。
发明内容
本发明的目的是提供一种基于多语言协同的连续手语识别系统,实现单一框架下的多语种手语识别,并且识别性能优于单独训练识别结果。
本发明的目的是通过以下技术方案实现的:
一种基于多语言协同的连续手语识别系统,包括:共享视觉特征编码器、共享序列模型、以及若干目标序列模型;其中:
所述共享视觉特征编码器,用于提取各语言的手语视频中的视觉特征,并分别输入至共享序列模型、以及每一目标序列模型;
所述共享序列模型,用于表达不同手语语言之间相同的视觉模式,学习不同手语语言之间的共性,其利用不同的语种嵌入向量进行初始化;
每一目标序列模型,用于结合所述共享序列模型的输出来学习相应语种视觉特征与相应手语单词之间的映射;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011060272.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大口黑鲈仔鱼转食驯化的方法
- 下一篇:一种区块链共识节点更新方法及装置