[发明专利]基于多语言协同的连续手语识别系统有效
申请号: | 202011060272.2 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112132094B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 李厚强;周文罡;蒲俊福;胡鹤臻 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V20/40;G06V10/764;G06V10/82;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;韩珂 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 语言 协同 连续 手语 识别 系统 | ||
1.一种基于多语言协同的连续手语识别系统,其特征在于,包括:共享视觉特征编码器、共享序列模型、以及若干目标序列模型;其中:
所述共享视觉特征编码器,用于提取各语言的手语视频中的视觉特征,并分别输入至共享序列模型、以及每一目标序列模型;
所述共享序列模型,用于表达不同手语语言之间相同的视觉模式,学习不同手语语言之间的共性,其利用不同的语种嵌入向量进行初始化;
每一目标序列模型,用于结合所述共享序列模型的输出来学习相应语种视觉特征与相应手语单词之间的映射;
在训练阶段,针对所有目标序列模型进行联合优化;训练后的每一目标序列模型能够预测相应语言的手语视频对应手语单词的概率分布;
使用最大概率解码算法来获取手语视频和手语标注序列之间的对齐关系,从而对共享视觉特征编码器进行微调,实现方式包括:
通过目标序列模型获得手语单词的概率分布Y(k)后,根据手语标注序列中手语单词的顺序,有序地取出当前手语单词对应的视频片段对应的概率值,对手语标注序列中手语单词进行操作后,组合为一个新的概率矩阵Y(k)′;使用动态规划算法寻找新的概率矩阵Y(k)′上最大概率路径;
记Pi,j是特征序列{f1,f2,…,fi}和标注序列{s1,s2,…,sj}之间最大概率,则动态规划的转移方程表示为:
Pi,j=Y(k)′i,j+max(Pi-1,j,Pi-1,j-1)
其中,Y(k)′i,j为新的概率矩阵Y(k)′中第i行第j列元素,也即第i个视频片段属于手语单词sj的概率;
通过以上操作,获得手语视频和手语词标注之间的对齐关系,也即获得视频片段的伪标签,从而对共享视觉特征编码器进行优化。
2.根据权利要求1所述的一种基于多语言协同的连续手语识别系统,其特征在于,所述共享视觉特征编码器包括依次设置的:空间卷积网络与时序卷积网络;其中:
所述空间卷积网络包括依次设置的:第一卷积层、第一最大池化层、第二与第三卷积层、两个Inception层、第二最大池化层、五个Inception层、第三最大池化层、两个Inception层、以及第四最大池化层;
所述时序卷积网络包括两个卷积层与最大池化层,卷积层与最大池化层交替设置;
将共享视觉特征编码器记为Ev,任一语言的手语视频共享视觉特征编码器输出的视觉特征表示为:
其中,xt表示第t个视频帧,N为视频帧数,f表示视频片段的视觉特征,所述视频片段是指共享视觉特征编码器在时序上的感受野下对应的视频帧。
3.根据权利要求1所述的一种基于多语言协同的连续手语识别系统,其特征在于,所述共享序列模型通过双向长短记忆网络实现;对于输入的视觉特征F,输出结果Os表示为:
Os=BLSTMs(F;h0=ek,c0=ek)
其中,h0和c0分别是双向长短记忆网络的初始隐状态和细胞状态,ek是第k种手语语言的类别嵌入向量。
4.根据权利要求1所述的一种基于多语言协同的连续手语识别系统,其特征在于,每一目标序列模型通过双向长短记忆网络实现,其通过零向量初始化;
对于第k种手语语言的目标序列模型,输出结果表示为:
其中,F、Os分别为共享视觉特征编码器、共享序列模型的输出,h0和c0分别是双向长短记忆网络的初始隐状态和细胞状态。
5.根据权利要求1所述的一种基于多语言协同的连续手语识别系统,其特征在于,
目标序列模型输出用全连接层映射到非归一化的对数概率空间,表示为:
其中,上标k表示手语语言的种类标识,分别为全连接层的权重与偏置参数,Yt,s是第t个视频片段属于手语单词s的概率;
训练阶段,采用连接时序分类损失CTC进行优化,
采用联合优化方式,总体损失函数为所有目标序列模型的CTC损失函数之和,表示为:
其中,K为目标序列模型总数,为第k种手语语言的目标序列模型的CTC损失函数,利用Y(k)计算得到。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011060272.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种大口黑鲈仔鱼转食驯化的方法
- 下一篇:一种区块链共识节点更新方法及装置