[发明专利]基于动态伪标签解码的手语识别系统优化方法及装置有效
申请号: | 201910484843.6 | 申请日: | 2019-06-05 |
公开(公告)号: | CN110210416B | 公开(公告)日: | 2021-10-01 |
发明(设计)人: | 李厚强;周文罡;周浩 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 古利兰 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 动态 标签 解码 手语 识别 系统 优化 方法 装置 | ||
1.一种基于动态伪标签解码的手语识别系统优化方法,其特征在于,应用于手语识别系统,所述手语识别系统包括:特征提取器、时序建模器和序列解码器;所述方法包括:
采用连续联结分类作为优化函数,采用端到端的训练方法训练整个手语识别系统,得到初步可用的手语识别系统;
优化特征提取器的参数;
优化时序建模器的参数;
利用优化后提取的时序特征,采用时序集成网络TEM替换前期优化过程中采用的门限循环卷积网络优化时域集成网络的参数,作为时域建模器嵌回手语识别系统中;
所述时域集成网络包括三个组件:门限循环单元、卷积核大小为1的时序卷积层和卷积核大小为3的时序卷积层;其中,三个组件后各接一个修正线性单元ReLU,采用并联的形式;时序集成网络的后端采用一层全连接层和软最大层;
所述优化特征提取器的参数,包括:
利用时序建模器得到概率矩阵;
基于动态伪标签解码得到每一个视频片段的手语伪标签;
利用所述手语伪标签和交叉熵函数优化特征提取器的参数;
所述基于动态伪标签解码得到每一个视频片段的手语伪标签,包括:
求解目标为视频片段集合和手语标签之间的概率最大的对齐路径:
其中,为输入的T个视频片段的时序特征,为整段视频的N个手语标签;
将标签序列l扩展为在标签序列的首尾和两两之间插入1个空白标签blank,时序特征x和标签序列l′组成了一个T乘以2N+1的格点矩阵,每一个格点(t,n)代表xt和l′n的一个对齐关系;其中,t∈[1,T],n∈[1,2N+1];
将所述格点(t,n)的概率表示为如下的自然对数形式:
定义一个累加矩阵其初始方式如下:
完整的Q矩阵的数值由如下递归方程计算得到:
β(t,n)=argmaxk∈[g(n),n]Q(t-1,k);
Q(t,n)=p(t,n)+Q(t-1,β(t,n));
其中:
将每一个Q(t,n)的递归路径记录在β(t,n)中,同时以如下公式回溯得到逆向值bt:
bT=maxk∈[2N,2N+1]Q(T,k);
得到概率最大的对齐路径解码如下:
其中,第t个视频片段对应的手语伪标签即为πt。
2.根据权利要求1所述的方法,其特征在于,所述利用时序建模器得到概率矩阵,包括:
将视频切分为多个视频片段,构成视频片段集合;
将所述视频片段集合输入到三维卷积神经网络中,得到所需的时序特征;
将所述时序特征输入到时序建模器中,得到对应的隐变量;
基于所述隐变量经过时序建模器中的全连接层和软最大层,得到针对每一个视频片段的概率矩阵。
3.根据权利要求2所述的方法,其特征在于,所述优化时序建模器的参数,包括:
利用优化后的特征提取器,提取出时序特征作为输入,优化时序建模器的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910484843.6/1.html,转载请声明来源钻瓜专利网。