[发明专利]使用注意力引导自适应记忆的实时唇语识别方法和系统在审
| 申请号: | 202110935654.3 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113657253A | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 赵洲;程诗卓;沈子栋;林志杰 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 注意力 引导 自适应 记忆 实时 识别 方法 系统 | ||
1.一种使用注意力引导自适应记忆的实时唇语识别方法,其特征在于,包括以下步骤:
1)获取没有音频流的唇语视频片段集合s;
2)采用截断三维时空卷积网络对当前时刻获得的第t个视频片段st执行时空卷积,得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制,掩盖不可获取的视频片段和未来的视频片段,使得当前时刻仅能看到视频片段st之前的a个视频片段;
3)利用自适应记忆模块中的记忆库信息加强序列编码器的输出结果,获得强化视觉特征表达;同时根据每一个记忆库在当前时刻的信息熵,对记忆库信息进行更新;
4)解码器结合历史时刻已生成的预测语句与强化视觉特征表达进行解码;所述的解码器包括一个语言模型和一个联合网络,将历史时刻已生成的预测语句通过一个语言模型进行处理,得到历史语义特征表达;再将历史语义特征表达和强化视觉特征表达作为联合网络的输入执行联合解码,生成当前时刻预测词wi;
5)结合历史时刻已生成的预测语句与当前时刻预测词,生成实时唇语识别结果。
2.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法,其特征在于,所述的序列编码器包括多头注意力层和前馈层,在多头注意力层中执行时限自注意机制,将当前时刻可获取的视频片段表示为:
其中,表示生成当前时刻对应的第i个预测词wi时所能够获取到的部分视频片段集合,st为当前时刻读取到的单个视频片段,t=n(wi)表示当前时刻获得的视频片段索引。
3.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法,其特征在于,所述的语言模型采用一个单向的基于Transformer的语言模型,将历史时刻已生成的预测语句{w1,w2,...,wi-1}作为语言模型的输入,通过语言模型中的多头自注意和前馈层来获取已生成语句的历史上下文信息,输出历史语义特征表达
4.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法,其特征在于,所述的自适应记忆模块中包含k个记忆库,表示为{m1,m2,...,mk},mk表示第k个记忆库,每一个记忆库中存储一个被压缩后的历史视频片段信息并不断更新;
每次计算当前的视觉特征表达时,调用最新的记忆库{m1,m2,...,mk},计算出编码器-记忆的相互注意力,获得强化视觉特征表达计算公式为:
其中,αi是第i个记忆力库mi和视频片段st的注意力得分,是第i个记忆力库的注意力分布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110935654.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通信施工用户外电杆辅助安装设备
- 下一篇:一种光纤放线机构及着色装置





