[发明专利]使用注意力引导自适应记忆的实时唇语识别方法和系统在审

申请号：	202110935654.3	申请日：	2021-08-16
公开（公告）号：	CN113657253A	公开（公告）日：	2021-11-16
发明（设计）人：	赵洲;程诗卓;沈子栋;林志杰	申请（专利权）人：	浙江大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/04;G06N3/08
代理公司：	杭州求是专利事务所有限公司 33200	代理人：	郑海峰
地址：	310058 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	使用注意力引导自适应记忆实时识别方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，包括以下步骤：

1)获取没有音频流的唇语视频片段集合s；

2)采用截断三维时空卷积网络对当前时刻获得的第t个视频片段s_t执行时空卷积，得到的卷积结果经序列编码器编码为视觉特征表达在序列编码器中引入时限自注意机制，掩盖不可获取的视频片段和未来的视频片段，使得当前时刻仅能看到视频片段s_t之前的a个视频片段；

3)利用自适应记忆模块中的记忆库信息加强序列编码器的输出结果，获得强化视觉特征表达；同时根据每一个记忆库在当前时刻的信息熵，对记忆库信息进行更新；

4)解码器结合历史时刻已生成的预测语句与强化视觉特征表达进行解码；所述的解码器包括一个语言模型和一个联合网络，将历史时刻已生成的预测语句通过一个语言模型进行处理，得到历史语义特征表达；再将历史语义特征表达和强化视觉特征表达作为联合网络的输入执行联合解码，生成当前时刻预测词w_i；

5)结合历史时刻已生成的预测语句与当前时刻预测词，生成实时唇语识别结果。

2.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的序列编码器包括多头注意力层和前馈层，在多头注意力层中执行时限自注意机制，将当前时刻可获取的视频片段表示为：

其中，表示生成当前时刻对应的第i个预测词w_i时所能够获取到的部分视频片段集合，s_t为当前时刻读取到的单个视频片段，t＝n(w_i)表示当前时刻获得的视频片段索引。

3.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的语言模型采用一个单向的基于Transformer的语言模型，将历史时刻已生成的预测语句{w₁，w₂，...，w_i-1}作为语言模型的输入，通过语言模型中的多头自注意和前馈层来获取已生成语句的历史上下文信息，输出历史语义特征表达

4.根据权利要求1所述的使用注意力引导自适应记忆的实时唇语识别方法，其特征在于，所述的自适应记忆模块中包含k个记忆库，表示为{m₁，m₂，...，m_k}，m_k表示第k个记忆库，每一个记忆库中存储一个被压缩后的历史视频片段信息并不断更新；

每次计算当前的视觉特征表达时，调用最新的记忆库{m₁，m₂，...，m_k}，计算出编码器-记忆的相互注意力，获得强化视觉特征表达计算公式为：

其中，α_i是第i个记忆力库m_i和视频片段s_t的注意力得分，是第i个记忆力库的注意力分布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江大学，未经浙江大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110935654.3/1.html，转载请声明来源钻瓜专利网。

上一篇：一种通信施工用户外电杆辅助安装设备
下一篇：一种光纤放线机构及着色装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]使用注意力引导自适应记忆的实时唇语识别方法和系统在审

专利文献下载