[发明专利]使用注意力引导自适应记忆的实时唇语识别方法和系统在审
| 申请号: | 202110935654.3 | 申请日: | 2021-08-16 |
| 公开(公告)号: | CN113657253A | 公开(公告)日: | 2021-11-16 |
| 发明(设计)人: | 赵洲;程诗卓;沈子栋;林志杰 | 申请(专利权)人: | 浙江大学 |
| 主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08 |
| 代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 郑海峰 |
| 地址: | 310058 浙江*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 使用 注意力 引导 自适应 记忆 实时 识别 方法 系统 | ||
本发明公开了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,属于唇语识别技术领域。为了解决在生成句子的句法结构的同时考虑单调排列的挑战,本发明建立了SimulLR模型并采用CTC预训练、模型预热和课程学习的方式促进SimulLR模型的训练。此外,为了使得编码器学习到更好的时空表示,本发明构造了一个截断三维时空卷积网络和时限自注意机制在视频片段内实现帧对帧的交互。此外,由于在实时场景中的存储有限,历史信息总是受到限制,为了实现一个好的权衡,本发明设计了注意力引导自适应记忆模块来组织历史语义信息,并在可接受的计算感知延迟范围内增强视觉表示。可实现实时解码,适用于更多应用场景。
技术领域
本发明涉及唇语识别技术领域,具体涉及一种使用注意力引导自适应记忆的实时唇语识别方法和系统。
背景技术
唇语识别,是识别给定视频片段中唇动所对应的语句而不依赖于特定语音流的技术,在众多场景中的应用吸引了广泛关注,包括识别公共环境下或嘈杂环境下的口头指示,以及为听障人士提供帮助。
虽然之前探索唇语识别的工作已经获得了显著的效果,但它们都是非实时的训练,生成的预测依赖于对完整视频的获取,因此对于一段包含了固定帧数的视频,且口头语句是实时生成的情况下,实时唇语识别是一个更加困难的过程,但对于实时理解(如直播视频流)是非常重要的拓展。由于实时解码的低延时性,实时唇语识别能够处理大量的视频数据(如长电影)而不用首先看完完整的视频。本领域的研究重点在于实时唇语识别技术,具体是基于部分输入识别出语句,这就需要做到视觉-文本跨模态翻译的实时解码,十分具有挑战性。
对于实时解码,该模型需要学习视频片段和目标标记符(例如单词)的单调排列,并且选择一个合适的时机以在精度和延迟之间达到一个良好的权衡来预测下一个单词,具有以下挑战:
(1)由于不同视频中同单词的长度存在显著差异,很难去估计单词的持续时间和学习出这种单调排列。传统的自回归方法利用整个视频的语义信息,在不考虑单调排列的情况下以单词同步模式工作,使其实际上是非实时的。
(2)为了学习更好的跨模态解码的时空表示,传统的非实时方法在视觉编码器中采用了多个三维卷积核自注意层,由于他们感受野拓展到了整个视频,因此不能拓展到实时模型中。
(3)在实际场景中,存储总是受到极长的输入序列的限制,历史信息也可能不可获取,这使得通过有限的视觉上下文预测新单词更为困难。
早期的研究侧重于单个单词的分类,然后转向全语句的预测,这些工作主要基于CTC的模型和自回归模型来进行非实时唇语识别。其中,LipNet利用了循环神经网络的时空卷积特征和上下文模型,Chen等人设计了一个系统来利用唇语识别和唇合成的任务对偶性来改进这两个任务;Afouras等人首先引入了Transformer自注意架构到唇语识别任务中,Zhao等人通过从语音识别中提取多粒度的知识特征,加强了唇语识别的训练能力;此外,Liu等人研究了非自回归唇语识别技术,利用整合放电技术来估计输出序列的长度,缓解时间相关性问题。然而,这些方法都是以非实时的方式来探究唇语识别方法,其中推理环节的句子预测依赖于整个视频中的讲话人的脸部图像。
发明内容
为了解决上述中的技术问题,本发明提供了一种使用注意力引导自适应记忆的实时唇语识别方法和系统,实现实时解码,旨在基于给定的部分输入而不是整个序列生成预测,适用于更多应用场景。
为了实现上述目的,本发明采用如下技术方案:
一种使用注意力引导自适应记忆的实时唇语识别方法,包括以下步骤:
1)获取没有音频流的唇语视频片段s;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江大学,未经浙江大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110935654.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种通信施工用户外电杆辅助安装设备
- 下一篇:一种光纤放线机构及着色装置





