[发明专利]基于注意力的弱监督语音检索方法及系统有效
申请号: | 202011550159.2 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112685594B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 张文林;胡恒博;闫红刚;郝朝龙;邱泽宇;李喜坤;贺晓年 | 申请(专利权)人: | 中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院 |
主分类号: | G06F16/632 | 分类号: | G06F16/632;G06F16/683;G06F40/284;G10L25/30 |
代理公司: | 郑州大通专利商标代理有限公司 41111 | 代理人: | 周艳巧 |
地址: | 450000 河*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 注意力 监督 语音 检索 方法 系统 | ||
本发明属于语音检索技术领域,特别涉及一种基于注意力的弱监督语音检索方法及系统,方法包含:提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中。本发明通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量,使用弱监督标注数据即可训练优化识别模型,提升检索效率和准确性。
技术领域
本发明属于语音检索技术领域,特别涉及一种基于注意力的弱监督语音检索方法及系统。
背景技术
语音检索的主要任务是从海量的语音数据库中找到感兴趣的关键词,并返回相应的位置。语音检索常用的方法有基于大词汇量连续语音识别的关键词搜索技术和基于神经网络的关键词搜索方法。使用基于大词汇量连续语音识别的关键词搜索技术进行语音检索需要两步。第一步是训练一个大词汇量连续语音识别系统,并利用训练好的系统将待搜索音频进行解码,生成对应的词格(Word lattice)。第二步是将解码器生成的待搜索音频库的词格转换成倒排索引,以便高效地进行搜索,得到关键词的位置及相应的置信度。基于神经网络的关键词搜索方法常用的有基于RNN-Transducer的使用注意力机制进行关键词搜索的方法,该方法在使用 RNN-Transducer进行语音识别的基础上,使用了注意力机制使得RNN-Transducer将识别重心转移到需要进行识别的关键词上面从而进行关键词检索。但以上两种方法都需要较多的训练标注数据。基于大词汇量连续语音识别的关键词搜索技术所需要的标注数据是字符级别的,而基于RNN-Transducer的使用注意力机制进行关键词搜索的方法所需要的标注数据是 phoneme级别的。对语音进行字符级别的标注需要耗费大量的资源,因此标注数据不足会成为了语音检索中很现实的一个问题,对注意力机制的使用方法不够丰富。
发明内容
为此,本发明提供一种基于注意力的弱监督语音检索方法及系统,通过使用注意力机制来获得融合文本特征向量和音频特征向量的语音检索特征向量,使用弱监督标注数据即可训练优化识别模型,提升检索效率和准确性。
按照本发明所提供的设计方案,一种基于注意力的弱监督语音检索方法,包含如下内容:
提取文本关键词并转换为关键词特征向量,并对音频数据进行特征提取获取音频特征向量;使用注意力机制将关键词特征向量和音频特征向量进行融合,获取语音检索特征向量;
将语音检索特征向量送入已训练优化的关键词识别模块识别,以检测文本关键词是否出现在语音数据中。
作为本发明基于注意力的弱监督语音检索方法,进一步的,利用关键词嵌入模块将文本关键词经过词嵌入操作转换来获取关键词特征向量。
作为本发明基于注意力的弱监督语音检索方法,进一步地,利用卷积循环神经网络提取音频数据的音频特征向量,首先对输入音频数据进行分帧,对每帧取多维滤波器组特征并通过一阶和二阶差分来获取每帧FBank特征;将获取到的FBank特征送入卷积循环神经网络中,依次经过多次卷积、最大池化操作及双向长短时记忆网络及线性变换后获取音频特征向量。
作为本发明基于注意力的弱监督语音检索方法,进一步地,使用注意力机制将关键词特征向量和音频特征向量进行点积运算来表示两个向量之间的相关性,通过向量融合来获取语音检索特征向量。
作为本发明基于注意力的弱监督语音检索方法,进一步地,向量融合中,利用关键词特征向量分别对语音特征向量中向量元素进行内积运算,将内积运算结果经过softmax处理得到权重向量;将权重向量中每一个权重乘上对应的语音特征向量特征元素得到加权向量;将加权向量中的每列特征向量进行相加得到融合关键词特征向量和语音特征向量的一个向量,将加权向量中的每行向量进行最大池化得到另一个向量;将该一个向量和另一个向量通过拼接获取语音检索特征向量,或者直接将这两个向量作为语音检索特征向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院,未经中国人民解放军战略支援部队信息工程大学;郑州信大先进技术研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011550159.2/2.html,转载请声明来源钻瓜专利网。