[发明专利]一种基于级联DNN的语音唤醒优化方法在审
| 申请号: | 201910334772.1 | 申请日: | 2019-04-24 |
| 公开(公告)号: | CN109887511A | 公开(公告)日: | 2019-06-14 |
| 发明(设计)人: | 赵升 | 申请(专利权)人: | 武汉水象电子科技有限公司 |
| 主分类号: | G10L17/04 | 分类号: | G10L17/04;G10L17/24;G10L17/18 |
| 代理公司: | 连云港联创专利代理事务所(特殊普通合伙) 32330 | 代理人: | 刘刚 |
| 地址: | 430000 湖北省武汉市东湖新技术开发区关南*** | 国省代码: | 湖北;42 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 第一级 过程计算 后验概率 声学特征 唤醒 语音 截取 级联 前向 输出 音素 语料 逐帧 实时语音信号 环境适应性 麦克风 唤醒检测 抗噪能力 声学模型 实时获取 特征抽取 语言模型 语音信号 固定窗 固定的 声学 窗长 建模 两级 优化 判定 文本 采集 | ||
本发明公开了一种基于级联DNN的语音唤醒优化方法,包括1)、实时获取麦克风采集的语音信号,经过特征抽取,获得实时语音信号的逐帧声学特征;2)、以固定窗长,截取声学特征序列,形成一帧,作为第一级DNN的输入;3)、经过第一级DNN声学模型的前向过程计算,输出得到逐帧音素的声学后验概率;4)、以固定的窗长截取第一级DNN的输出,形成一帧音素后验概率序列,作为第二级DNN的输入;5)、经过第二级DNN前向过程计算,判定并输出是否唤醒。本发明能最大程度利用DNN的抗噪能力,环境适应性强,不必先做VAD再做唤醒检测;也不必对语音背景单独建模;两级模型能够互补,极大减少训练所需语料;没有语言模型,不需要文本语料。
技术领域
本发明涉及一种基于级联DNN的语音唤醒优化方法。
背景技术
语音作为人人交互中最常见和有效的方式,一直以来也是人机通信和人机交互研究领域中重要的组成部分。由语音合成、语音识别以及自然语言理解联合构成的人机语音交互技术是世界上公认的高难度且富有挑战性的技术领域。
自动语音识别是人机智能交互技术中的关键环节,它所要解决的问题是让计算机能够“听明白”人类的语音,将语音信号中包含的文字信息“剥离”出来。技术相当于给计算机安装上类似于人类的“耳朵”,在“能听会说”的智能计算机系统中扮演着至关重要的角色。语音识别是一个多学科交叉的技术领域,涉及了信号与信息处理、信息论、随机过程,概率论,模式识别、声学处理、语言学、心理学、生理学以及人工智能等多个领域。
语音唤醒,也称作关键词检测(Key Words Spotting,KWS),是自动语音识别技术领域的一个重要技术分支。语音关键词检测不同于自动语音识别,不需要完全识别出所有的语音内容,而只需要检测出语音流中给定的关键词。随着移动互联网时代的到来,关键词检测在移动设备上的应用也越来越多,比如谷歌公司的Google Now,用户只要说出“OK,Google”,手机就会自动打开Google Now
供用户使用,其中用到的技术就是关键词检测技术。另外,关键词检测技术在语音文档检索中也有比较多的应用。特别是,随着大数据的兴起,如何从海量的数据中获取特定的关键词,或者利用海量的语音数据进行数据挖掘,都是值得研究的问题,并且在可预见的将来,基于关键词技术的应用也会越来越多,在车载导航、智能家居等场景有广泛的应用前景。
现有技术中目前主要有三种方案进行语音唤醒。第一种方法是基于模板匹配,通过语音信号滑窗,从实时语音流中截取一段语音信号,与关键词模板库中语音模板匹配,通过DTW算法计算该窗信号与关键词匹配程度,当达到一定的阈值就唤醒。计算量少,但是错误率高。第二种方法是基于HMM模型的“关键词-垃圾词(filler)”模型。利用大规模语料,除去关键词,其他的词都称作“垃圾词”(包括静音和噪声),训练一个建立基于HMM的模型,用来区分关键词和垃圾词。利用Viterbi方法,也就是说利用了语音识别器,但是它不需要非常大的词表。基于这种方法的关键词检测可以看成一个受限的语音识别问题,其与语音识别不同的是不需要识别整个句子。缺点是需要大量的训练数据来训练所需的模型。
第三种是基于大词汇量连续语音识别(Large Vocabulary Continuous SpeechRecognition,LVCSR)的语音关键词检测系统主要分为语音识别和关键词检索两个阶段,在语音识别阶段,利用LVCSR语音识别系统进行识别解码,将语音转换为文本形式输出解码结果;然后在关键词检索阶段,再对解码结果进行关键词检索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉水象电子科技有限公司,未经武汉水象电子科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910334772.1/2.html,转载请声明来源钻瓜专利网。





