[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审
申请号: | 201710002097.3 | 申请日: | 2017-01-03 |
公开(公告)号: | CN108281137A | 公开(公告)日: | 2018-07-13 |
发明(设计)人: | 徐及;张震;李文凤;李鹏;颜永红 | 申请(专利权)人: | 中国科学院声学研究所;国家计算机网络与信息安全管理中心 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L15/08;G10L15/183;G10L17/02;G10L17/04;G10L19/16;G10L25/30 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 王宇杨;杨青 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。 | ||
搜索关键词: | 音素 唤醒 解码结果 神经网络 声学模型 通用语音 支持向量机分类器 预处理 通用声学模型 向量机分类器 解码 多维统计 后期处理 后验概率 解码过程 解码路径 解码网络 输入解码 输入语音 输入支持 训练样本 语音特征 三音子 统计量 虚警率 声学 建模 升高 分类 分析 网络 成功 | ||
【主权项】:
1.一种全音素框架下的通用语音唤醒识别方法,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710002097.3/,转载请声明来源钻瓜专利网。