[发明专利]一种全音素框架下的通用语音唤醒识别方法及系统在审

专利信息
申请号: 201710002097.3 申请日: 2017-01-03
公开(公告)号: CN108281137A 公开(公告)日: 2018-07-13
发明(设计)人: 徐及;张震;李文凤;李鹏;颜永红 申请(专利权)人: 中国科学院声学研究所;国家计算机网络与信息安全管理中心
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L15/08;G10L15/183;G10L17/02;G10L17/04;G10L19/16;G10L25/30
代理公司: 北京方安思达知识产权代理有限公司 11472 代理人: 王宇杨;杨青
地址: 100190 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种全音素框架下的通用语音唤醒识别方法及系统,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。本发明的方法对全部无调音素扩展得到的三音子状态进行建模得到的是通用声学模型,解码过程中限制解码路径,可以提高唤醒性能,同时结合后期处理部分通过对每条路径上音素后验概率等多维统计量进行分析,消除虚警率升高的隐患。
搜索关键词: 音素 唤醒 解码结果 神经网络 声学模型 通用语音 支持向量机分类器 预处理 通用声学模型 向量机分类器 解码 多维统计 后期处理 后验概率 解码过程 解码路径 解码网络 输入解码 输入语音 输入支持 训练样本 语音特征 三音子 统计量 虚警率 声学 建模 升高 分类 分析 网络 成功
【主权项】:
1.一种全音素框架下的通用语音唤醒识别方法,所述方法包括:首先训练深度神经网络声学模型,根据唤醒词修改词典,构造基于filler的解码网络,并根据训练样本训练支持向量机分类器;对输入语音进行预处理,将处理后的语音特征输入解码网络进行解码,根据深度神经网络声学模型计算声学得分,得到解码结果;将识别成功的解码结果的统计量输入支持向量机分类器进行分类,得到最终的识别结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;国家计算机网络与信息安全管理中心,未经中国科学院声学研究所;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710002097.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top