[发明专利]基于记忆性瓶颈特征的声纹识别的方法及装置有效
申请号: | 201810146310.2 | 申请日: | 2018-02-12 |
公开(公告)号: | CN108447490B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王志铭;周俊;李小龙 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L17/02 | 分类号: | G10L17/02;G10L17/18;G10L25/24;G10L25/30 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 陈霁;周良玉 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本说明书实施例提供一种声纹识别的方法和装置,所述方法包括,首先从说话人音频中提取基本频谱特征。另一方面,还将说话人音频输入带记忆的深度神经网络DNN,并从该深度神经网络的瓶颈层提取瓶颈特征,其中上述DNN包括时间递归层和瓶颈层,并且时间递归层的输出连接到瓶颈层。接着,基于基本频谱特征和所述瓶颈特征,形成说话人音频的声学特征;然后基于形成的声学特征,提取说话人音频对应的身份认证矢量i‑vector,从而进行说话人识别。 | ||
搜索关键词: | 基于 记忆 瓶颈 特征 声纹 识别 方法 装置 | ||
【主权项】:
1.一种声纹识别的方法,包括:从说话人音频中提取第一频谱特征;将所述说话人音频输入记忆性深度神经网络DNN,从所述记忆性深度神经网络的瓶颈层提取瓶颈特征,其中所述记忆性深度神经网络DNN包括至少一个时间递归层和所述瓶颈层,所述至少一个时间递归层的输出连接到所述瓶颈层,所述瓶颈层的维度比所述记忆性深度神经网络DNN中其他隐含层的维度小;基于所述第一频谱特征和所述瓶颈特征,形成所述说话人音频的声学特征;基于所述声学特征,提取说话人音频对应的身份认证矢量;基于所述身份认证矢量,采用分类模型进行说话人识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810146310.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种带反馈的连续声纹认证方法及系统
- 下一篇:一种智能语音识别方法