[发明专利]一种利用神经架构搜索的声纹识别方法在审
| 申请号: | 202210768407.3 | 申请日: | 2022-06-30 |
| 公开(公告)号: | CN115171701A | 公开(公告)日: | 2022-10-11 |
| 发明(设计)人: | 陈志;艾虎;岳文静;周晨;王悦;何丽 | 申请(专利权)人: | 南京邮电大学 |
| 主分类号: | G10L17/18 | 分类号: | G10L17/18;G10L17/04;G10L17/02;G10L25/18;G06N3/04;G06N3/08 |
| 代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 田凌涛 |
| 地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 一种 利用 神经 架构 搜索 声纹 识别 方法 | ||
1.一种利用神经架构搜索的声纹识别方法,其特征在于:针对包含目标说话人声音的音频,结合包括身份信息的预设声纹数据库,执行以下步骤,对包含目标说话人声音的音频进行识别,确定目标说话人身份信息:
步骤A:获取包含目标说话人声音的音频;
步骤B:针对包含目标说话人声音的音频,进行预处理;
步骤C:针对预处理后的包含目标说话人声音的音频,获得该音频对应的梅尔频谱特征;
步骤D:基于该音频对应的梅尔频谱特征,结合预设声纹数据库,经预训练的以音频的梅尔频谱特征为输入,该音频中目标说话人的身份信息为输出的声纹识别模型,获得音频中目标说话人的身份信息。
2.根据权利要求1所述一种利用神经架构搜索的声纹识别方法,其特征在于:所述步骤B中,针对包含目标说话人声音的音频,进行预处理,具体过程如下,获得预处理后的包含目标说话人声音的音频:
步骤B1:针对包含目标说话人声音的音频,剪切去除音频中能量低于阈值的音频片段,更新包含目标说话人声音的音频,进入步骤B2;
步骤B2:将包含目标说话人声音的音频通过高通滤波器进行滤波,更新包含目标说话人声音的音频,进入步骤B3;
步骤B3:对包含目标说话人声音的音频按预设长度进行分段截取,获得各有效音频片段,进入步骤B4;
步骤B4:将各有效音频片段分别进行短时傅里叶变换得到各有效音频片段分别对应的频谱特征,基于时间序列顺序排列,得到该包含目标说话人声音的音频对应的时频谱图,进入步骤B5;
步骤B5:采用汉明窗对包含目标说话人声音的音频对应的时频谱图进行加窗处理,获得预处理后的包含目标说话人声音的音频。
3.根据权利要求1所述一种利用神经架构搜索的声纹识别方法,其特征在于:所述步骤C中,针对预处理后的包含目标说话人声音的音频,通过以下步骤,获得该音频对应的梅尔频谱特征:
步骤C1:针对预处理后的包含目标说话人声音的音频,采用快速傅里叶变换对该音频序列进行的离散傅里叶变换;
步骤C2:针对离散傅里叶变换后的包含目标说话人声音的音频,基于预设截断频率,采用梅尔滤波器组对离散傅里叶变换后的音频进行滤波,获得该音频对应的fbank特征系数;
步骤C3:针对该音频对应的fbank特征系数取倒数,获得该音频对应的梅尔频谱特征。
4.根据权利要求3所述一种利用神经架构搜索的声纹识别方法,其特征在于:所述梅尔滤波器组是预设一组三角带通滤波器,相邻三角带通滤波器之间关系如下:
c(i)=h(i-1)=l(i+1)
其中l(i)表示第i个三角带通滤波器的下限频率,c(i)表示第i个三角带通滤波器的中心频率,h(i)表示第i个三角带通滤波器的上限频率,i-1表示第i-1个三角带通滤波器。
5.根据权利要求1所述一种利用神经架构搜索的声纹识别方法,其特征在于:所述步骤D中,通过以下步骤,获得预训练的以音频的梅尔频谱特征为输入,该音频中目标说话人的身份信息为输出的声纹识别模型:
步骤D1:基于声纹识别模型对应的训练集与验证集,结合预设神经元搜索空间,采用神经架构搜索方法,获得神经元架构;
步骤D2:基于神经元架构,进行神经元堆叠,获得初始声纹识别模型;
步骤D3:基于声纹识别模型对应的训练集与验证集对初始声纹识别模型进行训练,获得预训练的声纹识别模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210768407.3/1.html,转载请声明来源钻瓜专利网。





