[发明专利]一种鲁棒性的回放语音检测方法在审
申请号: | 201910070412.5 | 申请日: | 2019-01-24 |
公开(公告)号: | CN109599118A | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 王让定;林朗;严迪群 | 申请(专利权)人: | 宁波大学 |
主分类号: | G10L17/20 | 分类号: | G10L17/20;G10L25/24;G10L25/27;G10L25/51 |
代理公司: | 宁波诚源专利事务所有限公司 33102 | 代理人: | 袁忠卫;李娜 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 回放语音 鲁棒性 阻带滤波器 语音信号 真实语音 似然比 阻带 检测 高斯混合模型 归一化处理 频率子带 信道影响 后提取 滤除 去除 分析 | ||
1.一种鲁棒性的回放语音检测方法,其特征在于:所述方法包括,
步骤一、分析真实语音和回放语音的频率子带之间的差异;
步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;
步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;
步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。
2.根据权利要求1所述方法,其特征在于:
所述步骤三中利用减均值去除信道影响,其具体过程如下,
(a)简化回放攻击模型,得到时域线性卷积
其中,r为回放语音,s为真实语音,h为回放信道响应;
(b)将时域线性卷积变换成频域数字信号,得到
其中,F(·)表示傅里叶变换函数,F(r)、F(s)分别为回放语音r和真实语音s的频谱系数,F(h)为频域中信道响应。
(c)通过取对数并进行离散余弦变换,将频域中的乘性关系转化为倒谱域中的加性关系,即
其中,R表示回放语音r的倒谱系数,S表示真实语音s的倒谱系数,H表示倒谱域中回放信道响应h的脉冲响应。
(d)对待测语音信号进行分帧处理,得到分帧的倒谱系数关系式
Ri=Si+H (8)
其中Ri表示分帧后的回放语音r的倒谱系数,Si表示分帧后的真实语音s的倒谱系数,i表示帧数;
(e)求取整个语音信号均值,即
其中I为矢量矩阵;
(f)利用减均值,消除信道影响,即
其中,Mn表示减均值后的倒谱特征。
3.根据权利要求2所述方法,其特征在于:
所述步骤二中提取差异性子带的倒谱特征,得到阻带频率倒谱特征,具体为,
(I)利用阻带滤波器对待测语音信号进行滤波处理,得到滤波后的信号s(n);
(II)对所述滤波后的信号s(n)进行预处理,得到分帧后的语音信号si(n),i表示帧数;
(III)对每帧语音信号si(n)进行离散傅里叶变换,得到每帧语音信号si(n)的频谱系数si(k),即
其中,N表示傅里叶变换点数,K表示频率点;
(IIII)根据频谱系数求取语音信号si(n)的功率谱pi(k),公式为
并对功率谱取对数和离散余弦变换,得到阻带频率倒谱特征为
其中,L表示倒谱特征的维度,取值为40。
4.根据权利要求3所述方法,其特征在于:
所述步骤三采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理,具体为,
将所述阻带频率倒谱特征代入公式(10)并进行方差归一化处理,得到其中,表示分帧后整个阻带频率倒谱特征Cn的均值,表示分帧后整个阻带频率倒谱特征Cn的方差,表示执行减均值并归一化后的阻带频率倒谱特征。
5.根据权利要求4所述方法,其特征在于:
所述步骤四采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音,具体为,
(X1)依次执行步骤一至步骤三,提取真实语音、回放语音分别执行减均值并归一化后的倒谱特征,并根据该倒谱特征训练得到真实语音GMM模型λt和回放语音GMM模型λf(该处的);
(X2)将所述执行减均值并归一化后的阻带频率倒谱特征在两个GMM模型下计算似然比σ,公式为
(X3)将所述似然比σ与阈值T比较,大于阈值T,则判定所述待测语音信号为真实语音,反之为回放语音。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910070412.5/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 低信噪比环境下基于多频带能量分布的动物声音检测方法-201611040015.6
- 李应;王巧静 - 福州大学
- 2016-11-23 - 2019-11-12 - G10L17/20
- 本发明涉及一种低信噪比环境下基于多频带能量分布的动物声音检测方法,包括以下步骤:步骤S1:利用多滤波器组对待测声音样本进行时频分析,获得多频带频谱图;步骤S2:分析所述多频带频谱图的频率及能量分布,获取多频带能量分布图;步骤S3:对所述多频带能量分布图进行分块DCT,并提取DCT系数矩阵中的低频系数作为所述待测声音样本的特征;步骤S4:根据以上步骤对若干训练声音样本进行处理,获取训练声音样本的特征,并采用随机森林分类器对所述训练声音样本的特征进行训练,得到随机森林;步骤S5:将所述待测声音样本的特征代入随机森林进行测试,确定所述待测声音样本的类标。本发明相比于现有技术在低信噪比的情况下具有良好的鲁棒性。
- 声纹识别方法、装置、设备及计算机可读存储介质-201910777107.X
- 陈昊亮;罗伟航;李炳霖 - 广州国音智能科技有限公司
- 2019-08-21 - 2019-10-22 - G10L17/20
- 本发明公开了一种声纹识别方法、装置、设备及计算机可读存储介质,该方法包括步骤:获取用于声纹识别的语音信息,并对语音信息进行分解,得到第一模态信号和除第一模态之外的模态信号;对第一模态信号进行降噪处理,再将降噪后的第一模态信号与除第一模态之外的模态信号进行相加重构,得到待识别声纹信息;计算待识别声纹信息的识别度;根据识别度判断待识别声纹信息是否为目标声纹。本发明提供了声纹识别的方法,提高了现有技术对声纹识别不准确的问题。
- 基于十字形声阵列宽带波束形成的声识别方法-201610409905.3
- 王天磊;王建中;曹九稳;赖晓平 - 杭州电子科技大学
- 2016-06-12 - 2019-08-27 - G10L17/20
- 本发明公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明包括如下步骤:1、将十字形声阵列对准所需方向采集声音信号;2、对采集到声音信号进行预处理;3、对预处理后的每一帧数据进行离散傅里叶变换,然后根据需要的频带进行频带提取;4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换;6、对应分帧时的原则进行帧重叠合成,输出信号;7、对输出信号进行特征提取和分类学习、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号,将其用于声音识别系统的信号处理阶段,能够有效的提高识别系统对识别对象的识别率和可靠性。
- 一种鲁棒性的回放语音检测方法-201910070412.5
- 王让定;林朗;严迪群 - 宁波大学
- 2019-01-24 - 2019-04-09 - G10L17/20
- 本发明涉及一种鲁棒性的回放语音检测方法,所述方法包括步骤一、分析真实语音和回放语音的频率子带之间的差异;步骤二、根据分析结果选择阻带滤波器,将待测语音信号经阻带滤波器滤除后提取差异性子带的倒谱特征,得到阻带频率倒谱特征;步骤三、采用减均值去除所述阻带频率倒谱特征中的信道影响,并进行归一化处理;步骤四、采用高斯混合模型训练经步骤三得到的倒谱特征,计算似然比,比较似然比与阈值大小,判断待测语音信号为回放语音或真实语音。本发明具有检测准确性高,鲁棒性好的优点。
- 声纹辨识装置及其声纹辨识方法-201610806957.4
- 黄耀民;陈宇皓;赖欣怡 - 财团法人资讯工业策进会
- 2016-09-07 - 2018-03-09 - G10L17/20
- 一种声纹辨识装置及其声纹辨识方法。声纹辨识装置存储具有多个声纹数据的一声纹数据库以及一待辨识声纹数据。各声纹数据及待辨识声纹数据每一者由多个频带上的多个子声纹比特所组成。声纹辨识装置执行声纹辨识方法,其包含下列步骤将该待辨识声纹数据与该多个声纹数据其中之一进行比特差异值比对,以得到各该频带上的一比特误差率;计算该多个频带中该多个比特误差率小于一第一临界值的一百分比;以及当该百分比大于一第二临界值时,将比对的该声纹数据标示为一相似声纹数据。
- 一种声纹识别方法和装置-201310032846.9
- 王尔玉;卢鲤;张翔;刘海波;李露;饶丰;陆读羚;岳帅;陈波 - 腾讯科技(深圳)有限公司
- 2013-01-28 - 2014-08-06 - G10L17/20
- 本发明实施方式提出一种声纹识别方法和装置。方法包括:基于无标注语音数据建立深层神经网络初级模型,并且基于有标注语音数据对该深层神经网络初级模型进行训练,以获取深层神经网络二级模型;利用该深层神经网络二级模型注册说话人高层声纹特征与说话人标识;接收测试语音数据,基于该深层神经网络二级模型从测试语音数据中提取测试语音高层声纹特征,并且基于该测试语音高层声纹特征确定说话人标识。通过深层神经网络自动学习语音信号当中包含能够抵御噪声干扰的高层次说话人信息,可以有效抵御噪声干扰。
- 基于噪声屏蔽核的说话人识别方法-201310681894.0
- 张卫强;刘加 - 清华大学
- 2013-12-12 - 2014-04-09 - G10L17/20
- 本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
- 专利分类