[发明专利]一种基于融合特征的加性噪声环境下手机来源识别方法有效
| 申请号: | 201910231119.2 | 申请日: | 2019-03-26 |
| 公开(公告)号: | CN110136746B | 公开(公告)日: | 2021-11-09 |
| 发明(设计)人: | 王让定;秦天芸;严迪群 | 申请(专利权)人: | 宁波大学 |
| 主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/30;G10L25/24;G10L25/18 |
| 代理公司: | 宁波诚源专利事务所有限公司 33102 | 代理人: | 袁忠卫;李娜 |
| 地址: | 315211 浙*** | 国省代码: | 浙江;33 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明公开了一种基于融合特征的加性噪声环境下手机来源识别方法,其将从傅里叶域中提取的MFCC特征、STFTSDF特征和从CQT域提取的CQTSDF特征组成的融合特征作为设备指纹,相较于单一特征能够更精确的表征设备区分信息;在训练阶段采用了多场景训练的方式,训练集中不仅有未添加场景噪声的干净的语音样本,还有含有不同场景噪声类型和噪声强度的含噪语音样本,训练得到的M分类模型具有通用性,并且对已知噪声场景和未知噪声场景的语音样本都能进行有效的手机来源识别;其使用深度学习的CNN模型来建立M分类模型,CNN模型不仅提升了对未添加场景噪声的干净的语音样本的来源识别准确性,而且大幅度提升了含噪语音样本的手机来源识别效果,噪声鲁棒性强。 | ||
| 搜索关键词: | 一种 基于 融合 特征 噪声 环境 手机 来源 识别 方法 | ||
【主权项】:
1.一种基于融合特征的加性噪声环境下手机来源识别方法,其特征在于:所述方法包括,步骤一、选取M个不同型号手机,每个手机获取N个人的P个语音样本,得到语音样本N×P个,并形成一个子集,将M个子集共M×N×P个语音样本构成基础语音库;其中,M≥10,N≥10,P≥10;步骤二、选取噪声类型X种,噪声强度Y种,得到场景噪声共X×Y种,对所述基础语音库中的每个子集中的所有语音样本添加每种场景噪声,形成M个含噪子集共M×N×P个含噪语音样本,形成一个含噪语音库,X×Y种场景噪声共得到X×Y个含噪语音库,其中,X≥2,Y≥2;步骤三、对所述基础语音库中每个子集中的每个语音样本进行常Q变换,得到基础语音库中第m个子集中的第n个语音样本中的第k个频率点的常Q变换域频率值Fm,n(k),
频率值幅值Hm,n(k),
常Q变换域频谱分布特征值CQTSDFm,n(k),
第n个语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFm,n,CQTSDFm,n=[CQTSDFm,n(1),…,CQTSDFm,n(k),…,CQTSDFm,n(K)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本对应的第k个频率点的常Q变换域频率值Fi,m,n(k),频率值的幅值Hi,m,n(k),常Q变换域频谱分布特征值CQTSDFi,m,n(k)以及第n个含噪语音样本对应的K个频率点的常Q变换域频谱分布特征向量CQTSDFi,m,n,i为正整数,1≤i≤X×Y,CQTSDFi,m,n的维数为1×K;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,k为正整数,1≤k≤K,K表示常Q变换的频率点的总点数,K≥9,gk为正整数,1≤gk≤Gk,Gk表示常Q变换的过程中分帧的窗口长度,zm,n(gk)表示基础语音库中的第m个子集中的第n个语音样本,w(gk)表示常Q变换的过程中采用的窗函数,e为自然基数,j为虚数单位,fk表示常Q变换的过程中采用的滤波器的中心频率,
表示第m个手机的采样率,
为Fm,n(k)的共扼,Tk表示基础语音库中的每个子集中的每个语音样本在第k个频率点处的总帧数,tk为正整数,1≤tk≤Tk,c为一个随机正数,CQTSDFm,n的维数为1×K,符号“[]”为向量表示符号,CQTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的常Q变换域频谱分布特征值,CQTSDFm,n(K)表示基础语音库中的第m个子集中的第n个语音样本对应的第K个频率点的常Q变换域频谱分布特征值;步骤四、对所述基础语音库中的每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本对应的第d个频率点的傅里叶变换域频率值Sm,n(d),
频率值的幅值Qm,n(d),
傅里叶变换域频谱分布特征值STFTSDFm,n(d),
第n个语音样本对应的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFm,n,STFTSDFm,n=[STFTSDFm,n(1),…,STFTSDFm,n(d),…,STFTSDFm,n(D)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第d个频率点的傅里叶变换域频率值Si,m,n(d),频率值的幅值Qi,m,n(d),傅里叶变换域频谱分布特征值STFTSDFi,m,n(d),第n个含噪语音样本对应的的D个频率点的傅里叶变换域频谱分布特征向量STFTSDFi,m,n,i为正整数,1≤i≤X×Y,STFTSDFi,m,n的维数为1×D;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,d为正整数,1≤d≤D,D表示傅里叶变换的频率点的总点数,g为正整数,1≤g≤G,G表示傅里叶变换的过程中分帧的窗口长度,zm,n(g)表示基础语音库中的第m个子集中的第n个语音样本,w(g)表示傅里叶变换的过程中采用的窗函数,e为自然基数,j为虚数单位,
为Sm,n(d)的共扼,T表示基础语音库中的每个子集中的每个语音样本的总帧数,t为正整数,1≤t≤T,c为一个随机正数,STFTSDFm,n的维数为1×D,STFTSDFm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1个频率点的傅里叶变换域频谱分布特征值,STFTSDFm,n(D)表示基础语音库中的第m个子集中的第n个语音样本对应的第D个频率点的傅里叶变换域频谱分布特征值;步骤五、对所述基础语音库中每个子集中的每个语音样本进行傅里叶变换,得到所述基础语音库中第m个子集中的第n个语音样本中的第d个频率点的傅里叶变换域频率值Sm,n(d),
其经每个滤波器组后的对数能量Cm,n(d),![]()
再进行离散余弦变换得到MFCC特征值MFCCm,n(a),
基础语音库中第m个子集中的第n个语音样本对应的MFCC特征向量MFCCm,n,MFCCm,n=[MFCCm,n(1),…,MFCCm,n(a),…,MFCCm,n(A)];;对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中第m个含噪子集中的第n个含噪语音样本对应的第a个阶特征值MFCCi,m,n(a),i为正整数,1≤i≤X×Y,MFCCi,m,n的维数为1×A;其中,m为正整数,1≤m≤M,n为正整数,1≤n≤N×P,a为正整数,1≤a≤A,A表示MFCC特征的阶数,STFTSDFm,n的维数为1×A,MFCCm,n(1)表示基础语音库中的第m个子集中的第n个语音样本对应的第1阶特征值,MFCCm,n(A)表示基础语音库中的第m个子集中的第n个语音样本对应的第A阶特征值;步骤六、将所述基础语音库中每个子集中的每个语音样本的常Q变换域频谱分布特征、傅里叶域频谱分布特征、MFCC特征按序排列组成一个维数为K+D+A的行向量,形成融合特征向量,得到基础语音库中第m个子集中的第n个语音样本的融合特征向量Rm,n,Rm,n=[CQTSDFm,n(1),…,CQTSDFm,n(K),STFTSDFm,n(1),…,STFTSDFm,n(D),MFCCm,n(1),…,MFCCm,n(A)];对所述X×Y个含噪语音库中每个含噪子集的每个含噪语音样本进行相同操作,得到第i个含噪语音库中的第m个含噪子集中的第n个含噪语音样本的融合特征向量Ri,m,n,Ri,m,n=[CQTSDFi,m,n(1),…,CQTSDFi,m,n(K),STFTSDFi,m,n(1),…,STFTSDFi,m,n(D),MFCCi,m,n(1),…,MFCCi,m,n(A)],该Ri,m,n为一个维数为K+D+A的行向量;步骤七、将所述基础语音库中第m个子集中的所有语音样本对应的融合特征向量及所有含噪语音库中的第m个含噪子集中的所有含噪语音样本对应的融合特征向量标记为第m种类别,并将其作为输入特征,输入到CNN模型中进行训练,得到M分类模型,M分类模型输出端输出类别,输出类别为M种,与选取的M个手机对应;步骤八、取一个待识别录音,记为Vtest,按照步骤三至六操作,获得Vtest对应的融合特征向量Rtest,将Rtest输入到M分类模型,M分类模型输出端输出Rtest类别,即得到Rtest的手机来源,Rtest的维数为1×(K+D+A)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910231119.2/,转载请声明来源钻瓜专利网。





