[发明专利]一种基于语音频谱融合特征的手机来源识别方法有效
申请号: | 201710550925.7 | 申请日: | 2017-07-07 |
公开(公告)号: | CN107507626B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 王让定;裴安山;严迪群;金超;秦天芸 | 申请(专利权)人: | 宁波大学 |
主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/51 |
代理公司: | 宁波奥圣专利代理有限公司 33226 | 代理人: | 周珏 |
地址: | 315211 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于语音频谱融合特征的手机来源识别方法,其对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,获取每帧的前一半加1个频率点的频率值的幅值;然后根据频率值及幅值,获取每个语音样本的统计平均信息量特征、统计平均对数谱特征和统计平均相位谱特征,组成频谱融合特征;接着将所有手机对应的所有语音样本的频谱融合特征组成频谱融合特征矩阵;之后对频谱融合特征矩阵进行归一化和特征选择,得到最优特征矩阵,即获得每个语音样本的最终频谱融合特征;最后对所有语音样本的最终频谱融合特征进行模型训练和测试样本识别;优点是识别准确率高、稳定性好,且泛化能力强。 | ||
搜索关键词: | 一种 基于 语音 频谱 融合 特征 手机 来源 识别 方法 | ||
【主权项】:
一种基于语音频谱融合特征的手机来源识别方法,其特征在于包括以下步骤:①利用M个不同主流品牌不同主流型号的手机,获得N个人的每人对应的P个语音样本,将每个手机对应的共N×P个语音样本构成一个语音库;其中,M>1,N≥1,1≤P≤10;②对每个手机对应的语音库中的每个语音样本进行分帧加窗处理,得到每个手机对应的语音库中的每个语音样本的T帧;然后对每个手机对应的语音库中的每个语音样本中的每帧进行快速傅里叶变换,得到每个手机对应的语音库中的每个语音样本中的每帧的J个频率点各自的频率值;接着在频域计算每个手机对应的语音库中的每个语音样本中的每帧的前个频率点中的每个频率点的频率值的幅值,将第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值的幅值记为||xm,p,t(k)||,其中,对每个手机对应的语音库中的每个语音样本进行分帧加窗处理时所采用的窗函数选择汉明窗窗函数,T>1,J为快速傅里叶变换的点数,J的取值为512或1024,1≤m≤M,1≤p≤N×P,1≤t≤T,xm,p,t(k)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的频率值,为xm,p,t(k)的共扼;③计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的频率值的幅值沿时间轴的统计平均值,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的频率值的幅值沿时间轴的统计平均值记为xm,p(k),然后计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的概率,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的概率记为prm,p(k),再计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均信息量特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均信息量特征记为Im,p(k),Im,p(k)=‑log2(prm,p(k));计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均对数谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均对数谱特征记为Lm,p(k),其中,eps为一个用于防止||xm,p,t(k)||+eps为0的随机正数;计算每个手机对应的语音库中的每个语音样本的所有帧的前个频率点中的每个频率点的统计平均相位谱特征,将第m个手机对应的语音库中的第p个语音样本的所有帧的第k个频率点的统计平均相位谱特征记为其中,表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第k个频率点的相位谱特征,tan‑1()为求反正切函数,sin()为求正弦函数,cos()为求余弦函数,xm,p,t(q)表示第m个手机对应的语音库中的第p个语音样本中的第t帧的第q个频率点的频率值,1≤q≤J;④将每个手机对应的语音库中的每个语音样本的所有帧的前个频率点的统计平均信息量特征、统计平均对数谱特征、统计平均相位谱特征按序排列组成一个维数为的行向量,作为每个手机对应的语音库中的每个语音样本的频谱融合特征,将第m个手机对应的语音库中的第p个语音样本的频谱融合特征记为Rm,p,;然后将所有手机对应的语音库中的所有语音样本的频谱融合特征组成一个维数为的频谱融合特征矩阵;接着对频谱融合特征矩阵中的每个元素进行归一化处理;之后利用BestFirst搜索算法和CfsSubsetEval属性评估算法,对归一化后的频谱融合特征矩阵进行特征选择,得到一个最优特征矩阵,最优特征矩阵的行数为M×N×P行、列数大于1且小于再将最优特征矩阵中的每一行作为对应的语音样本的最终频谱融合特征;其中,Im,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均信息量特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均信息量特征,Lm,p(1)表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均对数谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第1个频率点的统计平均相位谱特征,表示第m个手机对应的语音库中的第p个语音样本的所有帧的第个频率点的统计平均相位谱特征;⑤按照网格化方法对基于径向基核函数的LibSVM中的惩罚系数和伽马系数进行交叉验证,得到惩罚系数和伽马系数的组合的最优值;然后根据惩罚系数和伽马系数的组合的最优值,对M×N×P个语音样本的最终频谱融合特征以K‑折交叉验证方式进行模型训练和测试样本识别;其中,K‑折交叉验证中的参数K的取值范围为大于或等于2。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201710550925.7/,转载请声明来源钻瓜专利网。