[发明专利]一种改善喉振话筒语音音质的方法无效

专利信息
申请号: 201210049868.1 申请日: 2012-02-29
公开(公告)号: CN102610236A 公开(公告)日: 2012-07-25
发明(设计)人: 栗学丽;冯大伟 申请(专利权)人: 山东大学
主分类号: G10L21/02 分类号: G10L21/02
代理公司: 济南金迪知识产权代理有限公司 37219 代理人: 吕利敏
地址: 250100 山*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 改善 话筒 语音 音质 方法
【权利要求书】:

1.一种改善喉振话筒语音音质的方法,其特征在于,该方法包括如下步骤:

(1)利用近讲话筒和喉振话筒同时录制训练语音,喉振话筒录制的语音作为源语音,近讲话筒录制的语音作为目标语音;

(2)分别建立源语音和目标语音的STRAIGHT语音模型,得到基频参数、非周期指数和幅度谱,作为语音分析-修改-合成的模型;

(3)由幅度谱分别提取源语音的共振峰加权Mel倒谱参数和增益参数作为源语音的特征参量,及目标语音的线谱对参数和增益参数作为目标语音的特征参量;

(4)将步骤(3)中所述的特征参量送入动态前馈神经网络中训练;

(5)动态前馈神经网络是根据特征结构自动选取网络的拓扑结构,训练出最优的非线性映射函数;

(6)利用喉振话筒录制测试语音,建立测试语音的STRAIGHT语音模型,由幅度谱提取共振峰加权Mel倒谱参数和增益参数,送入步骤(5)训练得到的最优非线性映射函数中,得到修改后的线谱对参数和增益参数;

(7)由修改后的线谱对参数和增益参数得到修改后的幅度谱,与基频参数和非周期指数一起利用STRAIGHT模型合成出清晰的语音。

2.根据权利要求1所述的一种改善喉振话筒语音音质的方法,其特征在于,所述步骤(3)中共振峰加权Mel倒谱参数提取过程如下:

A)首先根据人耳的听觉特性划分Mel临界带mi(1≤i≤Nb,Nb=26是Mel临界带的频带数),即每个Mel临界带间隔79.5Mel,带宽159Mel;然后设计每个Mel临界带的三角形滤波器,求每个三角形滤波器频率带宽内的所有信号幅度谱加权和作为Mel带通滤波器的能量输出ei

B)由幅度谱X(n)求平方,得到功率谱S(n);

S(n)=|X(n)|2;0nNF2;]]>

S(n)=S(NF-n);

其中NF=1024为频域采样点数;

C)由功率谱S(n)求逆快速傅里叶变换(IFFT),得到自相关函数R(i);

R(i)=1NFΣn=0NF-1S(n)exp(j2πniNF);0nNF-1;]]>

D)根据Levinson-Durbin递推算法,由自相关函数得到p阶线性预测系数ai及增益参数g;

Σi=1paipR(|i-j|)=R(j);j=1,...,p;]]>

g=R(0)-Σi=1paipR(i);]]>

p=16为线性预测阶数;

E)由线性预测系数与线谱对参数的关系,得到p阶线谱对参数lsp(i);

A(z)=1+a1pz-1+a2pz-2+...++appz-p;]]>

P(z)=A(z)+z-(p+1)A(z-1);

Q(z)=A(z)-z-(p+1)A(z-1);

A(z)为p阶线性预测误差滤波器的传递函数;P(z)和Q(z)多项式的根值即为p阶线谱对参数lsp(i)。令lsp(0)=0,lsp(p+1)=fs/2,fs=8000Hz为采样频率;

F)由于线谱对参数的疏密程度反映了共振峰的频率位置,所以采用p阶逆谐波平均加权函数ωi作为初始加权函数:

ωi=1lsp(i)-lsp(i-1);i=1;1lsp(i)-lsp(i-1)+1lsp(i+1)-lsp(i);i=2,...,p-1;1lsp(i+1)-lsp(i);i=p;]]>

G)将逆谐波平均加权函数ωi归一化,得到归一的逆谐波平均加权函数

ωk=(ωkΣiωi)0.5;k=1,...,p;]]>

H)将归一的逆谐波平均加权函数内插得到Mel临界带的加权函数vi

vi=ωk+1(mi-lsp(k))+ωk(lsp(k+1)-mi)lsp(k+1)-lsp(k);i=1,2,...Nb;]]>

mi和Nb分别是步骤A)中提到的Mel临界带的频率值和频带数;

I)将Mel临界带的加权函数vi归一化,得到归一的Mel临界带平均加权函数

J)将归一的Mel临界带平均加权函数作为共振峰加权函数,与步骤A)中得到的Mel带通滤波器的能量输出ei相乘取对数,再作离散余弦变换(DCT),得到最终的共振峰加权Mel倒谱参数wmfcc(j),

wmfcc(j)=1NbΣi=1Nblog(viei)cos((i-0.5)Nb);j=1,2,...N;]]>

N=16为共振峰加权Mel倒谱参数的阶数。

3.一种改善喉振话筒语音音质的方法,其特征在于,所述步骤5)中动态前馈神经网络根据特征结构自动选取网络的拓扑结构过程如下:

a)设置前馈神经网络的初始隐层层数、隐层神经元个数、最大隐层神经元个数、最小误差要求,对初始结构网络的权值进行初始化;

b)对输入数据和输出数据进行零均值、方差为1的规整,送入前馈神经网络;

c)计算出网络的实际输出;

d)将网络的实际输出与目标值进行比较,得到误差E;

e)若E满足本结构网络的终止条件,则说明此结构的神经网络已经训练完成,向下执行步骤f);否则,网络采用尺度共扼梯度算法(SCG:Scaled Conjugate Gradient algorithm),跳转到步骤c)继续训练;

f)判断E是否满足设定的最小误差要求,若满足,则训练结束,说明最优结构的神经网络已经自动生成;

g)否则再判断隐层神经元个数是否已达到设定的最大值,若不满足,则隐层神经元个数增加1,将已训练好的权值自动赋给新网络,新增隐层神经元的权值初始值为0,跳转到步骤c)继续训练;

h)若隐层神经元个数已达到设定的最大值,则训练结束,选取具有最小误差E的拓扑结构作为最优网络结构,即训练得出最优的非线性映射函数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210049868.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top