[发明专利]一种改善喉振话筒语音音质的方法无效

申请号：	201210049868.1	申请日：	2012-02-29
公开（公告）号：	CN102610236A	公开（公告）日：	2012-07-25
发明（设计）人：	栗学丽;冯大伟	申请（专利权）人：	山东大学
主分类号：	G10L21/02	分类号：	G10L21/02
代理公司：	济南金迪知识产权代理有限公司 37219	代理人：	吕利敏
地址：	250100 山***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种改善话筒语音音质方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种改善喉振话筒语音音质的方法，其特征在于，该方法包括如下步骤：

(1)利用近讲话筒和喉振话筒同时录制训练语音，喉振话筒录制的语音作为源语音，近讲话筒录制的语音作为目标语音；

(2)分别建立源语音和目标语音的STRAIGHT语音模型，得到基频参数、非周期指数和幅度谱，作为语音分析-修改-合成的模型；

(3)由幅度谱分别提取源语音的共振峰加权Mel倒谱参数和增益参数作为源语音的特征参量，及目标语音的线谱对参数和增益参数作为目标语音的特征参量；

(4)将步骤(3)中所述的特征参量送入动态前馈神经网络中训练；

(5)动态前馈神经网络是根据特征结构自动选取网络的拓扑结构，训练出最优的非线性映射函数；

(6)利用喉振话筒录制测试语音，建立测试语音的STRAIGHT语音模型，由幅度谱提取共振峰加权Mel倒谱参数和增益参数，送入步骤(5)训练得到的最优非线性映射函数中，得到修改后的线谱对参数和增益参数；

(7)由修改后的线谱对参数和增益参数得到修改后的幅度谱，与基频参数和非周期指数一起利用STRAIGHT模型合成出清晰的语音。

2.根据权利要求1所述的一种改善喉振话筒语音音质的方法，其特征在于，所述步骤(3)中共振峰加权Mel倒谱参数提取过程如下：

A)首先根据人耳的听觉特性划分Mel临界带m_i(1≤i≤N_b，N_b＝26是Mel临界带的频带数)，即每个Mel临界带间隔79.5Mel，带宽159Mel；然后设计每个Mel临界带的三角形滤波器，求每个三角形滤波器频率带宽内的所有信号幅度谱加权和作为Mel带通滤波器的能量输出e_i。

B)由幅度谱X(n)求平方，得到功率谱S(n)；

S(n)=|X(n)|2;0≤n≤NF2;]]>

S(n)＝S(NF-n)；

其中NF＝1024为频域采样点数；

C)由功率谱S(n)求逆快速傅里叶变换(IFFT)，得到自相关函数R(i)；

R(i)=1NFΣn=0NF-1S(n)exp(j2πniNF);0≤n≤NF-1;]]>

D)根据Levinson-Durbin递推算法，由自相关函数得到p阶线性预测系数a_i及增益参数g；

Σi=1paipR(|i-j|)=R(j);j=1,...,p;]]>

g=R(0)-Σi=1paipR(i);]]>

p＝16为线性预测阶数；

E)由线性预测系数与线谱对参数的关系，得到p阶线谱对参数lsp(i)；

A(z)=1+a1pz-1+a2pz-2+...++appz-p;]]>

P(z)＝A(z)+z^-(p+1)A(z^-1)；

Q(z)＝A(z)-z^-(p+1)A(z^-1)；

A(z)为p阶线性预测误差滤波器的传递函数；P(z)和Q(z)多项式的根值即为p阶线谱对参数lsp(i)。令lsp(0)＝0，lsp(p+1)＝fs/2，fs＝8000Hz为采样频率；

F)由于线谱对参数的疏密程度反映了共振峰的频率位置，所以采用p阶逆谐波平均加权函数ω_i作为初始加权函数：

ωi=1lsp(i)-lsp(i-1);i=1;1lsp(i)-lsp(i-1)+1lsp(i+1)-lsp(i);i=2,...,p-1;1lsp(i+1)-lsp(i);i=p;]]>

G)将逆谐波平均加权函数ω_i归一化，得到归一的逆谐波平均加权函数

ωk‾=(ωkΣiωi)0.5;k=1,...,p;]]>

H)将归一的逆谐波平均加权函数内插得到Mel临界带的加权函数v_i：

vi=ωk+1‾(mi-lsp(k))+ωk‾(lsp(k+1)-mi)lsp(k+1)-lsp(k);i=1,2,...Nb;]]>

m_i和N_b分别是步骤A)中提到的Mel临界带的频率值和频带数；

I)将Mel临界带的加权函数v_i归一化，得到归一的Mel临界带平均加权函数

J)将归一的Mel临界带平均加权函数作为共振峰加权函数，与步骤A)中得到的Mel带通滤波器的能量输出e_i相乘取对数，再作离散余弦变换(DCT)，得到最终的共振峰加权Mel倒谱参数wmfcc(j)，

wmfcc(j)=1NbΣi=1Nblog(vi‾ei)cos((i-0.5)jπNb);j=1,2,...N;]]>

N＝16为共振峰加权Mel倒谱参数的阶数。

3.一种改善喉振话筒语音音质的方法，其特征在于，所述步骤5)中动态前馈神经网络根据特征结构自动选取网络的拓扑结构过程如下：

a)设置前馈神经网络的初始隐层层数、隐层神经元个数、最大隐层神经元个数、最小误差要求，对初始结构网络的权值进行初始化；

b)对输入数据和输出数据进行零均值、方差为1的规整，送入前馈神经网络；

c)计算出网络的实际输出；

d)将网络的实际输出与目标值进行比较，得到误差E；

e)若E满足本结构网络的终止条件，则说明此结构的神经网络已经训练完成，向下执行步骤f)；否则，网络采用尺度共扼梯度算法(SCG：Scaled Conjugate Gradient algorithm)，跳转到步骤c)继续训练；

f)判断E是否满足设定的最小误差要求，若满足，则训练结束，说明最优结构的神经网络已经自动生成；

g)否则再判断隐层神经元个数是否已达到设定的最大值，若不满足，则隐层神经元个数增加1，将已训练好的权值自动赋给新网络，新增隐层神经元的权值初始值为0，跳转到步骤c)继续训练；

h)若隐层神经元个数已达到设定的最大值，则训练结束，选取具有最小误差E的拓扑结构作为最优网络结构，即训练得出最优的非线性映射函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210049868.1/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种改善喉振话筒语音音质的方法无效

专利文献下载