[发明专利]基于语种对的鉴别式语种识别模型建立方法有效

申请号：	200910235393.3	申请日：	2009-10-13
公开（公告）号：	CN101702314A	公开（公告）日：	2010-05-05
发明（设计）人：	张卫强;刘加	申请（专利权）人：	清华大学
主分类号：	G10L15/02	分类号：	G10L15/02;G10L15/06;G10L15/14
代理公司：	北京众合诚成知识产权代理有限公司 11246	代理人：	朱琨
地址：	100084 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：	基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法，其特征在于所述方法首先对语音数据提取特征得到特征矢量，接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数，然后利用GMM模型对特征矢量计算分子项和分母统计量，并对分子统计量进行平滑，由平滑后的分子统计量和分母统计量计算更新系数，最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手，更能抓住语种间的鉴别性信息，从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。
搜索关键词：	基于语种鉴别识别模型建立方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.基于语种对的鉴别式语种识别模型建立方法，其特征在于，所述方法是在数字集成电路芯片中依次按以下步骤实现的：步骤(1)：初始化在所述集成电路中建立以下模块：特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块；步骤(2)：对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC，再计算偏移差分倒谱SDC特征向量，其计算公式为：s_k(i)＝x(i+3k+1)-x(i+3k-1)，k＝0，1，...，6其中x(i)表示第i帧MFCC特征向量，k为SDC特征向量的块标号，k＝0，1，...，6，共7块，每块7维，连同7维MFCC特征一起拼接成56维的特征向量{x(i)，s₀(i)，s₁(i)，…，s₆(i)}；步骤(3)：在所述最大似然ML准则训练模块中，用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练，得到所述12个语种高斯混合模型GMM的初始参数，其中第l个语种的参数用λ_l表示：λl={wlg,μlg,σlg2,g=1,...,G},]]>l＝1，...，L其中下标g表示高斯分量标号，每个语种含G个高斯分量，下标l表示语种标号，l＝1，...，L，共L＝12个语种，w_lg表示第l个语种第g个高斯分量的权重，μ_lg表示第l个语种第g个高斯分量的均值，σ_lg²表示第l个语种第g个高斯分量的方差；步骤(4)：分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量：在所述分子统计量中：零阶分子统计量θlgnum(1)=Σr=1RΣi=1Trγlgrnum(i)·1]]>一阶分子统计量θlgnum(χ)=Σr=1RΣi=1Trγlgrnum(i)·Xr(i)]]>二阶分子统计量θlgnum(χ2)=Σr=1RΣi=1Trγlgrnum(i)·Xr2(i)]]>在所述分母统计量中：零阶分母统计量θlgden(1)=Σr=1RΣi=1Trγlgrden(i)·1]]>一阶分母统计量θlgden(χ)=Σr=1RΣi=1Trγlgrden(i)·Xr(i)]]>二阶分母统计量θlgden(χ2)=Σr=1RΣi=1Trγlgrden(i)·Xr2(i)]]>其中上标“num”代表分子项，上标“den”代表分母项，θ(1)、θ(χ)和θ(χ²)分别代表零阶、一阶和二阶统计量，χ为所述特征向量的随机变量，R为总段数，r＝1，2，...，R，T_r为第r段语音的帧数，i＝1，2，...，T_r，X_r(i)代表第r段语音的第i帧特征向量的取值，γ_lgr^num(i)为第l个语种分子项中X_r(i)属于第g个高斯分量的后验概率，γ_lgr^den(i)为第l个语种分母项中X_r(i)属于第g个高斯分量的后验概率，其中：γlgrnum(i)=γlgr(i),l=lr0,l≠lr]]>γlgrden(i)=γlgr(i)1L(Σl′=1Lpλ(Xr|l)Kpλ(Xr|l)K+pλ(Xr|l′)K+12),l=lrγlgr(i)1Lpλ(Xr|l)Kpλ(Xr|lr)K+pλ(Xr|l)K,l≠lr]]>其中下标g′是不同于g的高斯分量标号，下标l′是不同于l的语种标号，(X_r(i)；μ_lg，σ_lg²)表示均值为μ_lg，方差为σ_lg²的高斯分布在随机变量取值为X_r(i)时的概率密度，p_λ(X_r|l)为第r段语音在第l个语种参数下的条件概率密度K为修正因子，取值为6/T_r，对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；零阶分子统计量θ_lg^num(1)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γ_lgr^num(i)之和，一阶分子统计量θ_lg^num(χ)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γ_lgr^num(i)与本帧特征向量的乘积之和，二阶分子统计量θ_lg^num(χ²)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γ_lgr^num(i)与本帧特征向量平方的乘积之和，对于各阶分母统计量依此类推；步骤(5)：对步骤(4)中得到的分子统计量进行平滑处理：用θ_lg^num(1)+τ^I代替θ_lg^num(1)，用代替θ_lg^num(χ)，用代替θ_lg^num(χ²)，其中τ^I为平滑因子，取值为100，对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；步骤(6)：由分子统计量和分母统计量计算模型参数μ_lg和σ_lg²的更新系数D_lg：Dlg=max{2Dmin,2θlgden(1)}]]>其中D_min是关于D的一元二次方程的两个解中较大的一个：σlg2D2+[(θlgnum(χ2)-θlgden(χ2))+(θlgnum(1)-θlgden(1))(σlg2+μlg2)-2(θlgnum(χ)-θlgden(χ))μlg]D]]>+[(θlgnum(1)-θlgden(1))(θlgnum(χ2)-θlgden(χ2))-(θlgnum(χ)-θlgden(χ))2]=0]]>对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；步骤(7)：修正模型参数μ_lg和σ_lg²，得到新的模型参数和对所有语种l＝1，...，L和所有高斯分量g＝1，...，G循环进行上述计算；步骤(8)：设定所有R段语音数据的目标函数为：当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10^-5则停止迭代，否则，用代替μ_lg，代替σ_lg，转步骤(4)。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/200910235393.3/，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于语种对的鉴别式语种识别模型建立方法有效

专利文献下载