[发明专利]基于语种对的鉴别式语种识别模型建立方法有效

专利信息
申请号: 200910235393.3 申请日: 2009-10-13
公开(公告)号: CN101702314A 公开(公告)日: 2010-05-05
发明(设计)人: 张卫强;刘加 申请(专利权)人: 清华大学
主分类号: G10L15/02 分类号: G10L15/02;G10L15/06;G10L15/14
代理公司: 北京众合诚成知识产权代理有限公司 11246 代理人: 朱琨
地址: 100084 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。
搜索关键词: 基于 语种 鉴别 识别 模型 建立 方法
【主权项】:
1.基于语种对的鉴别式语种识别模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的:步骤(1):初始化在所述集成电路中建立以下模块:特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;步骤(2):对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为:sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=0,1,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量{x(i),s0(i),s1(i),…,s6(i)};步骤(3):在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型GMM的初始参数,其中第l个语种的参数用λl表示:λl={wlg,μlg,σlg2,g=1,...,G},]]>l=1,...,L其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标l表示语种标号,l=1,...,L,共L=12个语种,wlg表示第l个语种第g个高斯分量的权重,μlg表示第l个语种第g个高斯分量的均值,σlg2表示第l个语种第g个高斯分量的方差;步骤(4):分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量:在所述分子统计量中:零阶分子统计量θlgnum(1)=Σr=1RΣi=1Trγlgrnum(i)·1]]>一阶分子统计量θlgnum(χ)=Σr=1RΣi=1Trγlgrnum(i)·Xr(i)]]>二阶分子统计量θlgnum(χ2)=Σr=1RΣi=1Trγlgrnum(i)·Xr2(i)]]>在所述分母统计量中:零阶分母统计量θlgden(1)=Σr=1RΣi=1Trγlgrden(i)·1]]>一阶分母统计量θlgden(χ)=Σr=1RΣi=1Trγlgrden(i)·Xr(i)]]>二阶分母统计量θlgden(χ2)=Σr=1RΣi=1Trγlgrden(i)·Xr2(i)]]>其中上标“num”代表分子项,上标“den”代表分母项,θ(1)、θ(χ)和θ(χ2)分别代表零阶、一阶和二阶统计量,χ为所述特征向量的随机变量,R为总段数,r=1,2,...,R,Tr为第r段语音的帧数,i=1,2,...,Tr,Xr(i)代表第r段语音的第i帧特征向量的取值,γlgrnum(i)为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,γlgrden(i)为第l个语种分母项中Xr(i)属于第g个高斯分量的后验概率,其中:γlgrnum(i)=γlgr(i),l=lr0,llr]]>γlgrden(i)=γlgr(i)1L(Σl=1Lpλ(Xr|l)Kpλ(Xr|l)K+pλ(Xr|l)K+12),l=lrγlgr(i)1Lpλ(Xr|l)Kpλ(Xr|lr)K+pλ(Xr|l)K,llr]]>其中下标g′是不同于g的高斯分量标号,下标l′是不同于l的语种标号,(Xr(i);μlg,σlg2)表示均值为μlg,方差为σlg2的高斯分布在随机变量取值为Xr(i)时的概率密度,pλ(Xr|l)为第r段语音在第l个语种参数下的条件概率密度K为修正因子,取值为6/Tr,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;零阶分子统计量θlgnum(1)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)之和,一阶分子统计量θlgnum(χ)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)与本帧特征向量的乘积之和,二阶分子统计量θlgnum2)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)与本帧特征向量平方的乘积之和,对于各阶分母统计量依此类推;步骤(5):对步骤(4)中得到的分子统计量进行平滑处理:用θlgnum(1)+τI代替θlgnum(1),用代替θlgnum(χ),用代替θlgnum2),其中τI为平滑因子,取值为100,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(6):由分子统计量和分母统计量计算模型参数μlg和σlg2的更新系数DlgDlg=max{2Dmin,2θlgden(1)}]]>其中Dmin是关于D的一元二次方程的两个解中较大的一个:σlg2D2+[(θlgnum(χ2)-θlgden(χ2))+(θlgnum(1)-θlgden(1))(σlg2+μlg2)-2(θlgnum(χ)-θlgden(χ))μlg]D]]>+[(θlgnum(1)-θlgden(1))(θlgnum(χ2)-θlgden(χ2))-(θlgnum(χ)-θlgden(χ))2]=0]]>对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(7):修正模型参数μlg和σlg2,得到新的模型参数对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(8):设定所有R段语音数据的目标函数为:当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10-5则停止迭代,否则,用代替μlg代替σlg,转步骤(4)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/200910235393.3/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top