[发明专利]一种智能语音处理方法有效
| 申请号: | 201410081493.6 | 申请日: | 2014-03-05 |
| 公开(公告)号: | CN103811020A | 公开(公告)日: | 2014-05-21 |
| 发明(设计)人: | 王义;魏阳杰;陈瑶;关楠 | 申请(专利权)人: | 东北大学 |
| 主分类号: | G10L21/0272 | 分类号: | G10L21/0272;G10L15/07 |
| 代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 梁焱 |
| 地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | 本发明一种智能语音处理方法,属于信息处理技术领域,本发明通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音;与传统助听器不同,该方法可以根据用户个人需求从而自动为用户提供其所需的声音,减少了除噪音外的非目标人声的干扰,体现了该方法的个性化、互动化和智能化。 | ||
| 搜索关键词: | 一种 智能 语音 处理 方法 | ||
【主权项】:
1.一种智能语音处理方法,其特征在于,包括以下步骤:步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;具体过程如下:步骤1-1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型;模型公式如下:p ( XIG ) = Σ i = 1 M p i b i ( X ) - - - ( 1 ) ]]> 其中,p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率;G表示高斯混合模型参数集,G={pi,μi,∑i},i=1,2,...,I;I表示高斯混合模型中单一高斯模型个数;pi表示第i个单一高斯模型的权重系数,
μi表示第i个单一高斯模型的均值矢量;∑i表示第i个单一高斯模型的协方差矩阵;X表示样本语音特征参数,X={x1,x2,...,xT},T表示特征向量的个数;bi(X)表示第i个单一高斯模型的密度函数,bi(X)=N(μi,∑i),N(.)表示标准高斯分布的密度函数;步骤1-2、利用语音信号特征参数训练高斯混合模型;即采用k均值聚类算法对语音信号特征参数进行聚类,获得高斯混合模型参数集初始值G0={pi0,μi0,∑i0},i=1,2,...,I;并根据获得的高斯混合模型参数集初始值,采用最大期望算法对模型进行估计,进而获得高斯混合模型参数,即完成特征参数的训练;步骤2、采用M个麦克风组成的麦克风阵列采集被测环境音频信号,确定该环境声音源个数和每个声音源波束到达的方向,即声源到麦克风阵列的入射角度;具体过程如下:步骤2-1、采用M个麦克风组成的麦克风阵列采集被测环境的混合音频信号,并对采集的混合音频信号进行离散化处理,获得每个采样点的幅值;步骤2-2、将每个采样点的幅值进行矩阵化,获得每个麦克风采集到的混合音频矩阵;上述混合音频矩阵的列数为一,行数为采样点个数,矩阵中元素为每个采样点的幅值;步骤2-3、根据每个麦克风采集到的混合音频矩阵和麦克风个数,获得被测环境的混合音频信号的矢量协方差矩阵的估计值;矢量协方差矩阵的估计值公式如下:R xx = 1 M Σ m = 1 M X ( m ) X H ( m ) - - - ( 2 ) ]]> 其中,Rxx表示被测环境的混合音频信号的矢量协方差矩阵的估计值;X(m)表示第m个麦克风采集到的混合音频矩阵;XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵;步骤2-4、对矢量协方差矩阵的估计值进行特征值分解,获得特征值,并对特征值从大到小进行排序,确定特征值大于阈值的个数,即为声音源的个数;步骤2-5、将麦克风个数减去声音源个数获得噪音源个数,进而对应获得噪音矩阵;步骤2-6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量,再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数;混合音频信号的角度谱函数公式如下:P ( θ ) = 1 α H ( θ ) V u V H u α ( θ ) - - - ( 3 ) ]]> 其中,P(θ)表示混合音频信号的角度谱函数;α(θ)表示麦克风阵列的导向矢量,α(θ)=(α1(θ),...,αm(θ),...,αM(θ)),其中,
j表示虚数单位,k=2π/λ,λ表示混合音频信号的波长,dm表示第m个麦克风与阵列中心的距离,
表示第m个麦克风对于阵列中心的方向角度;θ表示声音源的波束到达方向;αH(θ)表示麦克风阵列的导向矢量的转置矩阵;Vu表示噪音矩阵;VHu表示噪音矩阵的转置矩阵;步骤2-7、根据混合音频信号的角度谱函数的波形,由大到小选取该波形的多个峰值,选择峰值的个数即为声音源的个数;步骤2-8、确定选取峰值对应的角度值,即获得每个声音源的波束到达方向;步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系,获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度;麦克风阵列声压信号公式如下:p w ( t ) = Σ n = 1 N 0.5 Σ m = 1 M h mn ( t ) s n ( t ) - - - ( 4 ) ]]> 其中,pw(t)表示t时刻麦克风阵列声压;N表示声音源个数;t表示时间;sn(t)表示第n个声音源的音频信号;hmn(t)表示第n个声音源与第m个麦克风之间的转换矩阵,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t时刻由声波造成的麦克风阵列中心声压;αm(θn(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量,其中,θn(t)表示t时刻第n个声音源的波束到达方向;麦克风阵列水平方向声压梯度公式如下:
其中,px(t)表示麦克风阵列水平方向声压梯度;麦克风阵列垂直方向的声压梯度公式如下:
其中,py(t)表示麦克风阵列垂直方向的声压梯度;步骤4、采用傅里叶变换将麦克风阵列中心声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度从时域转换到频域;步骤5、根据频域内的麦克风阵列声压、麦克风阵列水平方向梯度和麦克风阵列垂直方向声压梯度,获得频率域内的声压信号的强度矢量公式,进而推导出强度矢量方向;频率域内的声压信号的强度矢量公式为:I ( ω , t ) = 1 ρ 0 c [ Re { p w * ( ω , t ) p x ( ω , t ) } u x + Re { p w * ( ω , t ) p y ( ω , t ) } u y ] - - - ( 7 ) ]]> 其中,I(ω,t)表示频率域内的声压信号的强度矢量;ρ0表示被测环境空气密度;c表示声速;Re[.]表示取复数实部;pw*(ω,t)表示频域内的麦克风阵列声压的共轭矩阵;px(ω,t)表示频域内的麦克风阵列水平方向声压梯度;py(ω,t)表示频域内的麦克风阵列垂直方向声压梯度;ux表示横坐标轴方向单位矢量;uy表示纵坐标轴方向单位矢量;强度矢量方向公式如下:γ ( ω , t ) = tan - 1 [ Re { p w * ( ω , t ) p y ( ω , t ) } p w * ( ω , t ) p x ( ω , t ) ] - - - ( 8 ) ]]> 其中,γ(ω,t)表示麦克风阵列接收到的混合声音的声压信号的强度矢量方向;步骤6、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音强度矢量方向服从混合冯米修斯分布的模型参数,进而得到每个声压信号的强度矢量方向函数;具体过程如下:步骤6-1、对强度矢量方向进行统计获得其概率密度分布,采用混合冯米修斯分布进行拟合,获得语音的强度矢量方向服从的混合冯米修斯分布的模型参数集;所述的混合冯米修斯分布模型公式如下:g ( θ ) = Σ n = 1 N α n f ( θ ; k n ) - - - ( 10 ) ]]> 其中,
表示混合冯米修斯分布概率密度;αn表示第n个声音源的声压信号的强度矢量方向函数的权重;
其中,I0(kn)表示第n个声音源对应的一阶修正贝塞尔函数,kn表示第n个声音源声压信号的强度矢量方向服从的单一冯米修斯分布对应的浓度参数,即冯米修斯分布的方差的倒数;混合冯米修斯分布函数参数集如下:Γ={αn,kn},i=1,..,N (11)步骤6-2、初始化模型参数,获得初始函数参数集;步骤6-3、根据获得的初始模型参数,采用最大期望算法估计得到混合冯米修斯分布模型的参数;步骤6-4、根据估计得到的混合冯米修斯分布模型参数,求得每个声压信号的强度矢量方向函数;
表示混合声音方向角度;声压信号的强度矢量方向函数公式如下:I n ( θ ; ω , t ) = α n f ( θ ; k n ) - - - ( 12 ) ]]> 其中,
表示第n个声音源的强度矢量方向函数;步骤7、根据得到的每个声压信号的强度矢量方向函数和麦克风阵列声压,获得每个声音源在频率域信号,并采用傅里叶反变换将该频域中的每个声源信号转换为时域内的声源信号;每个声音源在频域中的信号公式如下:s ~ n ( ω , t ) = p w ( ω , t ) I n ( θ ; ω , t ) - - - ( 13 ) ]]> 其中,
(ω,t)表示混合语音分离后得到的第n个声源信号的频率域信号;将
经过傅里叶反变换得到时域信号
步骤8、计算每个声音源信号与样本语音库中指定声音源的匹配概率,选择概率值最大的声音源为目标声音源,保留该声音源信号,删除其他非目标声音源;每个声音源信号与样本语音库中指定声音源的匹配概率公式如下:C ( X ~ n ) = log [ P ( X ~ n | G c ) ] - - - ( 14 ) ]]> 式中:
表示由分离后语音
提取的语音特征参数,即提取语音
的梅尔频率倒谱系数作为语音
的特征参数;
表示第n个声音源信号与样本语音库中指定声音源的匹配概率;Gc表示用户指定人的声音模型参数;
表示分离后语音属于用户指定人声音的概率;步骤9、对保留的声音源信号进行放大,即完成在被测环境中对指定声音源的放大。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410081493.6/,转载请声明来源钻瓜专利网。
- 上一篇:图片处理方法及系统
- 下一篇:教育资源综合服务处理系统





