[发明专利]基于长时特征和短时特征的重叠语音与单人语音区分方法有效
申请号: | 201210442113.8 | 申请日: | 2012-11-07 |
公开(公告)号: | CN102968986A | 公开(公告)日: | 2013-03-13 |
发明(设计)人: | 李艳雄;陈祝允;贺前华;李广隆;杜佳媛;吴伟;王梓里 | 申请(专利权)人: | 华南理工大学 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/06;G10L25/03 |
代理公司: | 广州市华学知识产权代理有限公司 44245 | 代理人: | 蔡茂略 |
地址: | 510640 广东省广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种基于长时特征和短时特征的重叠语音与单人语音区分方法,包括如下步骤:读入语音;语音预处理,包括预加重、分帧、加窗;提取短时特征参数,从每帧语音中提取各种短时特征参数;提取长时特征参数,计算短时特征参数的统计特征;训练高斯混合模型:采用期望最大化算法训练四个高斯混合模型;模型融合判决:从测试语音中提取短时特征参数和长时特征参数分别作为短时特征模型和长时特征模型的输入,将这两种模型的输出概率进行加权得到总的概率输出值,根据该概率输出值的大小将测试语音判为重叠语音或单人语音,实现两者的区分。与采用短时特征的方法相比,本方法取得了更好的区分效果,区分准确率平均提高了5.9%。 | ||
搜索关键词: | 基于 特征 重叠 语音 单人 区分 方法 | ||
【主权项】:
一种基于长时特征和短时特征的重叠语音与单人语音区分方法,其特征在于,包括如下步骤:S1读入语音:读入记录有重叠语音或单人语音的语音文件;S2语音预处理:对读入的语音文件进行预加重、分帧、加窗;S3提取短时特征:从经过预处理的语音帧中提取短时特征,所述短时特征包括梅尔频率倒谱系数及其一阶差分、短时能量、过零率,将提取的短时特征拼接得到短时特征矩阵;S4提取长时特征:计算短时特征矩阵的统计特征,所述统计特征包括均值、最大值、最小值、中值、均方差,得到长时特征矩阵;S5训练高斯混合模型:采用EM算法训练四个高斯混合模型,包括单人语音的短时特征模型、单人语音的长时特征模型、重叠语音的短时特征模型、重叠语音的长时特征模型;S6模型融合判决:将短时特征矩阵和长时特征矩阵分别输入短时特征模型和长时特征模型,所述短时特征模型包括单人语音的短时特征模型和重叠语音的短时特征模型,长时特征模型包括单人语音的长时特征模型和重叠语音的长时特征模型,并将这两种模型的输出概率进行加权得到总的概率输出值,根据总的概率输出值将测试语音判为重叠语音或单人语音,实现重叠语音与单人语音的区分。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201210442113.8/,转载请声明来源钻瓜专利网。