[发明专利]一种清浊音分类方法和装置有效
申请号: | 201110052891.1 | 申请日: | 2011-03-04 |
公开(公告)号: | CN102655000A | 公开(公告)日: | 2012-09-05 |
发明(设计)人: | 许丽净 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L11/06 | 分类号: | G10L11/06 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 彭愿洁;李文红 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 浊音 分类 方法 装置 | ||
技术领域
本发明涉及通信技术领域,特别涉及一种清浊音分类方法和装置。
背景技术
在中低编码速率(10kbits/s~32kbits/s)下,语音编码器及音频编码器不能完全适用于语音和音乐混合的内容(mixed contents of speech and music)的编码。语音编码器只考虑到语音信号的特点,对于音乐类的内容(music-like content)的编码效果欠佳;音频编码器是基于心理声学模型设计的,对于语音类的内容(speech-like content)的编码效果欠佳。针对上述问题,运动图像专家组(Moving Picture Experts Group,MPEG)音频组提出一个新的适用于语音和音乐混合的内容的语音音频编码(unified speech and audio coding,USAC)编码器。
USAC编码器的信号分类模块(Signal Classifier)需要输出两组分类结果:
speech/music分类结果(A):分析输入信号属于speech-like content,或是属于music-like content。对于music-like content,选择音频编码器进行编码;对于speech-like content,选择语音编码器进行编码。
voiced/unvoiced分类结果(B):针对speech-like content,进一步分析信号属于清音或是浊音。对于浊音信号,选择代数码激励线性预测(Algebraic Code Excited Linear Prediction,ACELP)编码器;对于清音信号,选择变换编码激励(Transform Coded Excitation,TCX)编码器。
在实现上述分类结果B的过程中,为了确定编码模式,需要将各种可能的编码模式都运行一次,再基于信噪比(signal to noise,SNR)信息选择其一,计算复杂度是相当高,因而编码效率低。
发明内容
本发明实施例要解决的技术问题是提供一种清浊音分类方法和装置,提高编码效率。
一种清浊音分类方法,包括:
接收音频的帧的数据;
对接收到的数据进行音调分量检测得到音调分量;
统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
一种清浊音分类装置,包括:
接收单元,用于接收音频的帧的数据;
检测单元,用于对接收到的数据进行音调分量检测得到音调分量;
统计单元,用于统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;
分类单元,用于根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。
上述技术方案具有如下有益效果:通过对接收到的数据进行音调分量检测得到音调分量;统计所述得到的音调分量获取全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项;根据获取的全频带声压级、高频声压级、音调分量分布的周期性、音调分量分布的连续性中的至少一项确定当前帧属于清音还是浊音。不用试各种可能的编码模式,减少计算复杂度,从而提高编码效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例方法流程示意图;
图2为本发明实施例方法流程示意图;
图3A为本发明实施例时域波形及对应的语谱示例图;
图3B为本发明实施例方法一音调检测结果示例图;
图3C为本发明实施例方法一音调检测结果示例图;
图4A为本发明实施例时域波形及对应的语谱示例图;
图4B为没有去除孤立点的音调检测结果示例图;
图4C为去除孤立点后的音调检测结果示例图;
图5A为时域波形及对应的语谱示例图;
图5B为全频带声压级曲线示例图;
图6A为时域波形及对应的语谱示例图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110052891.1/2.html,转载请声明来源钻瓜专利网。