[发明专利]信号复杂度和编码速率选择的映射实现方法有效
申请号: | 201210100679.2 | 申请日: | 2012-04-09 |
公开(公告)号: | CN102610234A | 公开(公告)日: | 2012-07-25 |
发明(设计)人: | 严勤;周云春 | 申请(专利权)人: | 河海大学 |
主分类号: | G10L19/08 | 分类号: | G10L19/08;G10L19/10;G10L15/06 |
代理公司: | 南京经纬专利商标代理有限公司 32200 | 代理人: | 艾中兰 |
地址: | 210098 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 信号 复杂度 编码 速率 选择 映射 实现 方法 | ||
1.一种信号复杂度和编码速率选择的映射实现方法,其特征在于包含如下五个过程:
A. 特征提取:提取音频输入信号的特征参数集,基于该特征参数集为输入音频信号导出特征矢量;
B. MOS值提取:建立编码质量的MOS值数据库;
C. 聚类:对A步骤得到的特征矢量样本进行聚类处理,得到特征聚类码本;
D. 对应:建立C步骤得到的类别与编码速率的对应关系,得到信号复杂度与编码速率的映射关系码本;
E. 测试:测试D步骤得到的码本是否有效。
2.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法,其特征在于特征提取过程包含以下步骤:
A1. 在提取特征之前,首先将音频信号转换成数字形式,即将wav形式的音频文件通过一定的采样率对其进行采样,得到一系列离散的采样点;
A2. 将数字形式的音频信号分帧,即通过计算一定时间内包含多少个采样点来划分帧,分
帧的时间随特征的特性而定,长时特征的帧长以秒为数量级,而短时特征的帧长以毫秒为数量级;
A3. 从数字形式的音频信号样本帧中计算要提取的特征;
A4. 把该特征参数集转换成该帧的特征矢量输出。
3.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法,其特征在于MOS值提取过程包含的步骤如下:
B1. 转换音频格式,包括音频的位速、采样大小、采样频率和音频格式,以使音频文件能够被AMR-WB+编码器识别;
B2. 读取步骤B1得到的特定格式的音频,将每段音乐切割成若干片段;
B3. 将B2步骤得到的音频片段,用encoder编码器和decoder解码器对每个片段分别编解码,再用改进的PEAQ算法器衡量得到每个片段的编码质量MOS值;
B4. 用encoder编码器编码时,AMR-WB+编码速率的范围为5.2-36kbit/s,用不同的速率都重复B3步骤,最后得到不同速率下所得的编码质量MOS值。
4.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法,其特征在于聚类过程包含以下步骤:
C1. 将步骤A得到的特征矢量集转换成htk格式;
C2. 利用HTK工具包中的Hquant训练工具对C1得到的数据进行聚类,得到特征聚类码本。
5.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法,其特征在于对应过程包含以下步骤:
D1. 根据C过程得到的特征聚类码本,判定音频信号每帧所在的类别,并记录每帧在各个预定编码速率下的MOS值;
D2. 统计每个类别的每个编码速率下各个MOS值区间内的样本数占总样本数的比例;
D3. 根据D2得到的比例数据,得到映射关系码本,里面记录的是每个类别要达到特定编码质量MOS值需要的编码速率。
6.如权利要求1所述的信号复杂度和编码速率选择的映射实现方法,其特征在于测试过程包含以下步骤:
E1. 用不同于步骤A中的音频信号进行步骤A,B,得到音频信号的特征矢量和实际编码速率下的MOS值;
E2. 根据特征聚类码本,判定每帧音频信号所在的类别,然后根据映射关系码本,用该类别下达到目标MOS值所需的预定编码速率对其编解码,得到预定编码速率下的编码质量MOS值;
E3. 对比实际编码速率下的MOS值和预定编码速率下的MOS值,测试出映射关系码本的效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210100679.2/1.html,转载请声明来源钻瓜专利网。