[发明专利]生成心理声学模型的方法及装置有效

申请号：	201010123999.0	申请日：	2010-02-26
公开（公告）号：	CN102169694A	公开（公告）日：	2011-08-31
发明（设计）人：	马鸿飞;郭泽华;夏雨;许丽净	申请（专利权）人：	华为技术有限公司;西安电子科技大学
主分类号：	G10L19/02	分类号：	G10L19/02;G10L19/00
代理公司：	北京三高永信知识产权代理有限责任公司 11138	代理人：	何文彬
地址：	518129 广东***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	生成心理声学模型方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及音频处理技术领域，特别涉及一种生成心理声学模型的方法及装置。

背景技术

为了用尽可能低的编码速率传输或尽可能少的数据存储宽带高保真音频信号，高质量高效音频编码算法扮演了重要的角色。为了达到较高的压缩编码增益或压缩比，音频编码算法须采用感知编码算法，而音频信号的感知编码算法的基础是心理声学模型。心理声学模型是在研究人类听觉系统基础上抽象出来的反映人类听觉感知特性的数学模型，它反映了人类听觉系统对音频及噪声的感知和掩蔽能力。

现有技术一提供的MPEG(Moving Pictures Experts Group，动态图像专家组)音频心理声学模型II是应用于MPEG-1和2的第三层(即MP3)的心理声学模型，采用FFT(Fast Fourier Transform，快速傅立叶变换)进行时频分析，并利用了感知熵的概念，使心理声学分析更加的准确合理。

现有技术二提供的3Gpp HE-AAC心理声学模型配合3Gpp HE-AAC编码器的特点，将时频分析由FFT(Fast Fourier Transform，快速傅立叶变换)改为MDCT(Modified Discrete Cosine Transform，修正离散余弦变换)，使得心理声学模型与编码器可以重用MDCT变换。

在实现本发明的过程中，发明人发现现有技术至少存在以下缺点：

现有技术一的硬件实现成本高、功耗大，且由于该模型采用FFT进行时频分析，因此无法重用编码器的MDCT变换结果，导致算法复杂度较高，不易实现；现有技术二由于没有分析信号的音调特性及非音调特性，导致量化效率降低。

发明内容

为了解决现有心理声学模型的算法复杂度高、不易实现、硬件实现成本高、功耗大等问题，以及提高量化效率，本发明实施例提供了一种生成心理声学模型的方法及装置。

本发明实施例提供一种生成心理声学模型的方法，包括：

以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析，得到MDCT频域参数；

根据所述MDCT频域参数计算谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络，并根据所述谱平坦测度函数、频谱局部最大主导分量扩展包络和频谱局部最小主导分量平均包络计算局部掩蔽门限；

根据所述局部掩蔽门限，生成并输出全局掩蔽门限。

本发明实施例还提供一种生成心理声学模型的装置，包括：

时域分析模块，用于以修正离散余弦变换MDCT对输入的时域音频信号帧进行时频分析，得到MDCT频域参数；

第一计算模块，用于根据所述时域分析模块得到的MDCT频域参数计算谱平坦测度函数；

第二计算模块，用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最大主导分量扩展包络；

第三计算模块，用于根据所述时域分析模块得到的MDCT频域参数计算频谱局部最小主导分量平均包络；

局部掩蔽门限计算模块，用于根据所述第一计算模块计算得到的所述谱平坦测度函数、所述第二计算模块计算得到的频谱局部最大主导分量扩展包络和所述第三计算模块计算得到的频谱局部最小主导分量平均包络计算局部掩蔽门限；

全局掩蔽门限计算模块，用于根据所述局部掩蔽门限计算模块计算得到的所述局部掩蔽门限，生成并输出全局掩蔽门限。

本发明实施例提供的技术方案的有益效果是：

本实施例提供的技术方案通过采用谱平坦测度函数计算局部掩蔽门限，实现对音频信号的音调掩蔽特性及非音调掩蔽特性进行区分处理，从而可以更合理地分配量化比特数，有效地提高量化效率；且由于采用修正离散余弦变换对输入的时域音频信号帧进行时频分析，可以降低生成心理声学模型的复杂度，易于硬件实现。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一提供的生成心理声学模型的方法流程图；

图2是本发明实施例二提供的心理声学模型输入输出关系示意图；

图3是本发明实施例二提供的生成心理声学模型的方法流程图；

图4是本发明实施例二提供的时域音频信号示意图；

图5是本发明实施例二提供的MDCT变换功率谱示意图；

图6是本发明实施例二提供的临界频带与频率的关系示意图；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;西安电子科技大学，未经华为技术有限公司;西安电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201010123999.0/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]生成心理声学模型的方法及装置有效

专利文献下载