[发明专利]一种基于正态分布规律的矢量量化方法有效

专利信息
申请号: 201710083683.5 申请日: 2017-02-16
公开(公告)号: CN106898357B 公开(公告)日: 2019-10-18
发明(设计)人: 贺前华;蔡梓文;王亚楼 申请(专利权)人: 华南理工大学
主分类号: G10L19/012 分类号: G10L19/012;G10L19/032;G10L25/18;G10L25/51
代理公司: 广州市华学知识产权代理有限公司 44245 代理人: 郑浦娟
地址: 510640 广*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于正态分布规律的矢量量化方法,在码本生成中,首先将训练样本集的特征中心作为初始码字,然后再对初始码字进行码字分裂,当码字为非首次分裂时,将各码字的码字宽度和隶属于各码字中的训练样本数作乘积,将上述乘积最大的L个码字选取出来作为待分裂码字,得到新的码字均值,实现码字分裂,在码字每完成一次分裂后,进入数据划分阶段;数据划分时将各码字描述为正态分布,计算每个训练样本对各个码字隶属度,划分胞腔更新码字;判断量化失真度是否收敛,若否,继续数据划分;若是,则判断码字总量是否达到一定值,若否,则继续码字分裂,若是,则输出最终码本。本发明方法能够提高码字分裂准确性,降低了矢量量化的误差。
搜索关键词: 一种 基于 正态分布 规律 矢量 量化 方法
【主权项】:
1.一种基于正态分布规律的矢量量化方法,包括码本生成过程、码本搜索过程和码本索引分配过程,其特征在于,所述码本生成过程具体如下:S1、预处理:对获取到的音频信号进行静音检测,提取出非静音音频信号,并且对非静音音频信号进行分帧处理,将分帧处理得到的每帧非静音音频信作为训练样本,组成训练样本集;S2、提取训练样本集中每个训练样本的频谱特征,计算出训练样本集的特征中心,并且将训练样本集的特征中心作为初始码字;然后进入步骤S3;S3、码字分裂:判断当前码字分裂是否为初次分裂;若是,则对初始码字进行随机分裂,在随机分裂后进入步骤S5;若否,则进入步骤S4;S4、确定分裂的码字及其分裂方向和尺度,分裂得到新的码字,具体过程如下:S41、定义各码字ci的码字宽度δi为各码字ci中所有维度归一化后的方差乘积;取定值L,判断当前存在的码字总量是否大于L;若否,则将当前存在的所有码字选取出来作为待分裂码字;若是,将各码字ci的码字宽度δi和隶属于各码字中ci的训练样本数Ni作乘积,然后将上述乘积以从大到小的顺序排名前L的对应L个码字选取出来作为待分裂码字;S42、计算训练样本集中各训练样本与上述选取出的各待分裂码字之间的距离,将计算出的最大距离对应的训练样本和待分裂的码字所构成的直线方向作为码字的分类方向,并将其归一化矢量记为w;S43、根据当前存在的码字总量I、选取出的各待分裂码字的均值以及步骤S42中获取到的归一化矢量w确定新的码字的均值,从而得到分裂后的码字:其中Xh为选取出的待分裂码字ch的均值矢量,δh为选取出的待分裂码字ch的码字宽度,Xh′为计算得到的新的码字的均值矢量;S44、进入步骤S5;S5、数据划分,具体如下:S51、首先采用最近邻原则对训练样本集进行首次量化分类,划分胞腔,根据得到的胞腔更新码字,然后进入步骤S52;S52、接着用正态分布描述各码字,然后根据正态分布描述的码字计算训练样本集中每个训练样本对各个码字的隶属度,根据每个训练样本对各个码字的隶属度划分胞腔,根据得到的胞腔更新码字,然后进入步骤S53;S53、计算量化失真度,判断量化失真度是否收敛;若是,则停止数据划分,然后进入步骤S6;若否,则返回步骤S52;具体操作如下:S6、判断当前存在的码字总量I是否大于等于定值M;若否,当前存在的码字总量I小于定值M,则回到步骤S3;若是,则输出最终的码本;所述码本搜索过程,对于获取到的需要进行矢量量化的音频信号,首先进行静音检测,提取出非静音的各段音频信号,然后对上述各段音音频信号进行分帧处理,并且提取出上述各段音音频信号中各帧音频信号的频谱特征;其中对于非静音的各段音音频信号中各帧音频信号,考虑语音的准平稳特性,将当前帧音频信号的量化结果受制约于上一帧音频信号的量化结果,具体操作如下:S71、对于s段音频信号中的第一帧音频信号的特征参数值f=1,采用K邻近准则量化,量化码字对应为S72、对于s段音频信号中的第f帧音频信号的特征参数值f>1,计算其隶属于码本中各个码字的隶属度,将得到的最大的K各隶属度对应的码字选取出来,其中选取出来的码字分别为对于s段音频信号中的第f帧音频信号的量化结果码字根据下述原则确定其总量化失真度量及来源:其中表示s段音频信号中的第f帧音频信号对应量化结果为码字时的量化误差;其中表示s段音频信号中的第f‑1帧音频信号对应量化结果为码字时的量化误差,码字表示s段音频信号中的第f‑1帧音频信号其中一个量化结果;Ts为s段音频信号的总帧数;其中其中表示码字和码字之间的距离度量,为码字和码字之间的距离度量,其中p=1,2,...K,表示s段音频信号中的第f‑1帧音频信号其中一个量化结果;εlk为一修正常数,该值与s段音频信号中的第f帧音频信号对应量化结果码字和s段音频信号中的第f‑1帧音频信号对应量化结果码字之间的距离度量成正相关;表示s段音频信号中的第f帧音频信号与码字之间的距离度量;其中其中为码字的均值矢量,为码字的方差矢量;S73、对于s段音频信号中的各帧音频信号的各个量化结果码字通过步骤S72依次求取s段音频信号中的各帧音频信号的总量化失真度量及来源S74、k取1,2,...,K,然后从中选取最小的一个作为s段音频信号中最后一帧音频信号的特征参数值的量化失真度;最后根据该最小的量化失真度,通过步骤S72中的总量化失真度量及来源公式依次反索确定s段音频信号中各帧音频信号的特征参数值对应的最小的量化失真度,从而根据各最小的量化失真度确定s段音频信号各帧音频信号的量化结果;所述码本索引分配过程具体如下:S81、对量化后的每段音频信号,分别作为样本,定义第g段样本的关联码字为该段样本中每一帧音频信号关联码字的并集,用集合表示;其中,定义为第g段样本第f帧音频信号的量化结果,包括K个隶属码字及相应的隶属度值;Lg表示第g段样本的帧数;用集合A={A1,A2...AG}表示所有量化后数据的关联码字信息,G为量化后的音频信号的总段数;S82、首先统计当前各码字的隶属度之和,即集合A中,与各码字关联的各样本的音频信号帧对各码字的隶属度之和;选择隶属度最大的码字并且存入最大码字集合Cmax中,即此时最大码字集合S83、根据码字对集合A进行第一次筛选,得到集合A(1),使得集合A(1)中量化结果对应的样本至少有一帧是隶属于的最大码字S84、统计集合A(b),b≥1中量化结果对应的样本隶属于除当前最大码字集合Cmax中的码字之外的其他码字,并且从这些码字中选择隶属度之和最大的一个码字b≥1,然后存入最大码字集合Cmax中,即此时最大码字集合根据码字对集合A(b)进行筛选,得到集合A′(b),使得集合A′(b)中量化结果对应的样本至少有一帧是隶属于码字的;S85、判断步骤S84当前获取到的集合A′(b)量化结果所对应的样本数是否小于预设值F(F为常数);若否,则b加1后返回大步骤S84;若是,则将集合A′(b)量化结果对应的样本作为目标样本,即索引样本,此时集合A′(b)量化结果对应的样本同时隶属于当前最大码字集合中的各个最大码字。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华南理工大学,未经华南理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201710083683.5/,转载请声明来源钻瓜专利网。

同类专利
  • 一种基于正态分布规律的矢量量化方法-201710083683.5
  • 贺前华;蔡梓文;王亚楼 - 华南理工大学
  • 2017-02-16 - 2019-10-18 - G10L19/012
  • 本发明公开了一种基于正态分布规律的矢量量化方法,在码本生成中,首先将训练样本集的特征中心作为初始码字,然后再对初始码字进行码字分裂,当码字为非首次分裂时,将各码字的码字宽度和隶属于各码字中的训练样本数作乘积,将上述乘积最大的L个码字选取出来作为待分裂码字,得到新的码字均值,实现码字分裂,在码字每完成一次分裂后,进入数据划分阶段;数据划分时将各码字描述为正态分布,计算每个训练样本对各个码字隶属度,划分胞腔更新码字;判断量化失真度是否收敛,若否,继续数据划分;若是,则判断码字总量是否达到一定值,若否,则继续码字分裂,若是,则输出最终码本。本发明方法能够提高码字分裂准确性,降低了矢量量化的误差。
  • 一种网络话机柔和噪声产生的方法-201610996520.1
  • 丁海忠;何延伟;叶成竞 - 南京汉隆科技有限公司
  • 2016-11-13 - 2019-09-03 - G10L19/012
  • 本发明公开一种网络话机柔和噪声产生的方法,在不改变标准协议的情下,采用在白噪声中加入了随机自适应码本和随机固定码本,通过检测负载包信号源是否为活性语音或非活性语音,在经过噪声解码和线性预测编码计算后产生语音信号模型,再经过线性预测滤波器产生柔和的噪声,本技术方案的效果能较好的反映实际环境的背景噪声,使听觉上感觉具有连续性和稳定性。
  • 用于音频编码中的DTX拖尾的方法和装置-201811579562.0
  • 斯蒂芬·布鲁恩;托马斯·詹森托夫特戈德;马丁·绍尔斯戴德 - 瑞典爱立信有限公司
  • 2013-12-12 - 2019-07-12 - G10L19/012
  • 提供了用于音频编码的发送节点和接收节点及其中的方法。所述节点可操作以对话音进行编码/解码并且在话音非活动期间应用不连续传输(DTX)方案,该DTX方案包括发送/接收静音插入描述符(SID)帧。发送节点中的方法包括:从多个(N个)拖尾帧中确定代表背景噪声的帧集合Y,以及还向接收节点发送N个拖尾帧,所述N个拖尾帧至少包括所述帧集合Y。该方法还包括:与发送N个拖尾帧相关联地向接收节点发送第一SID帧,其中,第一SID帧包括向接收节点指示所确定的拖尾帧集合Y的信息。该方法使接收节点能够基于最适合于该目的的拖尾帧生成舒适噪声。
  • 信号编码方法及设备-201610819333.6
  • 王喆 - 华为技术有限公司
  • 2013-05-30 - 2019-04-19 - G10L19/012
  • 本发明实施例提供了信号编码方法及设备。该方法包括:在当前输入帧的前一帧的编码方式为连续编码方式的情况下,预测在当前输入帧被编码为SID帧的情况下解码器根据当前输入帧生成的舒适噪声,并确定实际静音信号,其中当前输入帧为静音帧;确定舒适噪声与实际静音信号的偏离程度;根据偏离程度,确定当前输入帧的编码方式,当前输入帧的编码方式包括拖尾帧编码方式或SID帧编码方式;根据当前输入帧的编码方式,对当前输入帧进行编码。本发明实施例中,通过根据舒适噪声与实际静音信号的偏离程度确定当前输入帧的编码方式为拖尾帧编码方式或SID帧编码方式,能够节省通信带宽。
  • 非激活音信号参数估计方法及舒适噪声产生方法及系统-201210037152.X
  • 江东平;袁浩 - 南京中兴软件有限责任公司
  • 2012-02-17 - 2017-06-06 - G10L19/012
  • 本发明公开了非激活音信号参数估计方法及舒适噪声产生方法及系统,针对非激活音信号帧,将包含所述非激活音信号帧的时域信号的序列进行时频变换,得到频谱序列,根据此频谱序列计算频谱系数,对所述频谱系数进行平滑处理,根据所述经过平滑处理后的频谱系数计算得到平滑处理后的频谱序列,对此平滑处理后的频谱序列进行时频反变换得到重构的时域信号,根据所述重构的时域信号进行非激活音信号参数估计,得到频谱参数和能量参数。本方案可以在非稳态背景噪声情况下提供平稳的背景噪声参数,尤其是在激活音检测判断准确的情况下,可以在舒适噪声产生系统中较好的消除解码端合成的舒适噪声中的人工杂音。
  • 信号编码方法及设备-201510662031.8
  • 王喆 - 华为技术有限公司
  • 2013-05-30 - 2017-05-10 - G10L19/012
  • 本发明实施例提供了信号编码方法及设备。该方法包括在当前输入帧的前一帧的编码方式为连续编码方式的情况下,预测在当前输入帧被编码为SID帧的情况下解码器根据当前输入帧生成的舒适噪声,并确定实际静音信号,其中当前输入帧为静音帧;确定舒适噪声与实际静音信号的偏离程度;根据偏离程度,确定当前输入帧的编码方式,当前输入帧的编码方式包括拖尾帧编码方式或SID帧编码方式;根据当前输入帧的编码方式,对当前输入帧进行编码。本发明实施例中,通过根据舒适噪声与实际静音信号的偏离程度确定当前输入帧的编码方式为拖尾帧编码方式或SID帧编码方式,能够节省通信带宽。
  • 一种多分辨率音频信号处理方法及装置-201511030282.0
  • 凌永权;肖均;邝伟潮;张小志;苏静;李志光 - 广东工业大学;李志光
  • 2015-12-30 - 2016-11-16 - G10L19/012
  • 本发明公开了一种多分辨率音频信号处理方法及装置,所述方法,包括:对子信号进行离散傅里叶变换,得到第一级序列;在所述第一级序列中插入零点;对所述插入零点后的第一级序列进行离散傅里叶反变换;对所述离散傅立叶反变换后的第一级序列进行分解,得到多个第二级的本征模特函数;对每个第二级的本征模特函数进行离散傅立叶变换,得到第二级的本征模特函数的序列;移除第二级的本征模特函数在零点插入处的系数,得到变短的第二级本征模特函数的序列;对每个变短的第二级本征模特函数的序列进行离散傅立叶反变换,得到最终的第二级的本征模特函数。本发明的多分辨率音频信号处理方法及装置,能够减少分解次数及能量损失。
  • 空间舒适噪声-201310081933.3
  • 格伦·N·迪金斯;孙学京;许元良;海科·普尔哈根 - 杜比实验室特许公司
  • 2013-03-14 - 2014-09-17 - G10L19/012
  • 本发明涉及空间舒适噪声。本发明涉及一种方法、设备、逻辑(例如,在非临时性计算机可读介质中编码的以用于执行方法的可执行指令)、以及配置有这种指令的非临时性计算机可读介质。该方法用于在会议系统的接收终端处生成空间舒适噪声并在空间上渲染空间舒适噪声,使得舒适噪声具有舒适噪声的典型目标谱特征以及与至少一个目标空间属性至少基本上匹配的至少一个空间属性。一个版本包括接收来自其他终端的一个或更多个音频信号,将所接收到的音频信号与空间舒适噪声信号组合,以及将所接收到的音频信号和空间舒适噪声信号的组合渲染成用于扬声器的一组信号,使得除了来自接收到的音频信号的输出之外,空间舒适噪声信号也持续地存在于输出信号中。
  • 用于使用瞬态检测及质量结果将音频信号的部分编码的装置与方法-201280014994.1
  • 克里斯蒂安·黑尔姆里希;纪尧姆·富克斯;戈兰·马尔科维奇 - 弗兰霍菲尔运输应用研究公司
  • 2012-02-13 - 2014-01-01 - G10L19/012
  • 一种用于编码音频信号的部分(10)以获得该音频信号的部分的编码音频信号(26)的装置,其包含:瞬态检测器(12),其检测瞬态信号是否位于音频信号的部分中,以获得瞬态检测结果(14);编码器级(16),其针对音频信号执行第一编码算法、以及针对音频信号执行第二编码算法,第一编码算法具有第一特性,第二编码算法具有不同于第一特性的第二特性;处理器(18),其确定何种编码算法相对于另一编码算法使得编码音频信号更近似于音频信号的部分,以获得质量结果(20);以及控制器(22),其基于瞬态检测结果(14)和质量结果(20),确定要由第一编码算法或要由第二编码算法来产生音频信号的部分的编码音频信号。
  • 音频信号音轨脉冲位置的编码与译码-201280016442.4
  • 汤姆·贝克斯特伦;纪尧姆·福奇斯 - 弗兰霍菲尔运输应用研究公司
  • 2012-02-10 - 2013-12-18 - G10L19/012
  • 提出一种用以译码一编码音频信号的装置,其中,一或多个音轨是与该编码音频信号相关联,这些音轨中的每一者具有多个音轨位置及多个脉冲。该装置包含一脉冲信息译码器(110)及一信号译码器(120)。该脉冲信息译码器(110)是适用以译码多个脉冲位置,其中这些脉冲位置中的每一者指示这些音轨中的一者的这些音轨位置中的一者来指示该音轨的这些脉冲中的一者的位置,及其中该脉冲信息译码器是经配置来藉由使用指示这些音轨中的至少一者的音轨位置总数的一音轨位置数目、指示这些音轨中的至少一者的脉冲总数的一总脉冲数目、及一个状态数目而译码这些多个脉冲位置。该信号译码器(120)是适用于藉由使用这些多个脉冲位置及与该编码音频信号相关联的多个预测滤波器系数而产生一合成音频信号来译码该编码音频信号。
  • 音频数据的处理方法、装置和系统-201110455836.7
  • 王喆 - 华为技术有限公司
  • 2011-12-30 - 2013-07-03 - G10L19/012
  • 本发明公开了一种音频数据的处理方法、装置和系统,属于通信技术领域。所述方法包括:获取音频信号的噪声帧,并将所述当前噪声帧分解为噪声低带信号和噪声高带信号;以第一非连续传输机制编码传输所述噪声低带信号;以第二非连续传输机制编码传输所述噪声高带信号。本发明通过对高带信号和低带信号不同的处理方式,可以在不降低编解码器主观质量的前提下节省计算复杂度和编码比特,节省下的比特可达到降低传输带宽或用于提高整体编码质量的目的。
  • 舒适噪声生成方法及舒适噪声生成器-201110338950.1
  • 谢单辉;许云峰;曹一鸣 - 联芯科技有限公司
  • 2011-11-01 - 2013-05-08 - G10L19/012
  • 本发明涉及通信领域,公开了一种舒适噪声生成方法及舒适噪声生成器。本发明中,不再对增益因子和LPC系数分别进行估计,而且结合LPC系数及目标能量,共同估计该增益因子,从而尽可能保证背景噪声和生成的舒适噪声的能量接近,解决了舒适噪声生成器所生成的噪声与实际背景噪声之间的能量不匹配问题,进而使得生成的舒适噪声能量更加贴近背景噪声,提高了主观感受。
  • 一种进行语音自适应非连续传输的方法及装置-201110216374.3
  • 顾彩霞;袁浩;江东平;黎家力 - 中兴通讯股份有限公司
  • 2011-07-29 - 2013-01-30 - G10L19/012
  • 本发明公开了一种进行语音自适应非连续传输的方法及装置,此方法包括:在进行语音自适应非连续传输中,根据当前的语音信号帧和上一静音插入描述帧的频谱信息决定是否发送静音插入描述帧。本方案可以克服现有技术中的采用固定间隔方式不能灵活跟踪信号变化,采用可变间隔方式又必须有线性预测等多参数的计算导致计算复杂度高的缺点。本方案直接在频域进行,能很好地跟踪信号的变化,在保持较低平均码率的同时保证音质。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top