[发明专利]一种音频降噪方法和装置在审
申请号: | 202010803652.4 | 申请日: | 2020-08-11 |
公开(公告)号: | CN111916103A | 公开(公告)日: | 2020-11-10 |
发明(设计)人: | 孙学京;王松;郭红阳 | 申请(专利权)人: | 南京拓灵智能科技有限公司;北京时代拓灵科技有限公司 |
主分类号: | G10L21/04 | 分类号: | G10L21/04;G10L21/0208 |
代理公司: | 北京知呱呱知识产权代理有限公司 11577 | 代理人: | 孙志一 |
地址: | 210042 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明实施例公开了一种音频降噪方法和装置,包括获取待处理的预先经过采样处理的原音频信号;将所述原音频信号输入至预先训练的分层扩展网络模型进行计算,得到降噪后的降噪音频信号。本发明采用分层扩展网络模型,根据输入的音频信号的采样率,帧长的不同进行降噪处理的方法。该方法能够适应不同带宽和复杂度的系统降噪处理,解决了不同采样率,不同的帧长的信号降噪的不灵活性和不易扩展性,针对输入音频信号各种参数的不同进行降噪处理,在提高网络鲁棒性的同时有效保证音频信号的质量。 | ||
搜索关键词: | 一种 音频 方法 装置 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京拓灵智能科技有限公司;北京时代拓灵科技有限公司,未经南京拓灵智能科技有限公司;北京时代拓灵科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202010803652.4/,转载请声明来源钻瓜专利网。
- 上一篇:一种牧业用饲料混料装置
- 下一篇:一种通信方法及装置
- 同类专利
- 分布式麦克风的音频同步方法、装置和存储介质-202211296909.7
- 郭锦文;杨海军 - 深圳看到科技有限公司
- 2022-10-21 - 2023-01-20 - G10L21/04
- 本发明提供一种分布式麦克风的音频同步方法、装置和存储介质,基于麦克风发出音频信号到主机接收该音频信号的时间差,对处于不同位置的多个麦克风的音频信号进行时间修正,使得多个音频信号在时间上趋于同步,再根据经过时间修正后的多个音频信号的特征信息,将多个音频信号归一到包含最多大音量特征的音频信号,得到最终的音频信号;可以使得分布式麦克风的音频信号同步输出,收音效果好。
- 一种增益平稳调节的动态范围控制方法及系统-202010767816.2
- 王青云;梁瑞宇;余兵;唐闺臣;包永强;谢跃 - 南京工程学院
- 2020-08-03 - 2022-03-01 - G10L21/04
- 本发明公开了一种增益平稳调节的动态范围控制算法及系统,涉及音频信号处理技术领域,根据实际动态范围控制程度的需要,给定增益曲线相关参数,参数包括过渡段的起始点、过渡段的带宽及压缩段的斜率,通过求出过渡段曲线方程的未知参数,进而得出整个增益曲线;根据输入语音信号的幅度大小及增益曲线确定实时增益,通过期望增益和实际增益的平稳调节,确保参与运算的增益平稳变化。本发明的方法通过数据缓存,进一步确保增益能够跟上当前点数据对增益的需要,使得结果准确,与经典DRC算法相较,本发明所用方法的突出优势在于能够较小失真地对原始音频信号进行缩放处理,不会对后续功能模块造成影响。
- 一种音频降噪方法和装置-202010803652.4
- 孙学京;王松;郭红阳 - 南京拓灵智能科技有限公司;北京时代拓灵科技有限公司
- 2020-08-11 - 2020-11-10 - G10L21/04
- 本发明实施例公开了一种音频降噪方法和装置,包括获取待处理的预先经过采样处理的原音频信号;将所述原音频信号输入至预先训练的分层扩展网络模型进行计算,得到降噪后的降噪音频信号。本发明采用分层扩展网络模型,根据输入的音频信号的采样率,帧长的不同进行降噪处理的方法。该方法能够适应不同带宽和复杂度的系统降噪处理,解决了不同采样率,不同的帧长的信号降噪的不灵活性和不易扩展性,针对输入音频信号各种参数的不同进行降噪处理,在提高网络鲁棒性的同时有效保证音频信号的质量。
- 语音数据的调整方法及装置-201510511487.4
- 史巍;刘丹;刘建敏 - 中兴通讯股份有限公司
- 2015-08-19 - 2020-10-16 - G10L21/04
- 本发明提供了一种语音数据的调整方法及装置,其中,该方法包括:获取待处理的语音数据中指定帧的参数信息,以及指定帧的第一目标拉伸或压缩长度,其中,指定帧的参数信息包括:基音周期、第一帧长度、第一修正值;计算第一目标拉伸或压缩长度和第一修正值的和得到第二目标拉伸或压缩长度;依据第二目标拉伸或压缩长度和基音周期计算得到调整参数,其中,调整参数用于指示对指定帧进行拉伸或压缩的长度;依据调整参数对指定帧的长度进行调整得到第二帧长度和第二修正值,并根据第二修正值更新执行拉伸或压缩操作的指定帧的下一帧的修正值,解决了相关技术中每帧拉伸/压缩比例不能实时改变,且拉伸/压缩比例不能从整体上把控的技术问题。
- 抖动缓冲器控制器、音频解码器、方法及计算机可读存储介质-201480046466.3
- 斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔 - 弗劳恩霍夫应用研究促进协会
- 2014-06-18 - 2019-09-13 - G10L21/04
- 一种用于基于输入音频内容来控制对已解码音频内容的提供的抖动缓冲器控制器配置为按照信号自适应方式选择基于帧的时间缩放或基于样本的时间缩放。音频解码器使用这种抖动缓冲器控制器。
- 使用质量控制的时间缩放器、音频解码器、方法和计算机程序-201910588534.3
- 斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔;尼古拉斯·费伯尔 - 弗劳恩霍夫应用研究促进协会
- 2014-06-18 - 2019-09-06 - G10L21/04
- 一种用于提供输入音频信号的时间缩放版本的时间缩放器配置为计算或估计可通过对所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本的质量。所述时间缩放器配置为取决于可通过对所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计,来执行所述输入音频信号的时间缩放。一种音频解码器包括这种时间缩放器。
- 时间缩放器、音频解码器、方法和计算机可读存储介质-201480046485.6
- 斯蒂芬·雷乌施;斯蒂芬·朵拉;热雷米·勒康特;曼努埃尔·扬德尔;尼古拉斯·费伯尔 - 弗劳恩霍夫应用研究促进协会
- 2014-06-18 - 2019-09-06 - G10L21/04
- 一种用于提供输入音频信号的时间缩放版本的时间缩放器配置为计算或估计可通过对所述输入音频信号的时间缩放获得的所述输入音频信号的时间缩放版本的质量。所述时间缩放器配置为取决于可通过对所述时间缩放获得的所述输入音频信号的时间缩放版本的质量的所述计算或估计,来执行所述输入音频信号的时间缩放。一种音频解码器包括这种时间缩放器。
- 子带处理单元以及生成合成子带信号的方法-201410461177.1
- 拉尔斯·维尔默斯 - 杜比国际公司
- 2011-01-05 - 2017-09-01 - G10L21/04
- 本文档涉及子带处理单元以及生成合成子带信号的方法。子带处理单元包括块提取器、非线性帧处理单元以及重叠及相加单元。块提取器被配置为重复地根据多个复值分析样本得出L个输入样本的帧,其中块提取器被配置为根据反映所述输入音频信号的瞬间声学性质的控制数据来设置帧长度L;以及在得出L个输入样本的接下来的帧之前对多个复值分析样本应用p个样本的块跳跃大小由此生成输入样本的一系列帧。非线性帧处理单元被配置为根据输入样本的帧确定经处理样本的帧。重叠及相加单元被配置为通过将经处理样本的一系列帧的样本进行重叠及相加来确定合成子带信号,其中分析子带信号与关于输入音频信号被时间拉伸和/或频率换位的信号的频带相关联。
- 子带处理单元以及生成合成子带信号的方法-201410461154.0
- 拉尔斯·维尔默斯 - 杜比国际公司
- 2011-01-05 - 2017-05-31 - G10L21/04
- 本文档涉及子带处理单元以及生成合成子带信号的方法。子带处理单元包括第一块提取器、第二块提取器、非线性帧处理单元和重叠及相加单元。第一块提取器被配置为重复地根据多个第一分析样本得出L个第一输入样本的帧;帧长度L大于1;以及在得出L个第一输入样本的接下来的帧之前,对多个第一分析样本应用p个样本的块跳跃大小;由此生成L个第一输入样本的一系列帧。第二块提取器被配置为通过对多个第二分析样本应用块跳跃大小p来得出第二输入样本的一系列帧;其中,每个第二输入样本对应于第一输入样本的帧。
- 语音信号复原装置以及语音信号复原方法-201180073679.1
- 细谷耕佑;古田训;山浦正 - 三菱电机株式会社
- 2011-12-27 - 2014-05-28 - G10L21/04
- 音源生成部(101)根据未进行噪声抑制处理的窄频带语音信号生成包括所复原的频带的微细构造的音源信号。另一方面,噪声抑制部(102)对窄频带语音信号进行噪声抑制,谱包络推测部(103)推测所复原的频带的谱包络。信号合成部(104)合成音源信号和谱包络来生成虚拟语音信号,带通滤波器部(105)使所复原的频带的虚拟语音信号通过,信号加法部(106)对窄频带语音信号相加所复原的频带的虚拟语音信号而生成宽频带的语音复原信号。
- 改进的谐波转置-201310475634.8
- 佩尔·埃克斯特兰德;拉尔斯·法尔克·维尔默斯 - 杜比国际公司
- 2010-03-12 - 2014-02-05 - G10L21/04
- 本发明涉及在时间上和/或频率上对信号进行转置,尤其涉及音频信号的编码。更具体地,本发明涉及包括频域谐波转置器的高频重建(HFR)方法。描述了用于使用转置因子T从输入信号生成转置的输出信号的方法和系统。该系统包括:长度La的分析窗,其提取输入信号的帧;以及M阶的分析变换单元,其将样本变换成M个复数系数。M是转置因子T的函数。该系统还包括:非线性处理单元,其通过使用转置因子T来改变复数系数的相位;M阶的合成变换单元,其将改变的系数变换成M个改变的样本;以及长度Ls的合成窗,其生成输出信号的帧。
- 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码-201210491652.0
- 斯特凡·拜尔;萨沙·迪施;拉尔夫·盖格尔;纪尧姆·福克斯;马克斯·诺伊恩多夫;杰拉尔德·舒勒;贝恩德·埃德勒 - 弗劳恩霍夫应用研究促进协会
- 2009-07-06 - 2013-03-27 - G10L21/04
- 音频编码器包括窗口函数控制器(504)、加窗器(502)、具有最终质量检查功能的时间扭曲器(506)、时间/频率转换器(508)、TNS级(510)或量化器编码器(512),由时间扭曲分析器(516)或信号分类器(520)获得的信号分析结果来控制所述窗口函数控制器(504)、所述时间扭曲器(506)、所述TNS级(510)或附加的噪声填充分析器(524)。此外,解码器使用取决于音频信号的谐波或语音特性的经操纵的噪声填充估计来应用噪声填充操作。
- 一种基于音频特征的数字音频延展方法-201110177195.3
- 王朝坤;王建民;汪浩;刘璋 - 清华大学
- 2011-06-28 - 2013-01-02 - G10L21/04
- 本发明提供了一种基于音频特征的数字音频延展方法,在数字音频时域延展前,根据乐曲段落的相似性在乐曲中选择合适的位置插入音频片段,保证插入操作后音频片段之间自然衔接。在插入操作后,通过计算音频片段的延展抗性找出最优的可延展片段进行适度延展,重复进行至达到延展要求,最大限度地降低音频延展对于音频质量的影响,保证整首乐曲在延展后的播放效果,由于乐曲在被延展后听觉效果与原乐曲接近,没有破坏乐曲的欣赏性。
- 基于短时连续非负矩阵分解的语音时长调整方法-201210335362.7
- 张雄伟;吴海佳;黄建军;陈卫卫;赵改华;李铁南 - 中国人民解放军理工大学
- 2012-09-11 - 2013-01-02 - G10L21/04
- 本发明公开了一种基于短时连续非负矩阵分解的语音时长调整方法,该方法首先使用短时连续非负矩阵分解算法将语音幅度谱分解为基矩阵与编码矩阵;保持基矩阵不变,按语音时长调整比例,对编码矩阵进行线性内插;通过基矩阵和线性内插处理后的编码矩阵合成时长调整后的语音幅度谱;最后,利用波形估计算法从时长调整后的语音幅度谱重构出时长调整后的语音波形。本发明提升了语音时长调整的性能,改善了时长调整后语音的质量。
- 专利分类