[发明专利]基于卷积循环网络和WPE算法的语音增强混合处理方法在审

专利信息
申请号: 202110607848.0 申请日: 2021-06-01
公开(公告)号: CN115424627A 公开(公告)日: 2022-12-02
发明(设计)人: 侯仲舒;卢晶 申请(专利权)人: 南京大学
主分类号: G10L21/02 分类号: G10L21/02;G10L21/0216;G10L25/27;G10L25/30
代理公司: 江苏法德东恒律师事务所 32305 代理人: 李媛媛
地址: 210046 江苏*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于卷积循环网络和WPE算法的语音增强混合处理方法。该方法的步骤为:(1)使用清晰语音数据集、噪声数据集以及房间冲激响应数据集合成模拟含噪混响语音;(2)对模拟含噪混响语音和对应的清晰语音分别做短时傅里叶变换得到两者的短时傅里叶谱;(3)使用短时傅里叶谱训练DPCARN‑WPE模型权重;(4)对待增强的含噪混响语音做短时傅里叶变换得到短时傅里叶谱;(5)将含噪混响语音短时傅里叶谱输入完成训练的模型,得到增强语音的短时傅里叶谱;(6)对增强语音的短时傅里叶谱进行逆短时傅里叶变换。本发明能够在强混响、低信噪比、非稳态噪声等多种复杂噪声场景下对语音进行增强,鲁棒性较高。
搜索关键词: 基于 卷积 循环 网络 wpe 算法 语音 增强 混合 处理 方法
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京大学,未经南京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/202110607848.0/,转载请声明来源钻瓜专利网。

同类专利
  • 语音增强模型的训练方法、装置、电子设备和存储介质-202311042065.8
  • 鲍枫 - 腾讯科技(北京)有限公司
  • 2023-08-17 - 2023-10-27 - G10L21/02
  • 本申请涉及人工智能技术领域,尤其涉及一种语音增强模型的训练方法、装置、电子设备和存储介质,方法包括:在初始语音增强模型的每次迭代训练中,通过输入层提取待增强语音信号的第一音频特征;通过频带压缩层,将第一音频特征进行频带压缩,获得降维后的第二音频特征;通过特征映射层,采用循环迭代的方式对第二音频特征进行特征映射,获得第三音频特征,在循环迭代过程中,特征映射层的输出通道数逐次递增;将第三音频特征输入输出层,获得预估增益信息,并结合真实增益信息,对初始语音增强模型进行调参。本申请可以保证训练后的模型的处理效果,同时,降低运算复杂度,以提高运算速度,从而满足实时运算要求,提高通信体验。
  • 一种融合噪声场景的通信增强方法、系统及存储介质-202310447988.5
  • 吴建锋;严军荣;项灵剑 - 三维通信股份有限公司
  • 2023-04-24 - 2023-10-27 - G10L21/02
  • 本发明公开了一种融合噪声场景的通信增强方法、系统及存储介质,方法包括:根据噪声数据信息构建噪声场景识别模型;根据说话人信息和噪声场景识别模型构建融合噪声的预训练模型;根据融合噪声的预训练模型和说话人语音数据构建去噪模型;根据去噪模型处理说话人的通信语音数据得到增强后的语音。本发明解决了现有通信前端语音增强算法的幅度相位不匹配和对噪声场景泛化能力不足的问题。
  • 一种基于DCCTN网络模型的语音增强方法、系统及设备-202310796316.5
  • 孙畅;杨宏;覃波;张凡 - 公安部第一研究所
  • 2023-07-02 - 2023-10-27 - G10L21/02
  • 本发明公开了一种基于DCCTN网络模型的语音增强方法、系统及设备。该语音增强方法包括如下步骤:采集语音数据构建带噪语音数据集;构建DCCTN网络模型,对语音信号进行分帧、压缩、频带维度和音频帧维度特征提取、生成掩膜和解码还原等处理;采用训练集数据对DCCTN网络模型进行充分训练;采用测试集数据对DCCTN网络模型进行测试和评估。本发明充分关注频谱特征的上下文关联,同时在两层级Transformer结构中引入了高斯权重矩阵,使网络模型能根据场景需求调节掩膜在不同频带的权重,显著提升了语音增强效果。
  • 音频提取方法、装置、设备及存储介质-202311045708.4
  • 顾容之;罗艺 - 腾讯科技(深圳)有限公司
  • 2023-08-18 - 2023-10-27 - G10L21/02
  • 本申请公开了一种音频提取方法、装置、设备及存储介质,属于音频分析技术领域。所述方法包括:获取多个输入音频的时频特征;根据多个输入音频的时频特征确定角度分布特征;将第一输入音频的时频特征在频域维度上按照K个频带进行切分,得到K个频带对应的时频子特征;将角度分布特征在频域维度上按照K个频带进行切分,得到K个频带对应的角度分布子特征;对K个频带对应的时频子特征以及K个频带对应的角度分布子特征进行特征提取;根据K个频带对应的特征提取结果提取第一输入音频在指定角度范围内的输出音频。本申请针对时频特征和角度分布特征均进行频带切分,因此能够针对不同频带单独分析音区提取得到的输出音频,可提升音区提取的性能。
  • 音频降噪的方法和系统-202080103925.2
  • 郑金波;周美林;廖风云;齐心 - 深圳市韶音科技有限公司
  • 2020-12-28 - 2023-10-27 - G10L21/02
  • 本说明书提供的音频降噪的方法和系统,能够以音频信号的频率为单位,根据频率相关的参数,生成各个频率单元对应的增益系数,并使用增益系数分别对每个频率单元进行增益处理。所述方法和系统能够使包含有效音频信号越多的频率单元对应的增益系数越大,包含有效音频信号更少的频率单元对应的增益系数越小,从而使得包含有效音频信号更多的频率部分对应的音频信号被更多地保留,而包含有效音频信号较少的频率部分对应的音频信号被较少地保留,从而提高音频信号质量,在降噪的同时,提升音频信号的保真度和可懂度。
  • 语音信号处理方法、装置及计算机可读存储介质-202210323692.8
  • 容韦聪 - 深圳海翼智新科技有限公司
  • 2022-03-30 - 2023-10-24 - G10L21/02
  • 本申请公开了一种语音信号处理方法、装置及计算机可读存储介质,该方法包括可先对待处理信号进行第一处理得到第一特征,根据第一特征确定待处理信号的第一信噪比;接着对待处理信号进行第二处理得到第二特征,根据第二特征确定待处理信号的第二信噪比;并对待处理信号的第一信噪比以及第二信噪比进行处理,得到待处理信号的目标信噪比。通过对待处理信号进行两种不同的计算方式分别得到两个信噪比,再结合该两个信噪比综合确定目标信噪比的方式,可有效提高计算出待处理信号的信噪比的准确性,进而保障了用户的信号处理体验。
  • 一种信息处理方法和装置-202110281157.6
  • 张银平;杨琳;汪俊杰 - 联想(北京)有限公司
  • 2021-03-16 - 2023-10-24 - G10L21/02
  • 本发明公开了一种信息处理方法和装置,包括:以各个区域为单位,对电子设备采集到的第一语音信号进行语音增强处理,获得各个区域分别对应的第二语音信号;根据各个区域分别对应的第二语音信号进行语音激活处理,获得被激活的至少一个候选区域;对候选区域后续对应的第三语音信号进行语音增强处理,获得对应候选区域的第四语音信号;若确定第二语音信号与第四语音信号属于同一个目标对象,则对候选区域进行细粒度划分调整;根据细粒度划分调整结果更新第一规则。通过多次对目标对象的语音信号增强、激活和区域细粒度调整处理,可逐步精确目标对象的方向位置,从而能提高后续的语音激活性能以及语音交互体验。
  • 语音处理方法、装置、终端及介质-201910752247.1
  • 鲍枫 - 腾讯科技(深圳)有限公司
  • 2019-08-15 - 2023-10-24 - G10L21/02
  • 本发明实施例提供了一种语音处理方法、装置、终端及介质,其中,所述方法包括:获取第一增强语音信号和第二增强语音信号,所述第一增强语音信号和所述第二增强语音信号分别为对含噪语音信号进行增强处理所得到;对所述第一增强语音信号和第二增强语音信号进行融合,得到融合增强语音信号;对所述融合增强语音信号进行谐波恢复,得到谐波语音信号。可见,通过实施本申请,可以提高谐波恢复的精确性和合理性。
  • 一种融合降噪与对抗防御的语音增强方法、装置、设备及介质-202310900865.2
  • 张雄伟;李毅豪;孙蒙;邹霞;贾冲 - 中国人民解放军陆军工程大学
  • 2023-07-20 - 2023-10-20 - G10L21/02
  • 本发明公开了一种融合降噪与对抗防御的语音增强方法、装置、设备及介质,获取待增强的语音波形数据;将所述语音波形数据输入预先构建并训练好的基于融合降噪与对抗防御的SEADNet增强模型中,获得所述语音的增强结果;其中,所构建的SEADNet增强模型包括可学习加噪掩蔽模块、语音增强网络和对抗样本判别模块;所述SEADNet增强模型是基于样本语音数据集并以语音增强损失和对抗防御损失的总损失最小为目标训练获得的。本发明能够有效去除语音中的噪声的同时降低对抗扰动的影响,进一步提高语音的感知质量和可懂度。
  • 音频处理方法和装置-202310163454.X
  • T-C·佐里拉;R·S·多迪帕特拉 - 株式会社东芝
  • 2023-02-16 - 2023-10-20 - G10L21/02
  • 本文中说明的实施例涉及音频处理方法和装置。一种用于处理音频信号以增强音频信号的目标分量的方法,所述方法包括:接收包含第一环境中的目标分量的第一音频信号;处理所述第一音频信号以提取第二音频信号,第二音频信号包含第二环境中的所述目标分量,第二环境的噪声小于第一环境;以及将第一音频信号与第二音频信号混合以产生第三音频信号,第三音频信号包含提取的目标分量。
  • 语音增强模型训练方法、语音处理方法、装置及设备-202310520832.5
  • 崔子豪;张世磊;高莹莹;陈亚楠 - 中国移动通信有限公司研究院;中国移动通信集团有限公司
  • 2023-05-10 - 2023-10-20 - G10L21/02
  • 本发明提供了一种语音增强模型训练方法、语音处理方法、装置及设备。该方法包括:对原语音训练数据进行纯净度估计,得到所述原语音训练数据的语音纯净度;基于所述语音纯净度对所述原语音训练数据进行加噪处理,得到处理后的语音训练数据;学习所述处理后的语音训练数据与估计的纯净语音数据之间的映射关系,得到训练后的语音增强模型。该方法通过采用包括纯净语音数据和含噪语音数据的原语音训练数据,能够扩展语音训练数据集的数量以及范围,降低数据获取成本,并且能使训练的语音增强的适用范围更广,而且通过语音纯净度估计,使数据无需预先标注即可进行网络训练,从而降低了标注产生的成本。
  • 语音增加方法、系统、装置及存储介质-202010424011.8
  • 鄢戈;王飞;唐浩元;王佳珺;王欢良 - 苏州奇梦者网络科技有限公司
  • 2020-05-19 - 2023-10-20 - G10L21/02
  • 本发明涉及一种语音信号的处理方法,尤其是语音增强方法,包括以下步骤:S10、音频采集;S20、筛选有效语音信号;S30、初步增强语音;S40、筛选目标语音;S50、再次增强语音信号;S60、唤醒词检测,将再次增强的语音送入高精度的唤醒词检测模型中进行唤醒词检测,当检测到唤醒词时进入S70,否则返回S20;S70、持续增强语音,对通过唤醒词检测的语音进行持续增强,然后将增强后的语音送入识别端进行识别。本发明提供的语音增强方法可以有效的降低计算开销,即使在有强噪声场景下也能较准确的进行识别任务。适合应用在环境较复杂且计算资源有限的本地端。
  • 声学回声消除电路及骨传导设备-202320180576.5
  • 郭锦培 - 浙江艾克斯精灵人工智能科技有限公司
  • 2023-01-18 - 2023-10-20 - G10L21/02
  • 本实用新型实施例公开了一种声学回声消除电路及骨传导设备。该声学回声消除电路包括:回声消除模块、回声信号采集模块、振动信号采集模块和拾音器;其中,回声信号采集模块与回声消除模块的第一参考信号输入端电连接,回声信号采集模块用于采集骨导发声器的驱动信号并将驱动信号传输给第一参考信号输入端;振动信号采集模块与拾音器的安装结构固定连接,以及与回声消除模块的第二参考信号输入端电连接;拾音器与回声消除模块的近端输入端电连接。通过本实用新型,解决了相关技术中骨导设备的麦克风采集到的声音信号噪音大的问题,达到了有效地消除掉骨导振动对麦克风上行信号的振动干扰,提升最终上行信号质量的技术效果。
  • 一种基于DFSMN模型的语音增强方法、装置和设备-202310850216.6
  • 张海剑;孙思雨;陈佳佳 - 武汉大学
  • 2023-07-11 - 2023-10-13 - G10L21/02
  • 针对现有的算法参数量和计算量较大的问题,本发明公开了一种基于DFSMN模型的语音增强方法、装置和设备,包括短时傅里叶变换模块、编码器模块、双路径DFSMN模块、掩码估计模块和短时傅里叶逆变换模块,其中短时傅里叶变换模块用于将带噪语音转化为复数谱,编码器模块用于将带噪语音复数谱转化为多尺度编码特征,双路径DFSMN模块用于对特征进行时间维度和频率维度建模,解码器用于对特征降维,掩码估计模块用于估计增强语音掩码。本发明具有较少的参数量和计算量,并且实现了较好的语音增强效果,有较强的实用性。
  • 麦克风阵列语音的增强方法、及其相关设备-201911349602.7
  • 魏有权 - 深圳市三诺数字科技有限公司
  • 2019-12-24 - 2023-10-13 - G10L21/02
  • 本发明涉及信号处理技术领域,提供了一种麦克风阵列语音的增强方法、及其相关设备,所述麦克风阵列语音的增强方法包括:通过麦克风阵列获取待增强的声音信号;基于预设数据模型对所述声音信号进行标准化处理,得到标准信号;根据预设特征提取规则对所述标准信号进行特征提取,获取特征信号;将特征信号导入到波束形成器中进行优化处理,输出优化信号;利用后置双滤波的方式对优化信号进行噪声抑制,得到目标信号;对目标信号进行短时傅里叶逆变换及数据重构,输出时域目标信号。本发明的技术方案实现对麦克风阵列语音的增强,提高用户获取麦克风阵列语音的准确性。
  • 一种基于多注意力机制的单通道语音增强方法-202310795845.3
  • 高盛祥;莫尚斌;余正涛 - 昆明理工大学
  • 2023-07-01 - 2023-10-10 - G10L21/02
  • 本发明涉及一种基于多注意力机制的单通道语音增强方法,属于音频信号处理技术领域。本发明在复数U‑Net网络中引入复数Conformer对语音幅度和相位的相关性进行建模,利用三维度注意力机制构造更加丰富的特征来增强卷积层的表示能力,通过门控注意力机制融合语音细节特征和深层特征。该方法能提高语音质量和可理解性,可用于嘈杂环境中的语音通信,口令控制及与语音相关任务的前处理部分。在公开数据集上的实验结果表明,所提方法在五种客观评价指标PESQ、CSIG、CBAK、COVL、STOI上,分别取得了的3.09、4.28、3.47、3.72、95.07评测结果,可有效降低噪声、提高语音质量和可理解性。
  • 声源定位及语音增强方法、装置-202311055231.8
  • 罗本彪;邹灵琦;董鹏宇;居彩霞;尹东 - 上海富瀚微电子股份有限公司
  • 2023-08-21 - 2023-10-10 - G10L21/02
  • 本发明公开了一种声源定位及语音增强方法、装置,属于音频信号处理技术领域,该声源定位方法,包括以下步骤:对多个麦克风进行两两配对,根据麦克风对的位置、所需的定位精度获得至少部分的所述麦克风对中两个麦克风之间的频域相位补偿斜率张量;基于所述频域相位补偿斜率张量计算至少部分的所述麦克风对的频域互相关系数;使用分位数法扫描待拾取的空间范围,将各所述频域互相关系数之和最大的位置记为目标位置。通过设置相应的增益因子和补偿因子作用在求和结果和差分结果上,从而分别解决低频指向性差和环境噪声的问题,且可以灵活选择麦克风对的组合,提升定位效果和语音增强效果。
  • 一种基于循环生成对抗网络的骨导语音增强方法-202310516882.6
  • 陈喆;殷福亮;王伟 - 大连理工大学
  • 2023-05-09 - 2023-09-29 - G10L21/02
  • 本发明公开了一种基于循环生成对抗网络的骨导语音增强方法,具体包括:在训练阶段提取骨导语音和相应气导语音的梅尔倒谱系数送入构建好的循环生成对抗网络进行训练,保存训练好的循环生成对抗网络中生成器的网络参数。在应用阶段将待增强的的骨导语音信号利用WORLD声码器提取基频,梅尔倒谱系数和非周期性参数等三种特征,利用训练阶段完成后保存的生成器网络参数构建特征映射模型,将其中的梅尔倒谱系数输入训练好的神经网络模型进行映射,将映射后的梅尔倒谱系数与骨导语音的基频和非周期性参数特征经WORLD声码器的语音合成功能获得增强后的骨导语音。
  • 一种语音识别方法、系统、车辆和存储介质-202210278863.X
  • 陈小龙 - 博泰车联网(南京)有限公司
  • 2022-03-21 - 2023-09-29 - G10L21/02
  • 本申请提供一种语音识别方法及系统、车辆和存储介质,语音识别方法包括:响应于获取到语音命令信息,获取喇叭的工作状态信息;在所述喇叭的工作状态信息满足预设条件时,以预设策略对所述语音命令信息进行语音识别。本申请提供的语音识别方法及系统、车辆和存储介质能够动态检测车机的音频播放器的工作状态,来确定消噪过程中是否采集参考信号进行语音识别功能的消噪,以保证异常情况下的语音识别准确率。
  • 定向音频增强方法、装置、存储介质及电子设备-202310890074.6
  • 顾容之;罗艺 - 腾讯科技(深圳)有限公司
  • 2023-07-20 - 2023-09-29 - G10L21/02
  • 本申请实施例公开定向音频增强方法、装置、存储介质及电子设备,该方法根据各种麦克风阵列允许使用的间距信息计算方向融合特征,通过这一方向融合特征涵盖了各种可行间距条件下对于音频输入信号,进行针对目标方向的音频增强所需的信息。根据该方向融合特征对音频输入信号进行目标方向的定向音频增强。这一方法的优势在于对各种可能间距条件下的音频增强场景都可以进行音频增强处理,并且可以达到较好的音频增强效果,从而解决音频定向增强能力差,适用范围窄的问题。该方法基于定向音频增强模型实施,该定向音频增强模型可为各种可能间距条件下的音频增强场景提供音频增强服务,具备很好的泛化能力,解决了定向音频增强模型泛化能力差的问题。
  • 一种语音增强方法、装置及存储介质-202110540097.5
  • 王杰;田嘉怡;袁旻忞 - 广州大学
  • 2021-05-18 - 2023-09-26 - G10L21/02
  • 本发明公开了一种语音增强方法、装置及存储介质,本发明通过将纯净语音数据输入判别网络进行训练,使得判别网络的输出结果表征真实结果,得到判别网络模型,根据噪声语音数据对生成网络进行训练,得到生成网络模型;生成网络模型的输出结果输入至判别网络模型使得判别网络模型的输出结果表征真实结果,通过引入生成对抗网络保证生成网络模型输出结果为所需要的真实结果,从而使得待处理语音输入生成网络模型后得到的增强语音为去除噪声的纯净语音;而通过时域卷积网络对判别网络以及生成网络中的至少一个进行训练,可以使得所训练过程稳定,训练过程中能够保留更加长期的记忆且更加灵活。本发明作为可广泛应用于语音处理领域。
  • 语音信号的处理方法及装置-201911024108.3
  • 鲍枫 - 腾讯科技(深圳)有限公司
  • 2019-10-25 - 2023-09-15 - G10L21/02
  • 本申请的实施例提供了一种语音信号的处理方法,包括:对语音信号进行语音预增强生成第一信号,所述语音信号包括含噪语音信号;对所述第一信号进行整流生成第二信号;根据所述第一信号和所述第二信号构建第三信号;基于所述语音信号、所述第一信号、所述第三信号确定目标增益因子;基于所述目标增益因子对所述语音信号进行处理,不仅实现了语音增强,而且减少了谐波的损失。
  • 语音信号的增强处理方法、装置、设备及存储介质-202011180004.4
  • 鲍枫;李岳鹏 - 腾讯科技(深圳)有限公司
  • 2020-10-29 - 2023-09-15 - G10L21/02
  • 本申请公开了一种语音信号的增强处理方法、装置、设备及存储介质,属于音视频技术领域。所述方法包括:获取目标语音信号;采用参考语音增强方式对目标语音信号进行增强处理,得到参考增强信号;根据参考增强信号,确定目标语音增强方式;采用目标语音增强方式对目标语音信号进行增强处理。本申请实施例提供的技术方案实现了结合语音信号的信号特点有针对性地确定实际采用的语音增强方式,相比于相关技术采用固定的语音增强方式无法做到针对语音信号的不同情况做出区别处理,本申请实施例在语音信号增强的过程中,充分考虑语音信号的信号特点,有助于准确有效地增强语音信号,提升语音信号的增强效果。
  • 一种语音增强方法、装置、电子设备及存储介质-202310943949.4
  • 张立军;朱哲慧;孟德建 - 同济大学
  • 2023-07-28 - 2023-09-08 - G10L21/02
  • 本发明涉及一种语音增强方法、装置、电子设备及存储介质,其中,语音增强方法包括:提取待增强混合语音数据的语音特征图谱以及待增强混合语音数据所对应的视频数据的视觉特征图谱;根据语音特征图谱,获取混合语音数据的信噪比数据和端点检测数据;根据信噪比数据,确定融合权重;采用融合权重,对语音特征图谱、视觉特征图谱和端点检测数据进行融合,获取融合特征;获取融合特征的融合特征图谱;对融合特征图谱进行解码处理,获取增强语音数据。与现有技术相比,本发明具有语音增强质量好、可懂度高、在宽信噪比范围下的鲁棒性和泛化能力强等优点。
  • 一种语音增强方法和系统-202180088314.X
  • 肖乐;张承乾;廖风云;齐心 - 深圳市韶音科技有限公司
  • 2021-05-27 - 2023-09-08 - G10L21/02
  • 本说明书提供一种语音增强方法。所述方法包括:获取目标语音的第一信号和第二信号,所述第一信号为基于第一位置采集的所述目标语音的信号,所述第二信号为基于第二位置采集的所述目标语音的信号;基于目标语音位置、所述第一位置和所述第二位置,处理所述第一信号和所述第二信号以确定第一系数;基于所述第一信号和所述第二信号,确定与多个声源方向有关的多个参数,每个参数对应从一个声源方向发出声音以形成所述第一信号和所述第二信号的概率;基于所述多个参数和所述目标语音位置,确定第二系数;以及基于所述第一系数和所述第二系数,处理所述第一信号和/或第二信号以获取所述目标语音对应的语音增强后的第一输出语音信号。
  • 一种端到端的骨气导语音联合增强方法-202011612056.4
  • 王谋;张晓雷;王逸平 - 西北工业大学
  • 2020-12-30 - 2023-09-08 - G10L21/02
  • 本发明公开了一种端到端的骨气导语音联合增强方法,首先同步录制气导语音和骨导语音,添加环境噪声后构造数据集;接下来构建端到端的神经网络模型,包括编码器、掩膜估计器和解码器;通过神经网络模型将带噪声的气导语音和骨导语音转化为一个单通道的语音信号;使用训练集和验证集的数据用Adam优化器对端到端的神经网络模型进行训练,直到SI‑SNR的值不再增大时,停止训练,得到最终端到端的神经网络模型。本方法相比传统的只利用气导的语音信号或者单纯骨导语音进行增强,联合增强的语音质量和可懂度都有大幅的提升,同时语音识别的错误率也显著下降。
  • 一种基于U-Net的高性能单通道语音增强算法-202310394728.6
  • 吴德钦;冉启海;王明江 - 宇思半导体技术(深圳)有限公司
  • 2023-04-13 - 2023-09-05 - G10L21/02
  • 本发明提供一种基于U‑Net的高性能单通道语音增强算法,包括如下步骤:1)使用相位编码器将复值得频谱转换到实数域;2)使用输入卷积层提取特征并改变通道数;3)使用编码器、颈部模块和解码器搭建的主网络对语音进行增强和降噪处理;4)使用输出卷积层得到掩模,生成增强后的估计语音频谱。本发明基于流行的U‑Net网络结构,以编码器‑解码器的框架,应用频谱掩模的方法,实现了一种针对复杂噪声、混响环境的高性能单通道语音增强算法。
  • 一种语音增强方法和系统-202180068601.4
  • 肖乐;张承乾;廖风云;齐心 - 深圳市韶音科技有限公司
  • 2021-04-01 - 2023-09-05 - G10L21/02
  • 一种语音增强方法和系统,包括:获取目标语音的第一信号和第二信号(410),第一信号和所述第二信号为目标语音在不同语音采集位置的语音信号;基于第一信号和/或第二信号确定目标语音的目标信噪比(420);基于目标信噪比确定对第一信号和第二信号的处理方式(430);基于确定的处理方式对第一信号和第二信号进行处理,得到目标语音对应的语音增强后的输出语音信号(440)。
专利分类
×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

400-8765-105周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top