[发明专利]一种语音增强方法、装置以及处理设备有效

申请号：	202110852033.9	申请日：	2021-07-27
公开（公告）号：	CN113793619B	公开（公告）日：	2023-10-13
发明（设计）人：	李登实;赵兰馨;高雨;官端正	申请（专利权）人：	江汉大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/30;G10L25/03;G10L13/047;G06N3/0475;G06N3/094
代理公司：	北京众达德权知识产权代理有限公司 11570	代理人：	张晓冬
地址：	430056 湖北省武***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种语音增强方法装置以及处理设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种语音增强方法，其特征在于，所述方法包括：

处理设备获取发送方发送的第一语音数据；

所述处理设备提取所述第一语音数据的第一语音特征以及第一背景噪声分贝特征；

所述处理设备采集自身所处环境的第二背景噪声分贝特征；

所述处理设备将所述第一语音特征、所述第一背景噪声分贝特征以及所述第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征，其中，所述语音特征处理模型是由随机抽取两组语音数据，并将第三语音数据对应的第三语音特征以及第三背景噪声分贝特征，以及第四语音数据对应的第四语音特征以及第四背景噪声分贝特征作为训练集，输入StarGAN模型，使得所述StarGAN模型以所述第三背景噪声分贝特征转换为所述第四背景噪声分贝特征为转换条件，并以所述第四语音特征作为转换目标，对所述第三语音特征进行语音特征变换处理，进行模型的训练得到的；

所述处理设备根据所述第二语音特征，对所述第一语音数据进行语音增强处理，得到第二语音数据。

2.根据权利要求1所述的方法，其特征在于，在所述处理设备将所述第一语音特征、所述第一背景噪声分贝特征以及所述第二背景噪声分贝特征输入语音特征处理模型，并得到语音特征处理模型输出的第二语音特征之前，所述方法还包括：

所述处理设备获取语音数据集合；

所述处理设备提取所述语音数据集合中每组所述语音数据对应的语音特征以及背景噪声分贝特征；

在每一轮的模型训练过程中，所述处理设备随机抽取两组语音数据，并将所述第三语音数据对应的所述第三语音特征以及所述第三背景噪声分贝特征，以及第四语音数据对应的所述第四语音特征以及所述第四背景噪声分贝特征作为训练集，输入所述StarGAN模型，使得所述StarGAN模型以所述第三背景噪声分贝特征转换为所述第四背景噪声分贝特征作为转换条件，以所述第四语音特征作为转换目标，对所述第三语音特征进行语音特征变换处理，进行模型的训练。

3.根据权利要求2所述的方法，其特征在于，所述语音数据集合具体包括在零分贝的背景噪声下采集的语音数据以及在不同分贝的背景噪声下采集到的Lombard语音数据，所述Lombard语音数据是指在发送方为降低干扰、提高语音可懂度时调整了说话方式的场景下得到的语音数据。

4.根据权利要求2所述的方法，其特征在于，模型训练过程中涉及的损失函数包括对抗性损失函数、域分类损失函数以及周期性一致损失函数。

5.根据权利要求2所述的方法，其特征在于，所述第一背景噪声分贝特征、所述第二背景噪声分贝特征、所述第三背景噪声分贝特征以及所述第三背景噪声分贝特征，分别为背景噪声的分贝范围。

6.根据权利要求2所述的方法，其特征在于，所述第一语音特征、所述第二语音特征、所述第三语音特征以及所述第四语音特征，分别包括频谱包络特征以及基频特征。

7.根据权利要求6所述的方法，其特征在于，所述频谱包络特征以及所述基频特征由WORLD声码器提取得到，所述处理设备根据所述第二语音特征，对所述第一语音数据进行语音增强处理，得到第二语音数据，包括：

所述处理设备将所述第二语音特征作为输入数据，通过所述WORLD声码器进行语音合成，以对所述第一语音数据进行语音增强处理，得到所述第二语音数据。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于江汉大学，未经江汉大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110852033.9/1.html，转载请声明来源钻瓜专利网。

上一篇：一种用于锂电池注液封口的拉铆密封方法
下一篇：翅片结构、换热器及空调器

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种语音增强方法、装置以及处理设备有效

专利文献下载