[发明专利]语音转换方法、装置、电子设备及可读存储介质有效
| 申请号: | 201710814245.1 | 申请日: | 2017-09-11 |
| 公开(公告)号: | CN107705802B | 公开(公告)日: | 2021-01-29 |
| 发明(设计)人: | 方博伟;卓鹏鹏;张康;尤嘉华;张伟 | 申请(专利权)人: | 厦门美图之家科技有限公司 |
| 主分类号: | G10L25/18 | 分类号: | G10L25/18;G10L25/24;G10L15/06 |
| 代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 苏胜 |
| 地址: | 361000 福建省厦门市*** | 国省代码: | 福建;35 |
| 权利要求书: | 查看更多 | 说明书: | 查看更多 |
| 摘要: | |||
| 搜索关键词: | 语音 转换 方法 装置 电子设备 可读 存储 介质 | ||
1.一种语音转换方法,其特征在于,所述方法包括:
基于预设切分规则将待转换说话人的输入语音切分为多个帧单元,其中,每个帧单元包括多个连续语音帧;
提取每个所述帧单元的梅尔倒谱特征和基频特征;
将所述帧单元归类到相应的语音音素集合;
根据所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征;
基于所述帧单元的基频和帧单元对应的原始语音音素集合的基频特征和目标语音音素集合的基频特征,计算得到输出基频,其中,所述原始语音音素集合为待转换说话人语音对应的语音音素集合,所述目标语音音素集合为目标音色说话人语音对应的语音音素集合;
根据所述输出梅尔倒谱特征及输出基频计算得到所述输入语音对应的目标音色说话人的输出语音。
2.如权利要求1所述的语音转换方法,其特征在于,所述方法还包括通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数,其中,原始语音库为待转换说话人语音库,目标语音库为目标音色说话人的语音库;
所述通过原始语音音素集合和目标语音音素集合平行训练得到高斯混合模型参数及基频转换参数的步骤包括:
采用所述预设切分规则对原始语音库中的原始语音及目标语音库中的目标语音进行切分,得到原始语音对应的多个帧单元和目标语音对应的多个帧单元;
提取原始语音和目标语音的梅尔倒谱特征及基频特征;
建立所述原始语音与目标语音之间的对应关系;
将原始语音库划分为单语音音素集合和多语音音素集合;
根据所述原始语音与目标语音之间的对应关系,将所述目标语音库划分成与所述原始语音库相对应的语音音素集合;
将原始语音的帧单元与目标语音的帧单元添加到相应的至少一个语音音素集合中;
基于所述原始语音的基频特征及所述目标语音的基频特征计算每个语音音素集合的基频转换参数;
基于每个语音音素集合,联合原始语音与目标语音的梅尔倒谱特征,训练获得每个语音音素集合的高斯混合模型参数。
3.根据权利要求1所述的语音转换方法,其特征在于,所述提取所述帧单元的梅尔倒谱特征和基频特征的步骤包括:
对所述帧单元进行时频域变化得到每一帧单元的频谱信息;
从所述频谱信息中提取得到所述帧单元的基频特征;
采用梅尔滤波器组提取得到所述帧单元的梅尔倒谱特征。
4.根据权利要求3所述的语音转换方法,其特征在于,所述基于所述帧单元的梅尔倒谱特征和所述帧单元对应语音音素集合的高斯混合模型参数,计算得到输出梅尔倒谱特征的步骤包括:
根据所述帧单元对应语音音素集合的序号,提取得到所述语音音素集合对应的高斯混合模型参数;
通过提取的高斯混合模型参数构建所述输出梅尔倒谱特征与所述帧单元的梅尔倒谱特征之间的映射关系,计算得到所述输出梅尔倒谱特征。
5.如权利要求1所述的语音转换方法,其特征在于,输入语音信息包括输入语音基频序列,以及其对应的原始语音音素集合的基频均值和基频方差及目标语音音素集合的基频均值和基频方差,计算得到输出基频的步骤包括:
将输入语音基频序列与对应的原始语音音素集合的基频均值相减,所得的差值与目标语音音素集合的基频方差和原始语音音素集合的基频方差之商相乘,相乘得到的乘积与目标语音音素集合的基频均值相加即得到输出基频。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门美图之家科技有限公司,未经厦门美图之家科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710814245.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种多功能快递系统
- 下一篇:一种考勤系统以及考勤方法





