[发明专利]一种语音合成方法及装置有效
申请号: | 201711206137.2 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107705783B | 公开(公告)日: | 2022-04-26 |
发明(设计)人: | 宋阳;孟凡博;樊博;段文君;牛露云;赵超 | 申请(专利权)人: | 北京搜狗科技发展有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/08 |
代理公司: | 深圳市深佳知识产权代理事务所(普通合伙) 44285 | 代理人: | 王仲凯 |
地址: | 100084 北京市海淀区中关*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 合成 方法 装置 | ||
1.一种语音合成方法,其特征在于,包括:
确定文本特征数据、目标音频的风格特征以及源音频数据的音色特征;所述风格特征包括时长韵律特征、基频特征、能量特征中的至少一种,所述目标音频的风格特征用于表征一个人的说话风格、说话特点或者语言表现力;
去除所述源音频数据的状态信息,所述状态信息表征源发音人的风格关联性;
根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成,得到合成语音数据;所述合成语音数据具有所述去除状态信息的源音频数据的音色特征以及所述目标音频的风格特征。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征进行语音合成,得到合成语音数据包括:
根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征数据;
将所述目标音频的基频特征和/或能量特征,与所述去除状态信息的源音频数据的声学特征数据进行融合,得到融合后的声学特征数据;
将所述声学特征数据转换成语音波形,得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。
3.根据权利要求2所述的方法,其特征在于,所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征包括:
根据所述目标音频的时长韵律特征确定目标时长;
根据所述文本特征数据、所述目标时长、所述去除状态信息的源音频数据的音色特征,得到所述去除状态信息的源音频数据的声学特征数据。
4.根据权利要求2所述的方法,其特征在于,所述根据所述文本特征数据、所述目标音频的时长韵律特征、所述去除状态信息的源音频数据的音色特征得到所述去除状态信息的源音频数据的声学特征包括:
根据所述文本特征数据、所述去除状态信息的源音频数据的时长特征,得到预测时长;
根据所述预测时长与目标时长进行线性插值处理,得到插值后的时长特征;所述目标时长根据所述目标音频数据的时长韵律特征确定;
根据所述文本特征数据、所述插值后的时长特征、所述去除状态信息的源音频数据的音色特征,得到所述去除状态信息的源音频数据的声学特征数据。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
在得到融合后的声学特征数据后,对所述融合后的声学特征数据进行线性插值处理,使得所述融合后的声学特征数据的时长与所述目标时长一致。
6.根据权利要求1所述的方法,其特征在于,所述根据所述文本特征数据、所述目标音频的风格特征以及去除状态信息的源音频数据的音色特征,进行语音合成,得到合成语音数据包括:
根据所述文本特征数据、所述去除状态信息的源音频数据的音色特征和时长特征,得到所述去除状态信息的源音频数据的声学特征数据;
将所述目标音频的基频特征和/或能量特征,与所述去除状态信息的源音频数据的声学特征数据进行融合,得到融合后的声学特征数据;
对所述融合后的声学特征数据进行线性插值处理,使得所述融合后的声学特征数据的时长与目标时长一致;所述目标时长根据所述目标音频数据的时长韵律特征确定;
将处理后的声学特征数据转换成语音波形,得到具有所述目标音频的风格特征以及所述去除状态信息的源音频数据的音色特征的合成语音数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京搜狗科技发展有限公司,未经北京搜狗科技发展有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711206137.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种掺杂型铜锌锡硫薄膜材料
- 下一篇:光伏组件粘结密封装置