[发明专利]个性化语音合成模型创建、语音合成和测试方法及装置在审
申请号: | 201911201488.3 | 申请日: | 2019-11-29 |
公开(公告)号: | CN112885326A | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 黄智颖;霍媛圆;雷鸣 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G10L13/02 | 分类号: | G10L13/02;G10L13/047;G10L13/10;G10L15/05 |
代理公司: | 北京思格颂知识产权代理有限公司 11635 | 代理人: | 潘珺 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 个性化 语音 合成 模型 创建 测试 方法 装置 | ||
1.一种个性化语音合成模型的创建方法,其特征在于,包括:
从多说话人语音合成模型的多个说话人中,选出与所述用户属于相同类别的同类说话人;
根据所述用户的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
2.如权利要求1所述的方法,其特征在于,所述用户的训练数据,通过下述方式得到:对用户的数据进行处理,提取出对应的语言学特征和声学特征作为用户的训练数据;
所述根据与所述用户的训练数据和所选择的所述同类说话人,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型,包括:
将所述同类说话人在所述多说话人语音合成模型中的ID和对应的说话人表征输入所述多说话人语音合成模型,并使用用户的训练数据,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
3.如权利要求2所述的方法,其特征在于,所述用户的数据包括:语音数据和对应的文本;
所述对用户的数据进行处理,提取出对应的语言学特征和声学特征,包括:
将所述用户的文本通过语音合成自动标注确定标注信息,所述标注信息包括:发音标注、韵律标注;以及将所述用户语音数据通过语音识别和语音活动检测,确定音速边界;根据所述发音标注、韵律标注和音速边界,提取出对应的语言学特征;
对所述用户的语音数据进行声学特征的提取。
4.如权利要求2所述的方法,其特征在于,所述对所述用户的语音数据进行声学特征的提取之前,还包括:
对所述语音数据进行包括能量规整、解混响和能量增强的预处理操作。
5.如权利要求1-4任一项所述的方法,其特征在于,所述相同类别是指按照说话人的下述条件任一或者组合条件所确定的同一类别:性别、年龄、说话方式和说话环境。
6.如权利要求1-4任一项所述的方法,其特征在于,对所述多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型过程中,对所述多说话人语音合成模型的所有模型参数进行更新。
7.一种个性化语音合成模型的创建方法,其特征在于,包括:
根据预设的场景,从用户的与所述场景对应的至少一个社交网络中选取与所述用户相似的至少一个说话人;
从所述至少一个近似说话人中,选择出与所述用户属于相同类别的同类说话人;
根据所述用户的训练数据和所选择的所述同类说话人,对所述至少一个近似说话人对应的多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
8.一种个性化语音合成模型的创建方法,其特征在于,包括:
根据预设的各近似用户集合的优先级,按照优先级高低的顺序,依次在各近似说话人集合中查找与所述用户相似的至少一个近似说话人;
从所述至少一个近似说话人中,选择与所述用户属于相同类别的同类说话人;
根据所述用户的训练数据和所选择的所述同类说话人,对所述至少一个近似说话人对应的多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
9.一种个性化语音合成模型的创建方法,其特征在于,包括:
根据用户的各近似用户集合的优先级,按照优先级高低的顺序依次向所述用户所在客户端推送各级别的近似说话人集合;
接收所述客户端返回的从各级别的近似说话人集合中选择的至少一个近似说话人;
从所述至少一个近似说话人中,选择与所述用户属于相同类别的同类说话人;
根据所述用户的训练数据和所选择的所述同类说话人,对所述至少一个近似说话人对应的多说话人语音合成模型进行训练,得到所述用户的个性化语音合成模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911201488.3/1.html,转载请声明来源钻瓜专利网。